Aus Online-Stellenangebote können, unter bestimmten Voraussetzungen, Erkenntnisse über Entwicklungen auf dem Arbeitsmarkt gewonnen werden. So können zum Beispiel Erkenntnisse über die Nachfrage nach ausgewählten Berufen generiert werden. Aus diesem Grund hat das Projekt Kompetenzen für die Arbeit von morgen eine große Datenbank mit Online-Stellenangeboten in Deutschland erworben.
Um besser zu verstehen, wie die in dieser Datenbank enthaltenen Online-Stellenanzeigen über Berufe und Wirtschaftszweige verteilt sind, haben wir einen Datenintegrationsprozess entwickelt, der die OJA-Daten mit den statistischen Daten der Bundesagentur für Arbeit gemäß der Klassifikation der Berufe (KldB 2010) und der Klassifikation der Wirtschaftszweige (WZ 2008) vergleicht. Mit Hilfe dieses Prozesses werden verschiedene Dateien, die Daten zu Beschäftigten, begonnenen Beschäftigungsverhältnissen und Online-Stellenangeboten enthalten, bereinigt und integriert und in einer einzigen Datei für jede Klassifikationsart (Klassifikation der Wirtschaftszweige 2008 und Klassifikation der Berufe 2010) sowie Region (Deutschland insgesamt und jedes Bundesland) zusammengeführt.
Da dieser Prozess für alle Forschenden, die mit Online-Stellenangebotsdaten arbeiten, von Interesse sein kann, haben wir die Skripte zur Datenverarbeitung in einem frei zugänglichen GitHub-Repository veröffentlicht. Der verfügbare Code richtet sich an alle, die mit OJA-Daten arbeiten und ein besseres Verständnis für die Verteilung ihrer Daten bezüglich der genannten Kriterien erlangen möchten. Er ist in Python geschrieben, so dass ein Grundverständnis der Programmiersprache erforderlich ist, um die Skripte auszuführen und anzupassen. Außerdem müssen die Online-Stellenangebotsdaten bereits Variablen mit den Informationen zur Klassifikation der Berufe 2010 bzw. der Klassifikation der Wirtschaftszweige 2008 beinhalten. Der Code beinhaltet keinen automatischen Prozess zur Zuordnung der OJAs zu diesen Klassifikationen.