Das Projekt LIQUID: Einblicke in die externe Evaluation von Vielfalt fördern

Diagramm: Vereinfachtes Angebots-Nutzungs-Modell der Lehrerfortbildung — Abb. 1: Vereinfachtes Angebots-Nutzungs-Modell der Lehrerfortbildung

Betrachtet man die Wirksamkeit einer Lehrerfortbildung, können Angebots-Nutzungs-Modelle einen hilfreichen Orientierungsrahmen bilden, um in Frage kommende Einflussfaktoren zu ordnen, zu bündeln und das komplexe Zusammenwirken dieser Faktoren vereinfacht darzustellen (Lipowsky 2014). Angebots-Nutzungs-Modellen liegt die Annahme zugrunde, dass zwischen dem Angebot von Lerngelegenheiten und deren Wahrnehmung und Nutzung durch die Lernenden zu unterscheiden ist. Bezogen auf Fortbildungen bedeutet diese Annahme, dass nicht allein die konzeptionellen und strukturellen Merkmale einer Fortbildung, sondern auch die Wahrnehmung und Nutzung der Lernangebote durch die teilnehmenden Lehrpersonen darüber entscheiden, wie viel die Lehrpersonen von einer Fortbildung profitieren. In Abbildung 1 ist ein vereinfachtes Angebots-Nutzungs-Modell der Lehrerfortbildung dargestellt, aus dem das komplexe Zusammenspiel der unterschiedlichen Merkmalsbereiche deutlich wird.

Die Wahrnehmung und Verarbeitung der bestehenden Lerngelegenheiten im Rahmen einer Fortbildung kann sich von Lehrperson zu Lehrperson unterscheiden. Hierbei spielen individuelle Voraussetzungen der Lehrpersonen sowie die spezifischen Bedingungen ihres schulischen Arbeitskontextes eine Rolle. Als bedeutsame Voraussetzungen der teilnehmenden Lehrpersonen werden u. a. affektiv-motivationale, volitionale, kognitive und persönlichkeitsbezogene Merkmale sowie berufsbiografische Erfahrungen angenommen. Es ist jedoch noch wenig erforscht, wie sich diese Merkmale im Einzelnen auf die Wahrnehmung und Nutzung von Lerngelegenheiten einer Lehrerfortbildung auswirken.

Auch Faktoren des schulischen Kontexts dürften das Lernen von Lehrpersonen während einer Fortbildung beeinflussen. Annehmen lässt sich z. B., dass die Unterstützung durch die Schulleitung, das Kollegium und die Fachgruppe, die Passung der Fortbildungsinhalte zum bestehenden Schulprogramm sowie Bedingungen der Klassen, in denen die Lehrpersonen unterrichten, für den Lern- und Transferprozess eine Rolle spielen. Ausgehend von Ansätzen des situierten Lernens (Lave & Wenger 1991) scheint es plausibel anzunehmen, dass durch die gemeinsame Teilnahme von Lehrpersonen eines Kollegiums die Möglichkeiten für einen intensiven ko-konstruktiven Austausch über die Fortbildungsinhalte zunehmen und Lehrpersonen eher in der Lage sind, diese mit den eigenen schulischen und/oder unterrichtlichen Anforderungen zu verbinden. Eine Voraussetzung für diese förderliche Wirkung der gemeinsamen Teilnahme von mehreren Lehrpersonen eines Kollegiums dürfte dabei eine intensive kooperative Praxis der Lehrkräfte sein. Offen ist dabei, ob es förderlicher für die Wirksamkeit und Nachhaltigkeit einer Fortbildung ist, wenn das ganze Schulkollegium an einer Fortbildung teilnimmt, was bedeuten dürfte, dass auch Lehrpersonen teilnehmen, die z. B. über ungünstigere motivationale Voraussetzungen verfügen, oder wenn nur eine Teilgruppe eines Kollegiums, die sich freiwillig für die Teilnahme entschieden hat, die Fortbildung besucht. Die Umsetzung der Fortbildungskonzeption und die Gestaltung der Lernangebote im Rahmen von Fortbildungen dürften auch durch Merkmale der Fortbildnerinnen und Fortbildner beeinflusst sein. Je weniger standardisiert ein Fortbildungsprogramm ist, desto größer dürfte der Einfluss der einzelnen Fortbildnerinnen und Fortbildner ausfallen. Darüber aber, welche spezifischen Eigenschaften von Fortbildnerinnen und Fortbildnern wichtig sind und welche weniger relevant sind, liegen bislang kaum empirische Befunde vor. Ergebnisse einer amerikanischen Interviewstudie (Linder 2011) und einer deutschen Studie (Jäger & Bodensohn 2007) liefern diesbezüglich Hinweise aus Sicht der teilnehmenden Lehrpersonen. Genannt werden z. B. ein sicheres professionelles Auftreten, ein hohes Fachwissen über das Fortbildungsthema, die fachdidaktische und pädagogische Qualität der Fortbildnerinnen und Fortbildner sowie die eigene Motivation für die Tätigkeit als Fortbildnerin und Fortbildner.

Im Vergleich zu den bisher genannten Merkmalsbereichen ist die Befundlage zur Bedeutung didaktischer und konzeptioneller Fortbildungsmerkmale reichhaltiger (s. ausführlicher z. B. Lipowsky 2014). Zu den förderlichen konzeptionellen Fortbildungsmerkmalen zählen etwa eine Verschränkung von Input-, Erprobungs- und Reflexionsphasen, ein fachlicher Fokus während der Fortbildung sowie eine Orientierung an Ergebnissen der Unterrichtsforschung. Auch Feedback für die teilnehmenden Lehrpersonen sowie das Herstellen von Situationen, in denen Lehrpersonen die Wirkungen ihres eigenen Handelns bewusst erleben und in denen sie im professionellen Austausch mit anderen Lehrpersonen auf das Lernen von Schülerinnen und Schülern fokussieren, zählen zu den Merkmalen wirksamer Fortbildungen (z. B. Lipowsky & Rzejak 2014, 2015; Timperley et al. 2007). Aussagen über die relative Bedeutung dieser Merkmale, also darüber, welche Merkmale wichtiger sind als andere, sind jedoch kaum möglich, da die untersuchten Fortbildungen meist mehrere Merkmale beinhalten. Das neuseeländische Fortbildungsprogramm ‚‚Literacy Professional Development Project" ist beispielsweise durch einen fachlichen Fokus, durch Feedback an die Lehrpersonen und durch eine Verschränkung von Input, Erprobungs- und Reflexionsphasen gekennzeichnet (Parr et al. 2007). Hinzu kommt, dass die Bedeutung der einzelnen Aspekte auch abhängig von den Zielen einer Fortbildung sein dürfte. Beispielsweise ist anzunehmen, dass eine Fortbildung, die ausschließlich auf den Erwerb von Wissen abzielt, auch dann wirksam sein kann, wenn sie vergleichsweise kurz ist.

Die Konkretisierung, welche Ziele mit einer Fortbildung verfolgt werden, stellt einen zentralen Prozess bei der Planung einer Fortbildung dar und ist auch für die Durchführung einer Fortbildungsevaluation bedeutsam. Bestehende Modelle, z. B. das Ebenenmodell zur Wirksamkeitsevaluation von Kirkpatrick (1994), können helfen, Fortbildungsziele zu systematisieren:

1. Ebene – Unmittelbare Reaktionen der teilnehmenden Lehrpersonen
Bei den unmittelbaren Reaktionen kann zwischen affektiven Urteilen, z. B. Freude an der Fortbildung und/oder Zufriedenheit und Akzeptanz des Programms, und relevanzbezogenen Urteilen, d. h. Nützlichkeitsbewertungen, unterschieden werden. Häufig fallen die affektiven Urteile von Teilnehmerinnen und Teilnehmern tendenziell hoch aus. Sie haben aber wenig Vorhersagekraft dafür, wie viel Lehrpersonen im Rahmen von Fortbildungen lernen und inwieweit sich das Handeln der Lehrpersonen im Unterricht durch die besuchte Fortbildung verändert, denn sie hängen, nach bisherigem Kenntnisstand, in nur geringem Umfang mit entsprechenden Veränderungen zusammen (Alliger et al. 1997; Goldschmidt & Phelps 2007; Wahl 2001).
2. Ebene – Wirkungen auf Wissen, Einstellungen und affektiv-motivationale Merkmale
Auf einer zweiten Ebene kann eine Fortbildung auf eine Weiterentwicklung kognitiver und affektiv-motivationaler Merkmale von Lehrpersonen abzielen. Hierzu würde man beispielsweise Veränderungen des Wissens, der Vorstellungen, der Überzeugungen, Erwartungen, Interessen und Motivationen rechnen.
3. Ebene – Wirkungen auf das unterrichtliche Handeln
Intendiert eine Fortbildung, das unterrichtliche Handeln von Lehrpersonen zu verändern, z. B. die Art und Weise, wie Lehrpersonen Aufgaben stellen, Fragen formulieren und/oder den Lernenden Feedback geben, wird die dritte Ebene der Fortbildungswirksamkeit adressiert.
4. Ebene – Wirkungen auf das Lernen der Schülerinnen und Schüler
Fortbildungen verfolgen häufig auch das Ziel, das Lernen derjenigen Schülerinnen und Schüler positiv zu beeinflussen, deren Lehrpersonen an der Fortbildung teilgenommen haben. Evaluationskriterien bewegen sich dann auf der vierten Ebene. Studien untersuchen beispielsweise, ob Schülerinnen und Schüler, deren Lehrpersonen an einer Fortbildung teilgenommen haben, im Mittel größere Leistungszuwächse erzielen als Schülerinnen und Schüler, deren Lehrpersonen nicht an der Fortbildung teilgenommen haben.

Angesichts der Komplexität des Fortbildungsprozesses und der Vielzahl von Faktoren, die das Lernen von Schülerinnen und Schülern beeinflussen, ist es nicht selbstverständlich, dass Fortbildungen mit Effekten bis auf die Ebene der Schülerinnen und Schüler verbunden sind. Internationale Metaanalysen aus den letzten 10 – 15 Jahren konnten jedoch nachweisen, dass Lehrerfortbildungen dieses Potenzial haben (Timperley et al. 2007; Tinoca 2004; Wenglinsky 2002; Yoon et al. 2007).

Bei der Bewertung dieser Ergebnisse sollte allerdings berücksichtigt werden, dass die Fortbildungen, die in die Metaanalysen einbezogen wurden, häufig eine aufwendige Konzeption aufweisen, die in enger Kooperation mit Wissenschaftlerinnen und Wissenschaftlern entwickelt wurde, und somit nicht dem Format von vielen staatlich angebotenen und häufig eintägig stattfindenden Fortbildungen entspricht.

Aus den operationalisierten Fortbildungszielen lassen sich zentrale Kriterien zur Beurteilung der Fortbildungswirksamkeit ableiten. Aus diesem Grund ist bereits bei der Planung einer Fortbildung und deren Evaluation zu bestimmen, welche Ziele durch die Fortbildung angestrebt werden und wie die Zielerreichung gemessen werden kann. Erschwert wird der Prozess der Klärung, Formulierung und Operationalisierung von Zielen dadurch, dass Ziele vielschichtig und komplex sind: Was bedeutet es z. B., dass Lehrpersonen durch eine Fortbildung kompetenzorientierter unterrichten sollen? Hier ist es erforderlich zu bestimmen, wodurch sich ein kompetenzorientierter Unterricht auszeichnet, an welchen messbaren Indikatoren dies festgemacht werden kann und welche Datenquellen heranzuziehen sind.

Häufig interessiert weniger ein bestimmter Status quo am Ende der Fortbildung, sondern die Entwicklungen, die seit dem Anfang der Fortbildung bis zu deren Abschluss stattgefunden haben. Es geht also um die Frage, wie sich z. B. das Unterrichtsklima in der Klasse einer Lehrperson durch die Teilnahme an der Fortbildung verändert hat. Stellen Veränderungen und/oder Entwicklungen bei Lehrpersonen oder deren Schülerinnen und Schülern das Evaluationskriterium dar, bezeichnet man die Evaluation als Wirksamkeitsevaluation (Gollwitzer & Jäger 2009). Die Veränderungen im zeitlichen Verlauf werden als eine Wirkung der Teilnahme an dem Fortbildungsprogramm angenommen und untersucht. Um Aussagen über Entwicklungen treffen zu können, sind daher mindestens zwei Erhebungszeitpunkte erforderlich. Ein Erhebungszeitpunkt findet vor/am Anfang einer Fortbildung statt und ein zweiter Erhebungszeitpunkt am Ende der Fortbildung. Durch den Vergleich der Daten von beiden Erhebungszeitpunkten können Rückschlüsse auf Entwicklungen gezogen werden.

Da neben der Teilnahme an einer Fortbildung jedoch weitere Faktoren zu Entwicklungen und/oder Veränderungen führen können (z. B. zunehmende Erfahrungen im Laufe der Zeit, informelles Lernen am Arbeitsplatz, Veränderungen im Schuljahresrhythmus etc.), ist es erforderlich, die Entwicklungen der Fortbildungsgruppe (Experimental-/Untersuchungsgruppe) mit denen einer Kontrollgruppe (KG), d. h. Lehrpersonen, die (noch) nicht an der Fortbildung teilnehmen, zu vergleichen.

Die Zuweisung von Lehrpersonen zur Experimental-/Untersuchungsgruppe (UG) oder Kontrollgruppe erfolgt in einer Studie mit experimentellem Design zufällig (randomisiert). Bei einer ausreichenden Größe der Stichprobe geht man davon aus, dass eine randomisierte Zuweisung dazu führt, dass sich die beiden Lehrergruppen (Fortbildungs- /Untersuchungsgruppe und Kontrollgruppe) nur in der Fortbildungsteilnahme, aber nicht in sonstigen Eigenschaften systematisch unterscheiden. Wenn unter solchen Bedingungen am Ende der Fortbildung Unterschiede zwischen Untersuchungs- und Kontrollgruppe im Evaluationskriterium feststellbar sind, kann man dies auf die Teilnahme an der Fortbildung zurückführen.

Bei Studien zur Wirksamkeit von Fortbildungen ist eine zufällige Zuweisung zur Experimental- oder Kontrollgruppe häufig aber nicht möglich, z. B. weil sich, wie im Projekt Vielfalt fördern, ganze Kollegien oder Fachgruppen einer Schule für die gemeinsame Teilnahme an einer Fortbildung entscheiden. Bei einer Evaluation mit solchen natürlichen Gruppen spricht man von einem quasi-experimentellen Design. Wenn eine zufällige Zuordnung der Personen im Rahmen einer Evaluation nicht durchgeführt werden kann, ist es erforderlich, dass zusätzlich zu den Wirksamkeitskriterien weitere Merkmale (Störvariablen) erfasst werden, die – neben der Zugehörigkeit zu den beiden Gruppen – ebenfalls Einfluss auf die Zielvariable nehmen können. In den Analysen werden diese potenziell relevanten Einflussvariablen dann kontrollierend einbezogen.

4.1 Struktur und Ziele der Fortbildung Vielfalt fördern
Die Lehrerfortbildung Kinder und Jugendliche in ihrer Vielfalt fördern - Unterricht fokussiert auf individuelle Förderung weiterentwickeln (kurz: Vielfalt fördern) richtet sich an Kollegien weiterführender Schulen, die ihre adaptive Lehrkompetenz und ihren Unterricht weiterentwickeln möchten, sodass unterschiedliche Voraussetzungen und Potenziale von Schülerinnen und Schülern angemessener berücksichtigt und gefördert werden (Müncher & Sturm-Schubert 2016).

Die (Weiter-)Qualifizierung der Lehrpersonen erfolgt durch vier Fortbildungsmodule aus mehreren (Modul-)Bausteinen mit unterschiedlichen inhaltlichen Schwerpunkten (Teamentwicklung, Diagnostik, Didaktik I und Didaktik II). Für die Module sind durchschnittlich jeweils 2,5 Fortbildungstage im Laufe eines Schulhalbjahres vorgesehen. Im Anschluss an einen anfänglichen pädagogischen Tag sieht der idealtypische Verlauf der Fortbildung demnach eine Fortbildungszeit von insgesamt zwei Jahren mit zehn Tagen vor, während der praxisrelevante Inputphasen, unterrichtliche Erprobungen und deren Reflexion stattfinden. Weitere Prinzipien, die sich durch die gesamte Fortbildung ziehen sollen, sind die Arbeit in Teams, die kollegiale Unterrichtshospitation und die Orientierung an einem Qualitätszirkel zur Unterrichtsentwicklung (Ist-Stand bestimmen, Entwicklungsbedarfe klären, Maßnahmen planen, umsetzen und evaluieren) (Sturm-Schubert: & Müncher: ‚‚Die Inhalte der Fortbildung")

In die Entwicklung von Vielfalt fördern wurde eine wissenschaftliche Leitung einbezogen (s. Beitrag ‚‚Von der Theorie in die Praxis – Lehrerinnen und Lehrer lernen Vielfalt fördern" von Fischer & Amrhein), durch die aktuelle Befunde der Schul- und Unterrichtsforschung sowie Erkenntnisse zur Wirksamkeit von Lehrerfortbildungen in die Konzeption und Entwicklung der Fortbildung einfließen sollten.

Ein prägendes Charakteristikum von Vielfalt fördern stellt das Selbstverständnis als lernendes Projekt bezogen auf die eigene Konzeption dar. Dies drückt sich beispielsweise durch den zeitgleichen Beginn der Evaluation mit dem Start des Projekts aus. Die externe Evaluation durch die Universität Kassel sollte Erkenntnisse zur Wahrnehmung, Nutzung und Effektivität der Fortbildung ermöglichen.

4.2 Ein Einblick in Ziele der Evaluation
Die Ziele, die von den Entwicklern für die einzelnen Module formuliert wurden, stellen leitende Anhaltspunkte für die Evaluation dar, denn dadurch wird markiert, welche positiven Entwicklungen und/oder Veränderungen aufgrund der Teilnahme an Vielfalt fördern erwartet werden.
Für jedes der vier Module der Fortbildung Vielfalt fördern wurden mehrere Ziele formuliert, die sich teilweise sowohl auf die Ebene der Lehrpersonen als auch auf die Ebene der Schülerinnen und Schüler beziehen (s. Abschnitt. 2). Vielfach bezeichnen die Ziele komplexe Phänomene, für die zunächst Indikatoren zu bestimmen waren, um dann in einem zweiten Schritt Evaluationskriterien festzulegen.
Da es jedoch den Umfang dieses Beitrags übersteigen würde, sämtliche Ziele und Evaluationskriterien aufzulisten, wird im Folgenden nur eine Auswahl dargestellt.

Mit dem ersten Modul zur Teambildung an Schulen wurde beabsichtigt, dass sich unterschiedliche Aspekte der Zusammenarbeit von Lehrpersonen einer Schule intensivieren und selbstverständlicher werden. Um Aussagen über entsprechende Veränderungen und/oder Entwicklungen aufgrund des ersten Moduls treffen zu können, wurden die Lehrpersonen der ersten Fortbildungskohorte im Vorfeld und im Anschluss an das erste Modul zu ihrer Zusammenarbeit im Kollegium befragt. Angelehnt an Merkmale professioneller Lerngemeinschaften wurde beispielsweise erfasst, inwieweit die Lehrpersonen bei ihrer Zusammenarbeit auf das Lernen der Schülerinnen und Schüler fokussieren und ihren Unterricht für wechselseitige Hospitationen öffnen.

Im Mittelpunkt des zweiten Moduls stand das Ziel, dass die Lehrpersonen ihre prozessdiagnostischen Kompetenzen erweitern und zentrale diagnostische Schritte systematisch und erfolgreich anwenden können. Eine Überprüfung dieses Ziels ist komplex, denn es gilt beispielsweise zu bestimmen, was systematisch und was erfolgreich bedeutet. Hinzu kommt, dass mit dem Ziel die Handlungskompetenz der Lehrpersonen – ein Ziel auf der dritten Ebene der Wirksamkeit – fokussiert wird. Hierbei wurde auf ein erprobtes Instrument von Klug (2011) zurückgegriffen. Es handelt sich dabei um einen Szenariotest, durch den das diagnostische Vorgehen mit offenen Fragen in Bezug auf einen fiktiven Schüler, der Probleme im Lernverhalten hat, erfasst wird.

Für das dritte und vierte Modul wurden insbesondere Ziele für die Lehrpersonen formuliert, die sich auf deren professionelles Handeln in Fragen des Lehrens beziehen. Beispielsweise sollten die Lehrpersonen nach dem dritten und vierten Modul kompetenter darin werden, durch ihr Classroom Management ein optimales Lernumfeld für die Schülerinnen und Schüler ihrer Klasse zu schaffen und aus den Ergebnissen ihrer (Schüler-)Diagnose Konsequenzen für eine adaptive Unterrichtsgestaltung zu ziehen.

Für das professionelle Handeln einer Lehrperson reichen bestimmte Fähigkeiten in der Regel jedoch nicht aus, sondern es erfordert darüber hinaus das individuelle Zutrauen in die eigene Person, eine herausfordernde Aufgabe oder Situation erfolgreich bewältigen zu können. Das bedeutet beispielsweise, dass es nicht ausreicht, wenn eine Lehrperson bestimmte Möglichkeiten des Classroom Managements kennt und/oder Techniken des Classroom Managements einsetzen kann, sondern eine Lehrperson muss zusätzlich überzeugt und sich sicher sein, dass sie den Unterricht störungsfrei gestalten kann, wenn eine Unterrichtssituation dies erfordert. Ein entsprechender handlungsbezogener Optimismus wird als Selbstwirksamkeitserwartung bezeichnet und als eine wichtige Voraussetzung für professionelles Handeln betrachtet. In LIQUID wurden daher verschiedene Aspekte der Selbstwirksamkeitserwartung in Bezug auf das Lehren (z. B. Motivierung, Disziplinierung, adaptive Unterrichtsgestaltung) als Evaluationskriterien herangezogen.

Für die Module wurden auch Ziele auf der Ebene der Schülerinnen und Schüler formuliert. Durch die Fortbildung ihrer Lehrkräfte sollten sie z. B. eher in der Lage sein, den eigenen Lernprozess selbst zu steuern, d. h. beispielsweise sich selbst zu beobachten, zu befragen und zu testen. Für die Steuerung des eigenen Lernprozesses sind metakognitive Lernstrategien unverzichtbar. Daher wurde im Rahmen der Evaluation im Fach Deutsch ein erprobter metakognitiver Wissenstest und im Fach Mathematik ein erprobtes Verfahren zur Erfassung von Strategiewissen eingesetzt. Um auszuschließen, dass sich mögliche Veränderungen im metakognitiven bzw. strategiebezogenen Wissen alleine durch zunehmende Schulerfahrungen erklären lassen, wurde auch auf Schülerebene eine Kontrollgruppe einbezogen. Da nicht ausgeschlossen werden kann, dass sich die Schülerinnen und Schüler der fortgebildeten und der nichtfortgebildeten Lehrpersonen schon vor der Fortbildung systematisch unterscheiden, wurde die Entwicklung des Wissens in beiden Schülergruppen betrachtet (s. Abschnitt 3). Als weitere Evaluationskriterien auf Schülerebene wurden beispielsweise die Entwicklung des Interesses in Mathematik und der Lesemotivation in Deutsch, die Entwicklung der Feedbackpraxis im Unterricht, der Einstellung zum kooperativen Lernen sowie der Leistungen in Mathematik und im Lesen herangezogen.

Die Evaluation sollte aber nicht nur als Rückmeldung dazu dienen, ob durch die Teilnahme an Vielfalt fördern die damit intendierten Ziele erreicht werden, sondern auch Hinweise darauf geben, wie die Fortbildung von den Lehrpersonen wahrgenommen, genutzt und bewertet (1. Wirksamkeitsebene) wird. Für die Weiterentwicklung einer Fortbildung können Informationen, z. B. zur Anwendung von Fortbildungsinhalten im Unterricht, zur zeitlichen Belastung durch die Fortbildung, zur Nützlichkeit und erlebten Relevanz der Inhalte, wichtige Anhaltspunkte sein. Darüber hinaus können entsprechende Einschätzungen hinzugezogen werden, um Wirkungen, die sich am Ende eines Fortbildungsmoduls zeigen, besser erklären zu können.

4.3 Kohorten- und Erhebungsstruktur
Die Evaluation der vier Fortbildungsmodule von Vielfalt fördern erfolgte in zwei Kohorten. Diese Zweiteilung resultierte nicht aus forschungsmethodischen Überlegungen, sondern stellt ausschließlich eine Konsequenz administrativer Entscheidungsprozesse im Vorfeld der Evaluation dar.

Die Evaluation des ersten Moduls zur Teamentwicklung in Kollegien bezog Schulen ein, die im Schuljahr 2012/2013 mit der Fortbildung begonnen haben und aus den Regionen Bonn, Borken, Düsseldorf, Gütersloh und Hamm stammen (erste Kohorte). In die Evaluation des zweiten, dritten und vierten Moduls wurden Schulen einbezogen, die im Schuljahr 2013/2014 mit der Fortbildung begonnen haben (zweite Kohorte). Es handelt sich dabei schwerpunktmäßig um Real- und Sekundarschulen aus den Regionen Kleve, Gelsenkirchen, Bielefeld, dem Oberbergischen Kreis und dem Hochsauerlandkreis.

Bei beiden Evaluationskohorten sollte die Komplexität von Fortbildungsprozessen (s. Abschnitt 1) berücksichtigt werden. Das Evaluationskonzept war aus diesem Grund multiperspektivisch angelegt und bezog unterschiedliche Personengruppen ein. In beiden Kohorten wurden die Moderatorinnen und Moderatoren, die Schulleiterinnen und Schulleiter sowie die teilnehmenden Lehrpersonen schriftlich befragt. Primär handelte es sich bei den teilnehmenden Lehrpersonen um ganze Kollegien einer Schule, da Vielfalt fördern die Teilnahme ganzer Kollegien vorsah. Vereinzelt haben sich Schulen, wenn es sich um große Systeme handelt, jedoch auch dafür entschieden, mit einem Teilkollegium in die Fortbildung einzusteigen. Von den Entwicklerinnen und Entwicklern der Fortbildung wurde diesen Schulen empfohlen, dass die Lehrpersonen der 5. Jahrgangsstufe mit der Fortbildung beginnen. Darüber hinaus wurden bei der zweiten Kohorte auch Schülerinnen und Schüler von fortgebildeten Lehrpersonen in die Evaluationsstichprobe aufgenommen.

In beiden Kohorten wurde eine Kontrollgruppe einbezogen. Bei der ersten Kohorte bestand diese aus Schulleiterinnen und Schulleitern sowie Lehrpersonen, die nicht an Vielfalt fördern teilgenommen haben. Bei der zweiten Kohorte wurden darüber hinaus auch Schülerinnen und Schüler von Lehrpersonen einbezogen, die nicht an der Fortbildung teilgenommen haben.

Die Schulen der Kontrollgruppe wurden basierend auf Informationen des Evaluationsteams (z. B. benötigte Anzahl und Form der Schulen) durch das nordrhein-westfälische Ministerium für Schule und Weiterbildung unter Einbezug der jeweiligen Schuldezernenten gewonnen.

Die Schulen der Kontrollgruppe stammten überwiegend aus den gleichen Regionen wie die Schulen der Untersuchungsgruppe und waren auch bezüglich der Zugehörigkeit zu den Schulformen vergleichbar. Auf Unterschiede in demografischen Variablen der beiden Lehrerstichproben wird in Abschnitt 5 hingewiesen.

Während die Fortbildungsstudie in beiden Kohorten den Fokus auf Veränderungen der teilnehmenden Lehrpersonen legt, interessiert sich die Unterrichtsstudie vor allem für die Entwicklung der Schülerinnen und Schüler. Da sich mehrere Fortbildungsziele des zweiten, dritten und vierten Moduls auf die Ebene des Unterrichts und das Lernen der Schülerinnen und Schüler beziehen und diese Module anhand der zweiten Kohorte evaluiert wurden, fand die Unterrichtsstudie in der zweiten Kohorte statt.

In die Unterrichtsstudie wurden Klassen einbezogen, die zum ersten Messzeitpunkt, d. h. am Ende des Schuljahres 2013/2014, in der 5. Jahrgangsstufe waren. Aus der Gesamtzahl aller 5. Klassen wurde für die Unterrichtsstudie eine Auswahl getroffen. Bei Schulen mit drei oder weniger Parallelklassen wurden zwei Klassen ausgewählt. Bei Schulen mit vier und mehr Parallelklassen wurden jeweils vier Klassen einbezogen. Bei dem Auswahlprozess fand eine Rotation statt, sodass nicht bei jeder Schule mit der ersten Klasse begonnen wurde. Besondere Klassen (z. B. Integrationsklassen) wurden nicht einbezogen.

Die zweite Schülererhebung fand unmittelbar am Anfang des 7. Schuljahres im August/September 2015 statt (s. Abbildung 2), sodass als Entwicklungszeitraum das sechste Schuljahr betrachtet wird.

Für die Auswahl des 5. Jahrgangs als Ausgangspunkt für die Unterrichtsstudie sprachen verschiedene Argumente. So sind die meisten Schulen, welche die Fortbildung nur mit einem Teilkollegium begonnen haben, entsprechend der Empfehlung seitens der Projektleitung von Vielfalt fördern u. a. mit dem 5. Jahrgang eingestiegen. Die Lehrpersonen, die Klassen des 5. Jahrgangs und im weiteren Verlauf des 6. Jahrgangs unterrichten, gehörten demnach in jedem Fall zur adressierten Zielgruppe der Fortbildung und sollten auch die Module 2 – 4 besuchen. Ein weiteres Argument für den 5. Jahrgang war, dass viele Schulen angaben, dass zwischen Klasse 5 und Klasse 6 mit großer Wahrscheinlichkeit kein Fachlehrerwechsel stattfinden würde. Über den Erhebungszeitraum der Unterrichtsstudie wurden die Klassen daher mit hoher Wahrscheinlichkeit von der gleichen Fachlehrkraft unterrichtet. Die Unterrichtsstudie beschränkte sich auf zwei Fächer (Deutsch und Mathematik). Hierdurch war es möglich, neben den Unterrichtswahrnehmungen auch die Leistungsentwicklung der Schülerinnen und Schüler bezogen auf diese beiden Fächer zu erfassen. Insgesamt kennzeichnet die Unterrichtsstudie demnach ein fachspezifischer Fokus. Dies erschien angemessen, da Vielfalt fördern im Fortbildungsverlauf zunehmend auch fachspezifische Fragen aufgreift und einen positiven Einfluss auf die Leistungsentwicklung von Schülerinnen und Schülern intendiert.

Um die Leistungsentwicklungen miteinander vergleichen zu können, wurden die Schülererhebungen unabhängig vom Fortbildungsverlauf der einzelnen Schulen für alle Schülerinnen und Schüler in dem angegebenen Zeitraum durchgeführt. Da die Schulen zu unterschiedlichen Zeitpunkten mit der Fortbildung begannen, für die einzelnen Module unterschiedlich viel Zeit aufwandten und/oder teilweise zwischen den Modulen pausierten, hatten nicht alle Lehrpersonen, die mit ihren Klassen an der Unterrichtsstudie teilnahmen, die Module 2 – 4 zum Ende des Schuljahres 2014/2015 bereits absolviert und abgeschlossen, wie dies eigentlich intendiert war.

Zusätzlich zu den Schülerinnen und Schülern wurden im Rahmen der Unterrichtsstudie die Fachlehrkräfte befragt, die in einer Klasse der Unterrichtsstudie das Fach Mathematik und/oder Deutsch unterrichtet haben. Im Rahmen dieser Befragung schätzten die Fachlehrkräfte beispielsweise ein, wie gut die Schülerinnen und Schüler ihrer Klasse die Aufgaben der Leistungstests bearbeiten können und wie schwer die Aufgaben für die Lernenden sind.

Für die Fortbildungsstudie in beiden Kohorten war es hingegen erforderlich, dass die im Evaluationskonzept vorgesehenen Erhebungs-/Messzeitpunkte (s. Abbildung 2) an den individuellen Fortbildungsverlauf der Schulen angepasst wurden. Dies hatte zur Konsequenz, dass der zeitliche Verlauf der Evaluation zwischen den Schulen variierte und die Datenerhebungen im Rahmen der Evaluation über einen längeren Zeitraum erfolgten, als dies eigentlich intendiert war (s. Abschnitt 4).

Aufgrund der unterschiedlichen Modulinhalte und -ziele sieht das Evaluationskonzept für jedes Modul eine Präerhebung am Anfang des Moduls, eine Prozesserhebung etwa in der Hälfte des Moduls und eine Posterhebung am Ende des Moduls vor (s. Abbildung 2). Die modulspezifischen Prä- und Posterhebungen dienten vor allem dazu, Entwicklungen zu untersuchen, weshalb bei diesen Erhebungen die gleichen Instrumente eingesetzt wurden. Die Prozesserhebungen dienten primär dazu, Informationen über die Wahrnehmung und Nutzung der Lernangebote durch die teilnehmenden Lehrpersonen zu erhalten.

Zwei Ausnahmen bestehen bei der zweiten Kohorte. Das dritte und vierte Modul wurde aufgrund der inhaltlich engen Verbindung (Didaktik) zusammengefasst, sodass nur eine Prä-, Prozess- und Posterhebung durchgeführt wurde. Die zweite Besonderheit im Evaluationskonzept der zweiten Kohorte besteht darin, dass die Lehrpersonen der Untersuchungsgruppe auch bereits ganz am Anfang der Fortbildung, d. h. zu Beginn von Modul 1 befragt worden sind, obwohl das erste Modul bei der zweiten Kohorte nicht evaluiert wurde. Diese Erhebung diente dazu, Angaben zu den Voraussetzungen der teilnehmenden Lehrpersonen, z. B. zum Alter, zur Berufserfahrung, zur Fortbildungsteilnahmemotivation, zur beruflichen Zufriedenheit und zur Offenheit gegenüber Innovationen, zu erhalten. Aufgrund des gleichen Erhebungszeitpunkts wie bei der ersten Kohorte der Evaluation ist an dieser Stelle ein Vergleich der Kohorten möglich ¹.

Die Daten zu Hintergrundmerkmalen und Voraussetzungen der Lehrpersonen dienen auch dazu zu prüfen, ob sich die Fortbildungsteilnehmerinnen und -teilnehmer in ihren Voraussetzungen von den Mitgliedern der Kontrollgruppe unterscheiden. Die Kontrolle der Voraussetzungen ist u. a. deshalb wichtig, weil es sich um ein quasi-experimentelles Untersuchungsdesign handelt (s. Abschnitt 3).

^{Abb. 2: Evaluationsdesign der Fortbildung „Vielfalt fördern“}

Da LIQUID Aussagen über Veränderungen und Entwicklungen aufgrund der Teilnahme an Vielfalt fördern treffen soll, war ein Evaluationsdesign mit mehreren Erhebungszeitpunkten erforderlich. Bei Untersuchungen, die über einen längeren Zeitraum angelegt sind, kommt es häufig zu dem Problem, dass nicht alle Personen, die an einer ersten Erhebung teilgenommen haben, auch an einer späteren Erhebung teilnehmen. Man bezeichnet diesen Wegfall als Mortalität oder auch als Drop-out (Gollwitzer & Jäger 2009).

Auch im Verlauf von LIQUID tritt der Fall auf, dass die Daten einer Person zu einem oder mehreren Erhebungszeitpunkten fehlen. Gründe für den Wegfall waren zum Beispiel, dass:

Lehrpersonen keinen Code oder einen fehlerhaften Code angaben, sodass die Daten von unterschiedlichen Erhebungszeitpunkten nicht einander zugeordnet werden konnten,
Lehrpersonen an einer Fortbildungsveranstaltung, in der eine Erhebung stattfand, nicht teilnahmen,
Lehrpersonen die Schule verließen oder neu hinzukamen,
eine Schule die Fortbildung Vielfalt fördern vorzeitig beendete.

4.4 Instrumente und Durchführung der Erhebungen
Zur Evaluation von Vielfalt fördern wurden standardisierte und teilstandardisierte Fragebögen sowie bei den Schülerinnen und Schülern darüber hinaus auch standardisierte Strategie- und Leistungstests eingesetzt.

Sofern es möglich war, wurde dabei auf erprobte Instrumente zurückgegriffen, für die Informationen zur Güte vorliegen. Insbesondere in Fällen, in denen es um Merkmale geht, die spezifisch für die Fortbildung Vielfalt fördern sind, z. B. Lernangebote innerhalb der Module, war jedoch eine Anpassung und Neuentwicklung von Instrumenten erforderlich. Die mit den Instrumenten erfassten Konstrukte orientieren sich eng an den Zielen der Fortbildung und der Evaluation.

Viele der erhobenen Konstrukte wurden mehrfach erfasst, um Entwicklungen von Lehrpersonen und Schülerinnen und Schülern untersuchen zu können.

Die Erhebungsunterlagen der Fortbildungsstudie wurden den Schulen der Untersuchungsgruppe zu den jeweiligen Erhebungszeitpunkten zugeschickt und innerhalb einer Fortbildungssitzung ausgefüllt. Bei den Schulen der Kontrollgruppe fanden die Befragungen in der Regel im Rahmen einer Lehrerkonferenz statt und wurden durch ein Mitglied der Forschungsgruppe aus Kassel administriert. Die Bearbeitung der Prä- und Postfragebögen für die Lehrpersonen (s. Abbildung 2) erforderte etwa 30–45 Minuten Zeit. Die Prozessfragebögen konnten in 20–25 Minuten bearbeitet werden.

Die Testung und Befragung der Schülerinnen und Schüler erfolgte in beiden Gruppen standardisiert durch geschulte Mitarbeiterinnen und Mitarbeiter der Universität Kassel, die ein Testleiterhandbuch nutzten, um die Erhebungssituation vergleichbar zu halten. Für die Erhebungen in den Klassen war jeweils eine Doppelstunde (2 x 45 Minuten) erforderlich. Hierbei wurden die ausgewählten Klassen geteilt, wobei die eine Hälfte der Klasse im Lesen getestet wurde und die andere Hälfte in Mathematik. Entsprechend bezogen sich die Fragen zur Unterrichtsqualität für die eine Hälfte der Lernenden auf den Deutschunterricht, für die andere Hälfte auf den Mathematikunterricht. Die Zuweisung der Lernenden innerhalb einer Klasse zur Mathematik- oder zur Deutschgruppe erfolgte randomisiert.

Für diesen Beitrag wurde überprüft, wie die befragten Lehrpersonen der beiden Kohorten die Fortbildung Vielfalt fördern im Verlauf eines Moduls wahrgenommen haben. Außerdem wurde untersucht, ob sich die Zusammenarbeit von Lehrpersonen durch die Teilnahme am ersten Fortbildungsmodul (Kohorte 1) sowie im weiteren Fortbildungsverlauf (Kohorte 2) verändert hat.

5.1 Stichprobenbeschreibung
Insgesamt umfasst der Datensatz der ersten Kohorte 820 Lehrpersonen ².
Davon gehören 579 Lehrpersonen von 22 Schulen zur Untersuchungsgruppe, d. h. diese Lehrpersonen nahmen an der Fortbildung teil, während 241 Lehrpersonen aus sechs Schulen zur Kontrollgruppe gehören und nicht an Vielfalt fördern teilgenommen haben. In der Untersuchungsgruppe sind 65.81 % der befragten Lehrpersonen weiblich und 34.19 % der Lehrpersonen männlich. Ganz ähnlich ist die Verteilung des Geschlechts in der Kontrollgruppe. Hier sind 66.67 % der befragten Lehrpersonen weiblich und 33.33 % der Lehrpersonen männlich. Das Durchschnittsalter der Lehrpersonen unterscheidet sich nicht zwischen der Untersuchungs- und der Kontrollgruppe. Im Mittel sind die Lehrpersonen der Untersuchungsgruppe zum Zeitpunkt der Eingangserhebung (Oktober 2012 – April 2013) etwa M = 44.25 Jahre (SD = 11.33 Jahre) alt und die Lehrpersonen der Kontrollgruppe M = 45.92 Jahre (SD = 10.86 Jahre).

An der gegenwärtigen Schule arbeiten die befragten Lehrpersonen, die an der Fortbildung Vielfalt fördern teilnahmen, seit durchschnittlich M = 10.00 Jahren (SD = 9.35 Jahre). Im Mittel sind die Lehrpersonen der Untersuchungsgruppe etwas länger an ihrer gegenwärtigen Schule beschäftigt als die Lehrpersonen der Kontrollgruppe (M = 11.66 Jahre, SD = 10.70 Jahre) (t[681] = 2.046, p < .05). Das durchschnittliche Lehrdeputat der Lehrpersonen beider Gruppen unterscheidet sich nicht bedeutsam voneinander und beträgt bei der Untersuchungsgruppe im Mittel M = 23.42 Stunden (SD = 5.61 Stunden) und bei der Kontrollgruppe rund M = 23.51 Stunden (SD = 6.09 Stunden).

Die Erhebung bei der zweiten Kohorte sind zum gegenwärtigen Zeitpunkt der Analysen (Sommer 2016) noch nicht vollständig abgeschlossen. Es handelt sich demnach um erste Analysen und vorläufige Befunde. Für die zweite Kohorte liegen insgesamt Daten von 1.704 Lehrpersonen vor, die im Rahmen der folgenden Auswertungen genutzt werden. In der Untersuchungsgruppe sind 66.49 % der Lehrpersonen weiblich und 33.51 % sind männlich, in der Kontrollgruppe betragen die Anteile 60.31 % (weiblich) und 39.69 % (männlich). Der Unterschied in der Verteilung der Geschlechter ist signifikant (φ = -.06, p < .05). Bei der Eingangserhebung (November 2013 – Februar 2014) sind die Lehrpersonen, die an der Fortbildung Vielfalt fördern teilgenommen haben, im Mittel M = 43.93 Jahre (SD = 11.45 Jahre) alt. Die Lehrpersonen der Kontrollgruppe sind zum Zeitpunkt der ersten Erhebung (Februar 2014 – April 2014) durchschnittlich M = 47.04 Jahre (SD = 11.42 Jahre) alt. Demnach sind die Lehrpersonen der Untersuchungsgruppe im Mittel etwas jünger (t[1206] = 4.714, p < .001). Auch wenn man die Zeit betrachtet, die die Lehrpersonen beider Gruppen an ihrer Schule beschäftigt sind, zeigt sich ein Unterschied (t[1205] = 9.653, p < .001). Die durchschnittliche Beschäftigungszeit an der gegenwärtigen Schule beträgt bei den Lehrpersonen der Untersuchungsgruppe M = 6.52 Jahre (SD = 7.99 Jahre) und bei den Lehrpersonen der Kontrollgruppe M = 11.45 Jahre (SD = 9.75 Jahre). Im Mittel beträgt das Lehrdeputat bei den Lehrpersonen beider Gruppen 24 Stunden (UG: M = 24.22 Stunden, SD = 4.75 Stunden; KG: M = 23.67 Stunden, SD = 5.09 Stunden; t[1190] = -1.962, p < .05).

5.2 Wahrnehmung der Fortbildung
Im ersten Abschnitt dieses Beitrags wurde erläutert, dass zwischen dem Angebot von Lerngelegenheiten im Rahmen einer Fortbildung und ihrer Wahrnehmung und Nutzung durch die Lernenden unterschieden werden muss. Die Wahrnehmung und Nutzung der Fortbildung durch die teilnehmenden Lehrpersonen ist ein wichtiger Aspekt, der die Wirksamkeit einer Maßnahme und die Professionalisierung von Lehrpersonen beeinflusst. Im Folgenden werden Ergebnisse zur wahrgenommenen Strukturiertheit und wahrgenommenen Nützlichkeit der ersten beiden Module von Vielfalt fördern aus Sicht der Teilnehmerinnen und Teilnehmer sowie zu deren zeitlicher Belastung aufgrund der Fortbildungsteilnahme vorgestellt. Den Erhebungen in beiden Kohorten liegen die gleichen Skalen, bestehend aus den gleichen Items, zugrunde. Ein direkter Vergleich der Ergebnisse zu den beiden Modulen bietet sich dennoch nicht an, da sich die Bewertungen nicht nur auf verschiedene Module beziehen, sondern es sich auch um Einschätzungen von unterschiedlichen Personen handelt.

Zur Analyse der Wahrnehmungen werden Daten von 190 Lehrpersonen aus der ersten Kohorte und von 420 Lehrpersonen aus der zweiten Kohorte herangezogen. Bei der ersten Kohorte beziehen sich die Angaben der Lehrpersonen auf die Wahrnehmung des ersten Moduls zum Thema Teamentwicklung, bei der zweiten Kohorte beziehen sich die Angaben auf die Wahrnehmungen des zweiten Moduls Diagnostik.

Die Befragung der Kohorte 1, welche im Rahmen einer Fortbildungssitzung erfolgte, fand im Anschluss an den vierten von sechs Modulbausteinen statt. Die folgende Auflistung zeigt, welche Inhalte in den jeweiligen Bausteinen des Moduls 1 bearbeitet wurden:

Baustein 1: Grundverständigung. Gemeinsames Denken – verständigtes Handeln. Kooperation im Lehrerteam als Schlüssel zur individuellen Förderung
Baustein 2: Teams bilden – stärken – entwickeln
Baustein 3: Unterrichtsprozesse gemeinsam beobachten
Baustein 4: Unterrichtsbeobachtung gemeinsam auswerten
Baustein 5: Ziele und Prozesse erfolgreich planen
Baustein 6: Maßnahmenplanung zur nachhaltigen Unterrichtsentwicklung fokussiert auf individuelle Förderung

Bei der zweiten Kohorte wurde die Erhebung ebenfalls im Rahmen einer Fortbildungssitzung durchgeführt. Es handelt sich um diejenige Sitzung, in welcher der dritte von insgesamt fünf Modulbausteinen behandelt wurde. Zum Zeitpunkt der Evaluation bestand das Diagnostikmodul aus folgenden fünf Bausteinen:

Baustein 1: Relevanz, Grundlagen
Baustein 2: Diagnosebereiche
Baustein 3: Instrumente
Baustein 4: Maßnahmen und ihre Wirkungen
Baustein 5: Beratung und Kooperation

5.2.1 Strukturiertheit
Die Strukturiertheit gilt als ein grundlegendes Merkmal effektiver Lernangebote, das jedoch unterschiedliche Aspekte beinhalten kann (Lipowsky 2015). Zum einen kann unter Strukturierung die Aufteilung der Fortbildungssitzungen in einzelne Phasen mit unterschiedlichen didaktischen Funktionen verstanden werden, sodass für die teilnehmenden Lehrpersonen ein roter Faden erkennbar ist. Aus einer eher kognitionspsychologischen Perspektive steht das Konstrukt der Strukturiertheit für Maßnahmen und Verhaltensweisen der Fortbildnerin/des Fortbildners, die den teilnehmenden Lehrpersonen verdeutlichen, wie einzelne Inhalte der Fortbildung zusammenhängen, und die den teilnehmenden Lehrpersonen die Einordnung und Verknüpfung neuer Informationen und Erfahrungen mit bestehenden erleichtern. Beide Aspekte wurden durch die aus sieben Items bestehende Skala erfasst (Beispielitems: ‚‚Die einzelnen Phasen innerhalb einer Sitzung bauen logisch aufeinander auf." und ‚‚Am Ende der Treffen werden die wichtigsten Inhalte meistens noch einmal zusammengefasst.", Antwortformat: [1] = trifft gar nicht zu – [6] = trifft voll und ganz zu). Cronbachs Alpha als Kennwert für die Reliabilität der Skala liegt für die erste Kohorte bei α = .90 und bei der zweiten Kohorte bei α = .92. Es handelt sich dabei um Werte, die für eine sehr gute Reliabilität sprechen.

Es zeigt sich für beide Kohorten und beide Module ein Mittelwert, der über dem theoretischen Mittel von M = 3.50 ³ liegt (s. Abbildung 3, horizontale Linie). Der Wert für das erste Modul beträgt über alle Lehrpersonen hinweg M = 4.67 (SD = .92). Die Lehrpersonen nehmen die Gestaltung des ersten Fortbildungsmoduls demnach eher als strukturiert wahr.

Ein Blick auf die einzelnen Schulen verrät jedoch deutliche Unterschiede: So variieren die Werte zwischen M = 3.85 und M = 5.58, obgleich dem ersten Modul, wie auch allen anderen Modulen, ein weitgehend standardisierter Ablaufplan mit vorgegebenen Foliensets und Materialangeboten zugrunde lag.

Die Abbildung 3 verdeutlicht beispielweise anhand von Boxplots für die einzelnen Schulen, dass der Median für Schule 4 (Md = 3.86), d. h. der Wert, den die meisten Lehrpersonen dieser Schule angegeben haben, von allen Schulen am geringsten ist.

Darüber hinaus kann man an den Boxplots z. T. große Unterschiede in den Einschätzungen der Lehrpersonen innerhalb einer Schule erkennen. Für die Schule 4 lässt sich an dem Boxplot ablesen, dass 50 % der Lehrpersonen dieses Kollegiums die Strukturiertheit mit einem Wert zwischen 3.04 und 4.79 (Wertebereich der grauen Box) bewertet haben. Die nach oben und unten reichenden Antennen (Whiskers) zeigen aber, dass die Angaben der Lehrpersonen aus dieser Schule breit streuen. Der niedrigste Wert liegt bei 2.00 und der höchste Wert bei 5.57. Das bedeutet, die Strukturiertheit wird von den Lehrpersonen dieser Schule höchst unterschiedlich wahrgenommen.

In der Schule 22 beträgt der am häufigsten angegebene Wert dagegen Md = 5.86 und ist damit vergleichsweise hoch. Zudem ist anhand der Länge des Whiskers erkennbar, dass die Lehrpersonen der Schule 22 weitgehend einer Meinung sind, wenn es um die Wahrnehmung der Strukturiertheit geht. Lediglich drei Lehrpersonen dieser Schule (70, 585, 595) haben die Strukturiertheit deutlich geringer eingeschätzt als das restliche Kollegium.

^{Abb. 3: Boxplots der Einzelschulen von Kohorte 1 für die Strukturiertheit von Modul 1, Teamentwicklung}

Der Mittelwert für das zweite Modul über alle Lehrpersonen der zweiten Kohorte hinweg liegt bei M = 4.27 (SD = 1.04) (s. Abbildung 4, horizontale Linie). Das Modul wird von den Lehrpersonen daher im Mittel eher als strukturiert wahrgenommen.

Auch hier zeigen sich jedoch erhebliche Unterschiede zwischen den Schulen. So liegt der Median für die Schule 128 z. B. bei Md = 2.71, während der häufigste Wert bei der Schule 113 Md = 5.57 beträgt.

An den Boxplots (s. Abbildung 4) sind zudem erneut die teilweise erheblichen Streuungen innerhalb einer Schule erkennbar, die darauf hindeuten, dass die Lehrpersonen einer Schule die Strukturiertheit z. T. sehr unterschiedlich wahrgenommen haben. Besonders groß fällt die Streuung zum Beispiel an Schule 122 aus. Der niedrigste Wert beträgt an dieser Schule 1.29, während der höchste Wert bei 6.00 liegt. Die Wahrnehmung der Strukturiertheit reicht an dieser Schule demnach von unstruktruiert bis hin zu sehr strukturiert. Im Gegensatz dazu schätzen beispielsweise die Lehrpersonen der Schule 124 die Strukturiertheit des ersten Moduls sehr ähnlich ein. So liegt das Minimum bei 3.29 und das Maximum bei 5.86. Jedoch ist zu berücksichtigen, dass es sich bei dem höchsten Wert um einen Wert von Ausreißern handelt, das bedeutet von einzelnen Lehrpersonen (549, 568), die sich in ihrer Beurteilung der Strukturiertheit deutlich von den Werten der anderen Lehrpersonen ihrer Schule unterscheiden. 50 % der Werte (graue Box) liegen bei der Schule 124 in dem Bereich zwischen 3.86 und 4.64.

^{Abb. 4 : Boxplots der Einzelschulen von Kohorte 2 für die Strukturiertheit von Modul 2}

Um einen Hinweis darauf zu erhalten, inwieweit Unterschiede in der wahrgenommenen Strukturiertheit auf Merkmale der individuellen Lehrperson oder auf Merkmale der Schule zurückzuführen sind, kann man die Intraklassen-Korrelation (ICC) betrachten. Der ICC-1-Wert gibt an, wie hoch der Anteil an der Gesamtvarianz ist, der durch die Zugehörigkeit zu einer Schule erklärt werden kann. Für die erste Kohorte liegt der Anteil bei 30.6 % (ICC 1 = .306). Dieser Wert ist so zu interpretieren, dass Unterschiede in der wahrgenommenen Strukturiertheit zu 30.6 % mit der Zugehörigkeit der Lehrpersonen zu der jeweiligen Schule erklärbar sind. Hierzu können z. B. das Klima im Kollegium, Merkmale der Schulleitung und des Kollegiums, aber auch die schulspezifische Umsetzung der Fortbildung gezählt werden. Zu beachten ist, dass die ICC 1 keine Auskunft darüber gibt, welche konkreten schulspezifischen Merkmale für die Unterschiede verantwortlich sind.

Für die Beurteilung des zweiten Moduls durch die Lehrpersonen der zweiten Kohorte beträgt die ICC 1 23.6 %. Das bedeutet, die Unterschiede in den Strukturiertheitsurteilen sind zu 23.6 % durch Unterschiede zwischen den Schulen erklärbar.

Die ICC-Werte unterstreichen die Ergebnisse, die sich bereits bei der Darstellung der Boxplots in den Abbildungen 3 und 4 abzeichneten. Ein nicht unerheblicher Teil der Unterschiede in den Strukturiertheitsurteilen ist auf Unterschiede zwischen den Schulen zurückzuführen. Dies können Unterschiede in bestehenden Voraussetzungen der Schulen sein und/oder Unterschiede in der Durchführung der Fortbildung.

5.2.2 Wahrgenommene Nützlichkeit
Das Lernen von Erwachsenen wird in hohem Maße als interessen- und relevanzorientiert verstanden. Empirische Befunde deuten darauf hin, dass die Nutzung von Lernangeboten unter anderem davon beeinflusst wird, ob die behandelten Inhalte von den teilnehmenden Lehrpersonen als nützlich und relevant eingeschätzt werden (Bömer, Kunter & Hertel 2011; Kwakman 2003; Rzejak, Lipowsky & Künsting 2013). In dem Projekt LIQUID wurde die wahrgenommene Nützlichkeit über eine Skala mit sechs Items (Beispielitem: ‚‚Ich empfinde die Inhalte der Fortbildung als hilfreich für meinen schulischen Alltag.") erfasst, die für beide Kohorten eine sehr gute Reliabilität aufweist (α_Kohorte1 = .95; α_Kohorte2 = .92). Die Lehrpersonen haben ihre Antworten auf einer sechsstufigen Likert-Skala gegeben, bei der ein Wert von 1 für eine geringe Zustimmung und ein Wert von 6 für eine hohe Zustimmung steht.

Die Lehrpersonen der ersten Kohorte haben die Nützlichkeit der Fortbildungsinhalte zum Thema Teambildung im Mittel mit M = 4.01 (SD = 1.18) bewertet (s. Abbildung 5, horizontale Linie). Dieser Wert liegt etwas oberhalb des theoretischen Mittelwerts der Skala. Die ICC 1 weist darauf hin, dass die wahrgenommene Nützlichkeit des Moduls 1 mit 39.1 % zu einem erheblichen Anteil von Merkmalen des schulischen Kontextes abhängt. Dies verdeutlichen auch die Unterschiede in den Boxplots für die einzelnen Schulen.

^{Abb. 5: Boxplots der Einzelschulen von Kohorte 1 für die wahrgenommene Nützlichkeit von Modul 1}

Wie aus der Abbildung 6 hervorgeht, entspricht der Mittelwert über alle Lehrpersonen der zweiten Kohorte für die wahrgenommene Nützlichkeit des zweiten Moduls etwa dem theoretischen Mittel (M = 3.55, SD = 1.20). Demnach werden die Inhalte zur Diagnostik nach etwa der Hälfte des zweiten Moduls von den Lehrpersonen der zweiten Kohorte neutral, d. h. weder als besonders nützlich noch als irrelevant für den schulischen Alltag eingeschätzt.

^{Abb. 6: Boxplots der Einzelschulen von Kohorte 2 für die wahrgenommene Nützlichkeit von Modul 2}

Die ICC 1 fällt mit 20.4 % bei der zweiten Kohorte geringer aus als bei der ersten Kohorte bezogen auf das erste Modul. Das heißt, Unterschiede in der wahrgenommenen Nützlichkeit des zweiten Moduls lassen sich in geringem Maße mit Spezifika der einzelnen Schule oder mit Spezifika der Umsetzung der Fortbildung an der einzelnen Schule erklären.

5.2.3 Zeitliche Belastung
Die Fortbildung Vielfalt fördern findet in Teilen während der Unterrichtszeit statt, erfordert von den Lehrpersonen aber darüber hinausgehende zeitliche Ressourcen. In der Prozesserhebung wurden die Lehrpersonen daher um eine Einschätzung dazu gebeten, ob die Teilnahme als eine zeitliche Belastung erlebt wird. Ein Item von insgesamt vier Items der Skala lautet z. B. ‚‚Durch die Teilnahme an der Fortbildung fühle ich mich zeitlich zusätzlich belastet.". Cronbachs Alpha beträgt in beiden Kohorten α = .78 und ist damit zufriedenstellend. Das Antwortformat ist erneut sechsstufig ([1] = trifft gar nicht zu – [6] = trifft voll und ganz zu), sodass das theoretische Mittel M = 3.50 beträgt.

Der Mittelwert beider Kohorten liegt dicht am theoretischen Mittel. Für das erste Modul zeigt sich eine über alle Lehrpersonen der ersten Kohorte gemittelte Einschätzung der zeitlichen Belastung von M = 3.39 (SD = 1.07) (s. Abbildung 7, horizontale Linie).

Im Vergleich mit der Strukturiertheit und der wahrgenommenen Nützlichkeit deutet die ICC 1 mit 7.1 % darauf hin, dass Unterschiede zu einem geringen Anteil durch Merkmale der Schule erklärt werden können. Zwischen den Schulen sind die Mittelwerte sowie die Verteilung der Werte in den einzelnen Schulen vergleichbarer.

^{Abb. 7: Boxplots der Einzelschulen von Kohorte 1 für die zeitliche Belastung durch Modul 1}

In der Tendenz empfinden die Lehrpersonen der zweiten Kohorte eine etwas höhere zeitliche Belastung während des zweiten Moduls (M = 3.65, SD = 1.16) (s. Abbildung 8, horizontale Linie) als die Lehrpersonen der ersten Kohorte für das erste Modul. Die ICC 1 fällt bei der zweiten Kohorte höher aus als bei der ersten Kohorte: 16.4 % der Unterschiede in der zeitlichen Belastung können durch Merkmale auf der Schulebene erklärt werden. Auffällig ist die große Streuung der Werte innerhalb der einzelnen Schulen (z. B. 112, 118, 120, 126, 129) (s. Abbildung 8).

5.3 Entwicklung der Zusammenarbeit
Die Entwicklung von Teamstrukturen und die Vertiefung der kooperativen Zusammenarbeit von Lehrpersonen sind explizite Ziele des ersten Fortbildungsmoduls, aber auch in den sich daran anschließenden Modulen sollen Anregungen zur Etablierung und zur Intensivierung der Zusammenarbeit in unterschiedlichen Teamstrukturen (Klassen-, Jahrgangs-, Fachteams) immer wieder aufgegriffen werden.

Aus diesem Grund wurde auch bei den Schulen der zweiten Kohorte die Zusammenarbeit im Kollegium erfasst, obwohl das Teamentwicklungsmodul der zweiten Kohorte keinen expliziten Schwerpunkt der Evaluation bildete. Im Folgenden wird die Entwicklung der Zusammenarbeit in Bezug auf die fachspezifische Zusammenarbeit, die Deprivatisierung des Unterrichts und auf das Lernen der Schülerinnen und Schüler für beide Kohorten dargestellt. Die Items, aus denen die drei Skalen in beiden Kohorten gebildet wurden, sind identisch und wurden mit einem sechsstufigen Antwortformat ([1] = trifft gar nicht zu – [6] = trifft voll und ganz zu) erfasst.

Steinert et al. (2006) stellen in einer Studie zur Kooperation an Schulen aus Hessen und dem Kanton Zürich fest, dass Lehrpersonen insbesondere innerhalb von Fach- und Jahrgangsgruppen zusammenarbeiten. Die fachspezifische Zusammenarbeit als eine charakteristische Form der Zusammenarbeit von Lehrperson wurde im Projekt LIQUID mit vier Items erhoben (Beispielitem: ‚‚Wir arbeiten an unserer Schule intensiv in fachbezogenen Teams zusammen."). Die Reliabilität der Skala ist mit Alphawerten zwischen α = .78 und α = .89 als zufriedenstellend bis sehr gut zu beurteilen.

Gegenseitige Unterrichtsbesuche als selbstverständlicher Teil der Arbeit wurden in der Studie von Steinert et al. (2006) dagegen nur von einem sehr geringen Anteil (3 %) der 158 befragten Schulen angegeben; sie scheinen demnach kaum praktiziert zu werden. An diesem Bild hat sich in den letzten Jahren wenig verändert: Eine repräsentative Studie bei Lehrpersonen der Sekundarstufe I von allgemeinbildenden Schulen in Deutschland aus dem Jahr 2016 zeigt, dass komplexere Kooperationsformen wie die regelmäßige Hospitation im Unterricht von anderen Lehrkräften nur von neun Prozent der Lehrpersonen praktiziert werden (Richter & Pant 2016). Eine Deprivatisierung des eigenen Unterrichts kann neben Unterrichtshospitationen beispielsweise auch Selbst- und Fremdbeurteilungen umfassen. Eine von drei Items, mit denen die Deprivatisierung im Projekt LIQUID gemessen wurde, stammt aus der Studie von Steinert et al. (2006) und lautet: ‚‚Gegenseitige Unterrichtsbesuche sind ein selbstverständlicher Teil unserer Arbeit.". Cronbachs Alpha liegt für diese Skala zwischen α = .75 und α = .84 und demnach in einem zufriedenstellenden bis guten Bereich.

Der gemeinsame Fokus von Lehrpersonen auf das Lernen von Schülerinnen und Schülern wird als ein wesentliches Merkmal von effektiven professionellen Lerngemeinschaften betrachtet (z. B. Lomos, Hofman & Bosker 2011). Gleichzeitig finden Richter und Pant (2016) in ihrer Studie heraus, dass z. B. die Lernentwicklung der Schülerinnen und Schüler und eine abgestimmte Beurteilung von einzelnen Schülerinnen und Schülern bei Lehrpersonen in Deutschland seltener im Fokus der Kooperation stehen, als dies in anderen Ländern der Fall ist. Im Projekt LIQUID wurde der Fokus auf das Lernen der Schülerinnen und Schüler z. B. über die Items ‚‚Wir haben ähnliche Vorstellungen, wie effektiver Unterricht aussehen sollte." und ‚‚Wir sprechen uns ab, wie wir gemeinsam die Förderung einzelner Schüler unterstützen können." erfasst. Insgesamt besteht die Skala aus drei Items. Für die erste Kohorte ist die Reliabilität mit einem Cronbachs Alpha von α = .60 zu beiden Erhebungszeitpunkten eher als gering, aber noch als ausreichend einzustufen. Auch bei der zweiten Kohorte liegt die Reliabilität der Skala ‚‚Fokus auf das Lernen der Schülerinnen und Schüler" mit α_t2 = .63 und α_t5 = .66 eher an der unteren Grenze des akzeptablen Bereichs.

Bei der ersten Kohorte fand die Präerhebung am Anfang der Fortbildung (t1) und die Posterhebung am Ende des ersten Moduls (t3) statt. Die übergeordnete Fragestellung lautet: Bewirkt das Modul 1 von Vielfalt fördern eine stärkere Zusammenarbeit von Kolleginnen und Kollegen? Um diese Frage zu beantworten, wurden die Angaben der Lehrpersonen aus der Untersuchungsgruppe mit den Angaben der Kontrollgruppe verglichen. Der Zeitraum zwischen beiden Messzeitpunkten betrug jeweils etwa 4–5 Monate.

Bei der zweiten Kohorte wurden die drei genannten Kooperationsskalen im Zeitverlauf dreimal, nämlich zu Beginn des zweiten Moduls (s. Abbildung 2: Messzeitpunkt t2), zu Beginn des dritten Moduls (s. Abbildung 2: Messzeitpunkt t5) und am Ende des vierten Moduls (s. Abbildung 2: Messzeitpunkt t7) erfasst. In die Analysen des vorliegenden Beitrags werden die Daten von zwei Messzeitpunkten (t2 und t5) einbezogen, zwischen denen für die Lehrpersonen der UG im Mittel sieben Monate lagen. Die leitende Fragestellung zielt hier nicht mehr auf die Wirksamkeit des Teamentwicklungsmoduls ab, sondern darauf, ob die Teilnahme an der Fortbildung Vielfalt fördern über das erste Modul hinaus zu einer positiven Entwicklung in Bezug auf die Zusammenarbeit unter Kolleginnen und Kollegen beiträgt. Auch hier wurde ein Vergleich mit der Kontrollgruppe durchgeführt, die in einem zeitlichen Abstand von durchschnittlich acht Monaten befragt wurde.

Für beide Kohorten wurden autoregressive Modelle unter Berücksichtigung der hierarchischen Datenstruktur, d. h. der Gruppierung von Lehrpersonen in Schulen, berechnet, um zu untersuchen, ob sich die Entwicklungen in der Zusammenarbeit zwischen den Lehrpersonen der Untersuchungsgruppe und den Lehrpersonen der Kontrollgruppe unterscheiden. Die Gruppenzugehörigkeit, die mit 0 (= Kontrollgruppe) und 1 (= Untersuchungsgruppe) kodiert wurde, wird dabei als einziges Merkmal auf Ebene der Schule berücksichtigt, um Unterschiede in der Zusammenarbeit zum späteren Erhebungszeitpunkt zu erklären. Auf der Individualebene, d. h. auf der Ebene der Lehrpersonen, wird der Prä-Wert aus der jeweils ersten Erhebung kontrollierend in das Modell aufgenommen. Da sich die beiden Substichproben (Untersuchungsgruppe und Kontrollgruppe) der ersten Evaluationskohorte darin unterscheiden, wie lange diese im Mittel an ihrer gegenwärtigen Schule arbeiten, wurde diese zu t1 erhobene Variable in den Modellen kontrollierend berücksichtigt. Die Variable stellt sich aber in keinem der Modelle als signifikanter Prädiktor heraus. In den Vorhersagemodellen für die zweite Kohorte wurden das Geschlecht, das Geburtsjahr, die Jahre an der Schule sowie das Lehrdeputat der Lehrpersonen kontrolliert, da sich die beiden Gruppen in diesen Voraussetzungen unterscheiden (s. Abschnitt 5.1). Lediglich für die fachspezifische Zusammenarbeit zum Messzeitpunkt t5, d. h. am Anfang von Modul 3 (s. Abbildung 2), erweist sich das Geburtsjahr der Lehrpersonen, d. h. deren Alter, als ein signifikant positiver Prädiktor (s. Abbildung 12).

^{Abb. 8: Boxplots der Einzelschulen von Kohorte 2 für die zeitliche Belastung durch Modul 2}

5.3.1 Kohorte 1
Unter Anwendung der in das Analyseprogramm Mplus 7 integrierten FIML-Methode (Full Information Maximum Likelihood) zur Behandlung fehlender Werte basieren die Ergebnisse auf den Angaben von ca. 784 Lehrpersonen. Davon gehören 545 Lehrpersonen zur Untersuchungsgruppe und 239 Lehrpersonen zur Kontrollgruppe. Die ICC-1-Werte, die darüber Auskunft geben, wie hoch der Anteil an der Gesamtvarianz ist, der auf die Zugehörigkeit zu der jeweiligen Schule zurückzuführen ist, beträgt für die fachspezifische Zusammenarbeit nur 1.7 %, für die Deprivatisierung 15.6 % und 4.0 % für den Fokus auf das Lernen der Schülerinnen und Schüler. Diese Werte deuten darauf hin, dass insbesondere die berichteten Unterschiede in der praktizierten Deprivatisierung durch Merkmale auf der Schulebene erklärt werden können.

Die Mittelwerte für die drei Aspekte der Zusammenarbeit (s. Tabelle 1) zeigen zunächst, dass Lehrpersonen beider Gruppen ihren Unterricht eher selten für den Besuch und für Rückmeldungen durch Kolleginnen und Kollegen öffnen. Die Mittelwerte dieser Skala sind in beiden Gruppen am niedrigsten. Ein gemeinsamer Blick auf das Lernen der Schülerinnen und Schüler scheint nach den Berichten der Lehrpersonen sowohl in der Untersuchungsgruppe als auch in der Kontrollgruppe eher ein gängiger Bestandteil der Zusammenarbeit zu sein, da beide Gruppen hier die höchsten Durchschnittswerte aufweisen.

Das autoregressive Modell zur Vorhersage der fachspezifischen Zusammenarbeit am Ende des ersten Moduls (s. Abbildung 9) zeigt, dass die Teilnahme an Vielfalt fördern keine Unterschiede in der selbstberichteten fachspezifischen Zusammenarbeit erklären kann. In der Abbildung 9 wird dies dadurch dargestellt, dass der Pfad von der Variable ‚‚Treatment" zur Variable ‚‚Fachspezifische Zusammenarbeit t3" mit ‚‚n. s." (nicht signifikant) gekennzeichnet ist. Der Wert zu t3 wird vor allem durch den Wert zu t1 vorhergesagt. Das bedeutet, die Lehrpersonen, die bereits zu t1 angaben, dass sie fachbezogen eng zusammenarbeiten, erklärten dies auch zu t3. Die Teilnahme an der Fortbildung macht für die Entwicklung der fachspezifischen Zusammenarbeit im Rahmen des ersten Moduls keinen Unterschied. Bei der Interpretation sollten jedoch die geringen ICC-Werte beachtet werden, die bereits darauf hindeuten, dass es kaum zu erwarten ist, dass durch die Zugehörigkeit zur Untersuchungsgruppe ein bedeutsamer Anteil der Varianz in der fachspezifischen Zusammenarbeit erklärt werden kann. Darüber hinaus ist bei der Bewertung des Ergebnisses zu berücksichtigen, dass Modul 1 von Vielfalt fördern stärker die Arbeit in Klassen- und Jahrgangsteams adressierte als die Arbeit in Fachteams. Eine Intensivierung der fachbezogenen Zusammenarbeit aufgrund des ersten Moduls war demnach kein vorrangiges Ziel. Das Ergebnis kann demnach durchaus als erwartungs- und zielkonform betrachtet werden.

^{Abb. 9: Modell zur Vorhersage der fachspezifischen Zusammenarbeit zum dritten Messzeitpunkt bei Kohorte 1}

Für den zweiten hier untersuchten Aspekt der Zusammenarbeit, die Deprivatisierung, zeigt sich, dass die Zugehörigkeit zur Untersuchungsgruppe die Entwicklung dieser Form der Zusammenarbeit positiv beeinflusst (β = .702, p<.001; s. Abbildung 10). Die befragten Lehrpersonen der Fortbildungsgruppe geben bei der Abschlusserhebung – auch nach Kontrolle der Werte des ersten Messzeitpunkts und nach Kontrolle der Dauer der Lehrtätigkeit an der gegenwärtigen Schule – höhere Werte an als die Lehrpersonen der Kontrollgruppe. Ihren eigenen Angaben zufolge tendieren Lehrpersonen der Untersuchungsgruppe nach Beendigung des Moduls 1 der Fortbildung Vielfalt fördern also dazu, Formen der gegenseitigen Unterrichtshospitation und Formen der Selbst- und Fremdeinschätzungen in stärkerem Maße als Bestandteil ihrer Arbeit anzusehen als Lehrpersonen der Kontrollgruppe.

^{Abb. 10: Modell zur Vorhersage der Deprivatisierung des Unterrichts zum dritten Messzeitpunkt}

Dagegen erweist sich die Teilnahme am ersten Modul der Fortbildung nicht als vorhersagerelevant für die Zusammenarbeitsdimension ‚‚Fokus auf das Lernen der Schülerinnen und Schüler". Lehrpersonen der Untersuchungsgruppe und der Kontrollgruppe berichten zu t3 eine vergleichbare Intensität, wenn es um eine auf das Lernen von Schülerinnen und Schüler fokussierte Zusammenarbeit geht (s. Abbildung 11).

^{Abb. 11: Modell zur Vorhersage des Fokus auf das Lernen der Schüler zum dritten Messzeitpunkt bei Kohorte}

5.3.2 Kohorte 2
Auch bei der zweiten Kohorte wurde das FIML-Verfahren zur Schätzung fehlender Werte genutzt. Die Stichprobe setzt sich aus 592 Lehrpersonen zusammen, die an Vielfalt fördern teilgenommen haben, und 849 Lehrpersonen, die zur Kontrollgruppe gehören.

Es zeigt sich, dass der Varianzanteil, der zum fünften Erhebungszeitpunkt (t5), das heißt am Anfang vom dritten Modul, durch Merkmale der Schule erklärt werden kann, bei allen drei Aspekten der Zusammenarbeit ähnlich ausfällt. Die ICC 1 beträgt für die fachspezifische Zusammenarbeit .085 (8.5 %), für die Deprivatisierung des Unterrichts .092 (9.2 %) und für den Fokus auf das Lernen der Schülerinnen und Schüler .087 (8.7 %).

Wie bereits bei der ersten Kohorte zeigt sich auch bei den Lehrpersonen der zweiten Kohorte, dass in beiden Gruppen eine auf das Lernen von Schülerinnen und Schülern ausgerichtete Zusammenarbeit am höchsten bewertet wird, während die Deprivatisierung die niedrigsten Mittelwerte aufweist (s. Tabelle 2). Bei der Deprivatisierung fällt auf, dass die Lehrpersonen der Untersuchungsgruppe bereits bei der Eingangserhebung einen höheren Mittelwert aufweisen als die Lehrpersonen der Kontrollgruppe. Es lässt sich annehmen, dass dies ein Ergebnis der Teilnahme am ersten Modul der Fortbildung Vielfalt fördern ist. Da jedoch keine Daten dazu vorliegen, wie die Deprivatisierung in beiden Gruppen der zweiten Kohorte zu Beginn der Fortbildung ausgeprägt war, kann diese Annahme nicht empirisch geprüft werden. Über alle drei Aspekte der Zusammenarbeit hinweg und für beide Gruppen zeigen sich bei der zweiten Erhebung höhere Mittelwerte.

Wie im Abschnitt zuvor, wird für die drei Dimensionen der Zusammenarbeit getrennt geprüft, ob die Teilnahme an der Fortbildung die Werte zu einem späteren Messzeitpunkt (s. Abbildung 2: Messzeitpunkt t5) vorhersagen kann. Da die Ausgangswerte (s. Abbildung 2: Messzeitpunkt t2) kontrolliert werden, prüfen die folgenden Modelle, ob die Zugehörigkeit zur Fortbildungsgruppe die Entwicklung der Kooperation in den drei genannten Bereichen vorhersagen kann.

Das in Abbildung 12 dokumentierte Modell verdeutlicht, dass die Teilnahme an Vielfalt fördern, d. h. die Zugehörigkeit zur Untersuchungsgruppe, einen signifikant positiven Prädiktor (β = .356, p <.05) für die Entwicklung der fachspezifischen Zusammenarbeit darstellt (s. Abbildung 12). Das Ergebnis kann so interpretiert werden, dass Lehrpersonen, die an Vielfalt fördern teilgenommen haben, nach eigenen Angaben im Vergleich zu Lehrpersonen der Kontrollgruppe über den Zeitraum des zweiten Moduls ihre fachspezifische Zusammenarbeit stärker weiterentwickelt haben.

^{Abb. 12: Modell zur Vorhersage der fachspezifischen Zusammenarbeit zum fünften Messzeitpunkt bei Kohorte}

Für die Deprivatisierung des Unterrichts, für die sich bereits für die erste Kohorte und über den Zeitraum des ersten Moduls hinweg ein positiver Effekt der Fortbildung gezeigt hat zeigt sich auch für die zweite Kohorte ein positiver Einfluss der Teilnahme an Vielfalt fördern (β = .447, p <.01) (s. Abbildung 13). Obwohl während des zweiten Moduls keine explizite Anregung zu gegenseitigen Hospitationen vorgesehen ist, führt die Zugehörigkeit zur Untersuchungsgruppe demnach dazu, dass die Lehrpersonen Hospitationen sowie Selbst- und Fremdbeurteilungen bei der zweiten Erhebung dieses Merkmals in höherem Maße als einen Teil ihrer Arbeit ansehen, als Lehrpersonen der Kontrollgruppe dies tun.

^{Abb. 13: Modell zur Vorhersage der Deprivatisierung des Unterrichts zum fünften Messzeitpunkt bei Kohorte}

Für die Zusammenarbeitsdimension ‚‚Fokus auf das Lernen der Schülerinnen und Schüler" stellt die Zugehörigkeit zur Untersuchungsgruppe keinen signifikanten Prädiktor dar (s. Abbildung 14). Demnach entwickelt sich diese Form der Zusammenarbeit aus Sicht der befragten Lehrpersonen in der Untersuchungsgruppe nicht günstiger als in der Kontrollgruppe.

^{Abb. 14: Modell zur Vorhersage des Fokus auf das Lernen der Schüler zum fünften Messzeitpunkt bei Kohorte}

Ausgehend von einem heuristischen Angebots-Nutzungs-Modell und den Ebenen der Wirksamkeit von Fortbildungen wurde das Design vorgestellt, das der Evaluation von Vielfalt fördern zugrunde liegt. Anschließend wurde ein Einblick in erste Ergebnisse zur Wahrnehmung des ersten und zweiten Fortbildungsmoduls sowie zu Entwicklungen in der Zusammenarbeit von Lehrpersonen aufgrund der Fortbildungsteilnahme gegeben.

Insgesamt wurde das erste Modul zur Teamentwicklung als strukturiert und zeitlich durchaus vereinbar mit den Anforderungen des Schulalltags bewertet. Auch beurteilten die Lehrpersonen der ersten Kohorte die Inhalte des ersten Moduls tendenziell eher als nützlich und hilfreich für ihre schulischen Aufgaben. Die Nützlichkeit der Inhalte des zweiten Moduls wird neutral bewertet, d. h. weder als besonders relevant noch als irrelevant. Das zweite Modul wird von der zweiten Kohorte als strukturiert wahrgenommen, aber die Lehrpersonen empfinden die Teilnahme tendenziell als eine zeitliche Mehrbelastung. Obwohl Vielfalt fördern zum Zeitpunkt der Evaluation eine vergleichsweise standardisierte Fortbildung darstellte, zeigen sich in den Ergebnissen teilweise große Unterschiede zwischen und innerhalb der Schulen in der Wahrnehmung der Strukturiertheit, der Nützlichkeit und der zeitlichen Belastung. Dies wirft die Frage auf, wodurch diese heterogene Wahrnehmung erklärt werden kann.

Da die Fortbildung an den Schulen von verschiedenen Moderatorenteams durchgeführt wurde, lässt sich annehmen, dass die Varianz in der Strukturiertheit, die zwischen den Schulen besteht, zumindest anteilig durch Eigenschaften der Moderatorinnen und Moderatoren sowie durch Unterschiede in der Fortbildungsdurchführung erklärt werden kann. Ob beispielsweise Vorerfahrungen in der Durchführung von Lehrerfortbildungen oder die von den teilnehmenden Lehrpersonen eingeschätzte Kompetenz eines Moderatorenteams die Wahrnehmung und Nutzung von Vielfalt fördern beeinflussen, könnten weiterführende Auswertungen beantworten. Eine erklärende Variable für die Unterschiede, die zwischen den Lehrpersonen einer Schule in der wahrgenommenen Strukturiertheit bestehen, könnten die individuellen Vorkenntnisse der Lehrpersonen sein. Aus kognitionspsychologischer Sicht wäre anzunehmen, dass es Lehrpersonen mit elaborierten Vorkenntnissen leichter fällt, die verschiedenen Inhalte eines Moduls miteinander zu verbinden und einen roten Faden zu erkennen.

Die Unterschiede in der wahrgenommenen Nützlichkeit der Module zwischen den Schulen könnten ebenfalls durch die Moderatorenteams erklärbar sein. Möglicherweise gelang es einigen Moderatorenteams eher als anderen, die Relevanz von beispielsweise gegenseitigen Unterrichtshospitationen im Falle des ersten Moduls oder eines prozesshaften Vorgehens in der Diagnostik im Falle des zweiten Moduls hervorzuheben. Darüber hinaus dürfte die wahrgenommene Nützlichkeit von den Voraussetzungen der teilnehmenden Lehrpersonen, z. B. von deren Motivation und/oder den Anforderungen in den Klassen, die diese unterrichten, abhängen.

Die ICC-Werte deuteten darauf hin, dass die Unterschiede in der wahrgenommenen zeitlichen Belastung maßgeblich durch Merkmale der Lehrpersonen zu erklären sind. Darüber hinaus sind aber auch hier Merkmale auf der schulischen Ebene zu berücksichtigen. Vorstellbar ist beispielsweise, dass die kollektive Selbstwirksamkeitserwartung eines Kollegiums, d. h. dessen handlungsbezogener Optimismus, einen Resilienzfaktor darstellt und sich günstig auf das individuelle Belastungserleben durch die Teilnahme an der Fortbildung auswirkt. Auch die Zusammenarbeit unter den Lehrpersonen einer Schule könnte ein Merkmal sein, das Varianz in der wahrgenommenen zeitlichen Belastung erklären kann. Mit weiterführenden Analysen soll dies geprüft werden.

Ein zentrales Ziel des ersten Fortbildungsmoduls ist die Entwicklung kooperativer Strukturen in den teilnehmenden Schulen. Ob sich die Zusammenarbeit von Kollegien, die am ersten Modul (Teamentwicklung) teilgenommen haben, anders entwickelt als die Zusammenarbeit von Kollegien in Schulen, die nicht an der Fortbildung teilgenommen haben, wurde anhand der ersten Evaluationskohorte untersucht. Darüber hinaus wurde anhand der zweiten Kohorte betrachtet, ob sich im weiteren Verlauf von Vielfalt fördern Kooperationsentwicklungen zeigen, die sich von den Entwicklungen in einer Kontrollgruppe, welche nicht an Vielfalt fördern teilnahm, unterscheiden (siehe Abschnitt 5). In den Blick genommen wurden dabei drei Aspekte der Kooperation: die fachspezifische Zusammenarbeit, die Deprivatisierung und der gemeinsame Fokus auf das Lernen der Schülerinnen und Schüler.

Für die erste Kohorte zeigt sich nur bei der Deprivatisierung ein positiver Effekt der Fortbildungsteilnahme. Dieser empirische Befund lässt sich mit dem Modulschwerpunkt in Einklang bringen, der auf der Durchführung gegenseitiger Hospitationen lag. Die Ergebnisse der zweiten Kohorte weisen darauf hin, dass sich der positive Einfluss von Vielfalt fördern auf die Zusammenarbeit von Lehrpersonen – nach Beendigung des Teamentwicklungsmoduls – fortsetzt. Es zeigt sich nämlich, dass die Teilnahme an der Fortbildung Vielfalt fördern die fachspezifische Zusammenarbeit sowie die Deprivatisierung weiterhin positiv beeinflusst, und zwar zu einem Zeitpunkt, zu dem das Modul ‚‚Teamentwicklung" der Fortbildung schon abgeschlossen ist. Da die Ergebnisse aus zwei Kohorten stammen, zwischen denen auch Veränderungen in der Modulgestaltung stattgefunden haben, handelt es sich bei den dargestellten Ergebnissen jedoch nicht um einen Längsschnitt mit mehreren Erhebungszeitpunkten. Für die zweite Kohorte des Projekts LIQUID kann die Entwicklung der Zusammenarbeit jedoch weiter untersucht werden, da die drei hier betrachteten Kooperationsaspekte nochmals am Ende von Vielfalt fördern erhoben wurden. In den hier vorgestellten Modellen wurde ausschließlich die Zugehörigkeit zur UG oder zur KG als Prädiktor auf der Ebene der Schulen (Ebene 2) untersucht. Es bleibt zu prüfen, ob sich die berichteten Einflüsse der Fortbildung auch nachweisen lassen, wenn weitere schulische Merkmale in den Modellen berücksichtigt werden.

Weitere Forschungsfragen, denen künftig nachgegangen wird, beziehen sich auf die Entwicklungen der Schülerinnen und Schüler im Bereich der Leistungen, des Interesses, der metakognitiven Fähigkeiten und auf die Wahrnehmungen des Unterrichts.

Auswertungen werden sich zudem darauf beziehen, ob sich die Selbstwirksamkeitserwartungen der Lehrpersonen aufgrund der Teilnahme an Vielfalt fördern verändert haben, z. B. ob sie sich am Ende sicherer darin fühlen, die Lernenden zu motivieren oder den Unterricht an die Schülervoraussetzungen anzupassen.

Im Rahmen weiterführender Analysen sollen außerdem Faktoren der unterschiedlichen Merkmalsbereiche des Angebots-Nutzungs-Modells in den Blick genommen werden, um mögliche Effekte der Fortbildung besser erklären zu können.

Alliger, G. M., Tannenbaum, S. I., Bennett, W., Traver, H. & Shotland, A. (1997). A meta- analysis of the relations among training criteria. Personnel Psychology, (50)2, 341–358.

Bömer, A.-T., Kunter, M. & Hertel, S. (2011). Veränderungsbereitschaft von Lehrkräften. Empirische Überprüfung eines kognitiv-affektiven Modells der Überzeugungsveränderung. Fachgruppentagung Pädagogische Psychologie September 2011, Erfurt.

Goldschmidt, P. & Phelps, G. (2007). Does teacher professional development affect content and pedagogical knowledge. How much and for how long?. CSE Technical Report Nr. 711. Los Angeles.

Gollwitzer, M. & Jäger, R. S. (2009). Evaluation kompakt (1. Aufl.). Weinheim: Beltz.

Hattie, J. (2009). Visible learning. A synthesis of over 800 meta-analyses relating to achievement. London: Routledge.

Jäger, R. S. & Bodensohn, R. (2007). Bericht zur Befragung von Mathematiklehrkräften. Die Situation der Lehrerfortbildung im Fach Mathematik aus der Sicht der Lehrkräfte. Deutsche Telekom Stiftung. Verfügbar unter dzlm.de/files/uploads/17_01_07_mathematiklehrerbefragung.pdf.

Kirkpatrick, D. L. (1994). Evaluating training programs. The four levels. San Francisco: Berrett-Koehler.

Klug, J. (2011). Modeling and training a new concept of teachers' diagnostic competence. Dissertation, Technische Universität Darmstadt. Darmstadt.

Kwakman, K. (2003). Factors affecting teachers' participation in professional learning activities. Teaching and Teacher Education, 19(2), 149–170.

Lave, J. & Wenger, E. (1991). Situated learning. Legitimate peripheral participation. Cambridge: Cambridge University Press.

Linder, S. M. (2011). The facilitator's role in elementary mathematics professional development. Mathematics Teacher Education & Development, 13(2). 44–66.

Lipowsky, F. (2014). Theoretische Perspektiven und empirische Befunde zur Wirksamkeit von Lehrerfort- und weiterbildung. In: E. Terhart, H. Bennewitz & M. Rothland (Hrsg.). Handbuch der Forschung zum Lehrerberuf (2. überarbeitete Auflage, S. 511–541). Münster: Waxmann.

Lipowsky, F. (2015). Unterricht. In: E. Wild & J. Möller (Hrsg.). Einführung in die Pädagogische Psychologie (S. 69–105). Heidelberg: Springer.

Lipowsky, F. & Rzejak, D. (2014). Das Lernen der Schülerinnen und Schüler im Blick. Lehrerfortbildungen erfolgreich gestalten. In: C. Kubina & G. Schreder (Hrsg.). Qualitätsentwicklung von Schule und Unterricht. Lernen planmäßig gestalten, gemeinsam am Fach- und Schulcurriculum arbeiten (S. 30–42). Kronach: Link.

Lipowsky, F. & Rzejak, D. (2015). Key features of effective professional development programmes for teachers. Ricercazione, 7(2), 27–51.

Lomos, C., Hofman, R. H. & Bosker, R. J. (2011). Professional communities and student achievement. A meta-analysis. School Effectiveness and School Improvement, 22(2), 121–148.

Müncher, A. & Sturm-Schubert, T. (Bertelsmann Stiftung) (Hrsg.) (2016). Leitfaden zu den Inhalten der Fortbildungsmodule. Verfügbar unter https://www.bertelsmann-stiftung.de/fileadmin/files/BSt/Publikationen/GrauePublikationen/VF_Leitfaden_Fortbildungsmodule_Apr2016.pdf

Parr, J., Timperley, H., Reddish, P., Jesson, R. & Adams, R. (2007). Literacy Professional Development Project. Identifying effective teaching and professional development practices for enhanced student learning. Wellington: Learning Media.

Richter, D. & Pant, H. A. (2016). Lehrerkooperation in Deutschland. Eine Studie zu kooperativen Arbeitsbeziehungen bei Lehrkräften der Sekundarstufe I. Verfügbar unter https://www.bertelsmann-stiftung.de/fileadmin/files/BSt/Publikationen/GrauePublikationen/Studie_IB_Lehrerkooperation_in_Deutschland_2016.pdf

Rzejak, D., Lipowsky, F. & Künsting, J. (2013). LehrerInnen und Lehrer als Lernende. Welche Merkmale beeinflussen den selbstberichteten Lernertrag von Lehrpersonen in Fortbildungsmaßnahmen. Erziehung & Unterricht, 163(1/2), 90–98.

Steinert, B., Klieme, E., Maag Merki, K., Döbrich, P., Halbheer, U. & Kunz, A. (2006). Lehrerkooperation in der Schule: Konzeption, Erfassung, Ergebnisse. Zeitschrift für Pädagogik, 52(2), 185–204. Verfügbar unter https://www.pedocs.de/volltexte/2011/4452/pdf/ZfPaed_2006_2_Steinert_Klieme_MaagMerki_Doebrich_Lehrerkooperation_Schule_D_A.pdf .

Timperley, H., Wilson, A., Barrar, H. & Fung, I. (2007). Teacher professional learning and development. Best evidence synthesis iteration (BES). Wellington: Ministry of Education.

Tinoca, L. F. (2004). From professional development for science teachers to student learning in science. Dissertation, University of Texas. Austin.

Wahl, D. (2001). Nachhaltige Wege vom Wissen zum Handeln. Beiträge zur Lehrerbildung, 19(2), 157–174.

Wenglinsky, H. (2002). How schools matter. The link between teacher classroom practices and student academic performance. Education Policy Analysis Archives, 10(12). Verfügbar unter epaa.asu.edu/ojs/article/view/291/417 .

Yoon, K. S., Duncan, T., Lee, S. W.-Y., Scarloss, B. & Shapley, K. (2007). Reviewing the evidence on how teacher professional development affects student achievement (Issues & answers, Bd. 033). Washington: National Center for Educational Evaluation and Regional Assistance, Institute of Education Sciences, U.S. Dept. of Education.

1. Einflussfaktoren auf das Lernen von Lehrpersonen im Rahmen von Fortbildungen

2. Ziele und Erfolgskriterien von Fortbildungen

3. Grundsätze aussagekräftiger Untersuchungsdesigns in der Fortbildungsforschung

4. Evaluationskonzept von LIQUID

5. Erste Ergebnisse

6. Diskussion und Ausblick

Literatur