eBooks

Empirisches Arbeiten in Linguistik und Sprachlehrforschung

2010
978-3-8233-7590-6
Gunter Narr Verlag 
Prof. Dr. Ruth Albert
Prof. Dr. Nicole Marx
Ruth Albert/ Nicole Marx Empirisches Arbeiten in Linguistik und Sprachlehrforschung Anleitung zu quantitativen Studien von der Planungsphase bis zum Forschungsbericht Ruth Albert / Nicole Marx Empirisches Arbeiten in Linguistik und Sprachlehrforschung Anleitung zu quantitativen Studien von der Planungsphase bis zum Forschungsbericht Prof. Dr. Ruth Albert ist Professorin für Deutsch als Fremdsprache am Institut für Germanistische Sprachwissenschaft der Philipps-Universität Marburg. Prof. Dr. Nicole Marx ist Professorin für Sprachlehrforschung und Deutsch als Fremdsprache am Institut für Germanistik und Vergleichende Literaturwissenschaft der Universität Paderborn. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.d-nb.de> abrufbar. © 2010 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf chlorfrei gebleichtem und säurefreiem Werkdruckpapier. Internet: http: / / www.narr-studienbuecher.de E-Mail: info@narr.de Druck und Bindung: Gulde, Tübingen Printed in Germany ISSN 0941-8105 ISBN 978-3-8233-6590-7 Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis Vorwort....................................................................................................................... 9 1 Zur Einführung ............................................................................................... 11 1.1 Arten von empirischer Forschung ............................................................... 12 1.2 Warum eigentlich empirisch arbeiten? ....................................................... 14 1.3 Zum Aufbau des Studienbuchs..................................................................... 16 Aufgabe ..................................................................................................................... 18 Schritt 1: Planungsphase ..............................................................................19 2 Vorplanung einer empirischen Untersuchung .......................................... 21 2.1 Auswahl eines Untersuchungsgegenstand s .............................................. 21 2.2 Was ist eine Forschungsfrage? ...................................................................... 24 2.3 Wie formuliere ich eine Hypothese? ............................................................ 25 2.4 Gütekriterien für empirische Untersuchungen.......................................... 27 2.4.1 Verlässlichkeit Reliabilität ................................... 28 2.4.2 Objektivität............................................................................................ 30 2.4.3 Gültigkeit (Validität) ........................................................................... 30 2.4.4 Warum kann es schwierig sein, Gütekriterien zu erfüllen? ........... 33 2.5 Wie komme ich zu einem Forschungsplan? ............................................... 33 2.5.1 Eine passende Forschungsmethode finden ...................................... 34 2.5.2 Die passenden Versuchspersonen auswählen .................................. 34 2.6 Worauf muss ich sonst noch achten? .......................................................... 35 2.6.1 Störfaktoren .............................................................. 35 2.6.2 Kontrollfaktoren................................................................................... 37 2.7 Zusammenfassung.......................................................................................... 38 Aufgaben................................................................................................................... 38 Schritt 2: Datenerhebung .............................................................................41 3 Die Beobachtung ............................................................................................ 43 3.1 Offene und verdeckte Beobachtung ............................................................. 43 3.2 Beobachtungskategorien ............................................................................... 45 3.3 Datenklassifikation......................................................................................... 46 3.4 Zur Wahl der Stichprobe ............................................................................... 49 Aufgaben................................................................................................................... 49 4 Arbeiten mit Textkorpora ............................................................................. 51 Aufgabe ..................................................................................................................... 55 ä ö 6 Inhaltsverzeichnis 5 Die Befragung ..................................................................................................59 5.1 Die Wahl der Stichprobe................................................................................62 5.1.1 Auswahl der Befragten .........................................................................62 5.1.2 Die Größe der Stichprobe....................................................................65 5.2 Befragungsarten ..............................................................................................65 5.2.1 Offene Konzepte, explorative Interviews ..........................................65 5.2.2 Geschlossene Konzepte, festgelegte Fragefolgen..............................67 5.2.3 Die Wahl zwischen offenen und geschlossenen Fragen..................70 5.2.4 Direkte und indirekte Fragen..............................................................71 5.3 Aufbau eines Fragebogens .............................................................................72 5.4 Umgang mit der Gefahr von Artefakten .....................................................73 5.5 Das Klassifizieren von umfangreichen Befragungsdaten für eine differenzierte Auswertung .............................................................................7 Aufgaben ...................................................................................................................76 6 Das Experiment...............................................................................................81 6.1 Experimentelle Forschung .............................................................................81 6.2 Der Entwurf des Forschungsvorhabens.......................................................83 6.2.1 Vorbereitungen für ein Experiment ..................................................87 6.2.2 Laborvs. Feldexperiment...................................................................88 6.2.3 Kontrollgruppen ...................................................................................89 6.2.3 Probleme ................................................................................................91 6.3 Mehrfaktorielle Fragestellungen ...................................................................92 6.4 Verbreitete Experimentformen in der Psycholinguistik ...........................95 6.4.1 Experimente zur Sprachproduktion ..................................................96 6.4.2 Experimente zur Sprachrezeption ................................................... 100 6.5 Auswertung der Experimentergebnisse .................................................... 101 Aufgaben ................................................................................................................ 102 Schritt 3: Datenauswertung / Datenanalyse.............................................. 103 7 Skalenniveaus ............................................................................................... 105 Aufgaben ................................................................................................................ 109 8 Beschreibende Statistik................................................................................ 111 8.1 Häufigkeit ..................................................................................................... 111 8.2 Maße der zentralen Tendenz: Modalwert, Median, Mittelwert ............ 113 8.3 Standardabweichung .................................................................................. 114 8.4 Die Darstellung der Daten .......................................................................... 117 Aufgaben ................................................................................................................ 119 9 Inferentielle Statistik I: Beziehungen zwischen Daten............................ 121 9.1 Korrelation ............................................................................................... 121 9.1.1 Korrelationen bei interva lskalierten Daten berechnen ............... 125 5 en l Inhaltsverzeichnis 7 9.1.2 Wann ist eine Korrelation hoch genug? .......................................... 127 9.1.3 Wie man Korrelationen präsentiert................................................. 129 9.2 Assoziationen und Häufigkeit: Der Chi-Quadrat-Test........................... 129 9.2.1 Chi-Quadrat bei Befragungen .......................................................... 130 9.3 Assoziation bedeutet keine Kausalität ...................................................... 135 Aufgaben................................................................................................................. 137 10 Inferentielle Statistik II: Experimentelle Daten ........................................ 139 10.1 Tests für intervallskalierte Daten................................................................ 142 10.1.1 Annahmen, die Tests für intervallskalierte Daten voraussetzen 142 10.1.2 t-Test für abhängige Gruppen ........................................................ 142 10.1.3 t-Test für unabhängige Gruppen ................................................... 144 10.1.4 Varianzanalyse (ANOVA: analysis of variance) .......................... 146 10.2 Test für nominalskalierte Daten: der Chi-Quadrat-Test ........................ 151 10.3 Tests für ordinalskalierte Daten: U-Test und Wilcoxon-Test................ 152 10.4 Zusammenfassung: Wann man welchen Test benutzt............................ 155 Aufgaben................................................................................................................. 157 11 Signifikanz vs. Aussagekraft........................................................................ 159 11.1 Interpretation des Signifikanzniveaus ....................................................... 159 11.2 Effektgröße .................................................................................................... 160 11.2.1 Korrelation und r-Quadrat ............................................................. 161 11.2.2 Chi-Quadrat und Cramér’s V......................................................... 162 11.2.3 t-Test und Cohen’s d sowie Eta zum Quadrat ( 2 ) ..................... 163 11.2.4 ANOVA und Eta zum Quadrat ( 2 ).............................................. 164 11.3 Warum über Effektgröße berichten? ......................................................... 164 Aufgabe ................................................................................................................... 165 Schritt 4: Der Forschungsbericht...............................................................167 12 Präsentation der Studie: Wie schreibe ich es auf? .................................... 169 12.1 Das Abstract .................................................................................................. 169 12.2 Einleitung, theoretischer Rahmen und relevante Literatur .................... 170 12.3 Fragestellung und Hypothesen ................................................................... 171 12.4 Forschungsdesign / Methodik .................................................................... 171 12.5 Präsentation der Ergebnisse ........................................................................ 172 12.6 Besprechung der Ergebnisse und Schlussfolgerungen bzw. Ausblick... 173 Aufgabe ................................................................................................................... 174 Anhang: Lösungen der Aufgaben ...................................................................... 175 Literaturverzeichnis .............................................................................................. 197 Stichwortverzeichnis ............................................................................................. 201 Vorwort Vorwort Vorwort Vorwort Das vorliegende Buch bietet eine systematische Anleitung zum Schreiben einer quantitativ vorgehenden empirischen wissenschaftlichen Arbeit in der Sprachlehrforschung oder Linguistik, in der jeder einzelne Schritt genau erläutert wird. Da der Linguistik und Sprachlehr- und -lernforschung 1 (die in vielen Ländern nicht nur als Teil der „angewandten Linguistik“ vorkommt, sondern explizit so genannt wird) gemeinsam ist, dass sie sich mit Sprachen beschäftigen und mit den Prozessen, in denen man Sprachen lernt, und da sie auch größtenteils dieselben Verfahren benutzen, schien uns die Schnittmenge groß genug zu sein, um eine Einführung für beide Wissenschaften zu schreiben. Wir richten uns besonders an Studierende linguistischer Fächer, die ihre Bachelor-, Master-, Examens- oder Doktorarbeit schreiben und die eine quantitative Studie durchführen möchten, und haben uns deshalb auf die Beschreibung der Verfahren beschränkt, die Sprachwissenschaftler tatsächlich häufig benutzen, verweisen jedoch im Text und in unserem kommentierten Literaturverzeichnis auf nützliche weiterführende Literatur. Sogenannte qualitative empirische Forschung wird in diesem Buch nur am Rande behandelt, weil sie in der Linguistik ohnehin nicht praktiziert wird und weil die Einigung auf methodische Standards bei qualitativer empirischer Sprachlehrforschung sich noch im Anfangsstadium befindet (vgl. dazu auch den programmatischen Beitrag von Riemer 2008). Nicht zu bestreiten ist, dass auch in der Sprachlehrforschung ein Bedarf an generalisierbaren Ergebnissen quantitativ vorgehender Forschung besteht. So schwierig Untersuchungen zur Wirkungsweise von Lehrmethoden oder Lernstrategien manchmal auch durchzuführen sein mögen, die Lehrpersonen brauchen sie als Basis für ihre professionellen Entscheidungen. Dieses Buch kann keine Wunder bewirken. Es ersetzt nicht die Besprechung mit dem/ der Betreuer(in) der Arbeit darüber, was genau untersucht werden soll, welche Methoden dabei zur Datenerhebung eingesetzt werden können und wie bei der Analyse der erhobenen Daten vorzugehen ist. Wir erklären häufig benutzte Verfahren und warnen vor häufig vorkommenden Fehlern. Die statistische Aufbereitung der Daten und die Benutzung von Computerprogrammen für die statistische Analyse als „Handwerkszeug“ können wir vermitteln, die Interpretation der Daten sollte man mit dem Betreuer oder der Betreuerin durchsprechen. Wenn man ein Buch für Personen mit recht verschiedenem Hintergrundwissen schreibt, dann tut man gut daran, bei der Darstellung der einzelnen Methoden Beispiele zu wählen, die man verstehen kann, ohne dass vorher 1 Wir verwenden aus Gründen der Lesbarkeit im Weiteren die Bezeichnung „Sprachlehrforschung“ und meinen damit die Sprachlehr- und -lernforschung. 10 Vorwort komplizierte linguistische Hypothesen oder lerntheoretische Annahmen erklärt werden müssen. Deshalb haben wir hier mit möglichst einfachen und meist auch erfundenen Beispielen gearbeitet, die man mit Alltagswissen verstehen kann, und in Kauf genommen, dass diese Beispiele gelegentlich banal erscheinen mögen. Die einzelnen Kapitel enden jeweils mit Übungsaufgaben, die es Ihnen ermöglichen sollen zu überprüfen, ob Sie das Gelesene schon selbstständig auf eine neue, konkrete Aufgabenstellung anwenden können. Erfahrungsgemäß ist man recht sicher, dass man die Aufgabe genau so gelöst hätte, wie es im Lösungsteil angegeben ist, wenn man unmittelbar nach dem Lesen der Aufgabe die Lösung nachliest. Wenn man die Aufgabe aber tatsächlich zu lösen versucht, ergeben sich doch Fragen. Wir raten Ihnen deshalb, die Aufgaben wirklich erst ohne die Lösungshinweise im Anhang zu bearbeiten. Im Literaturverzeichnis finden Sie eine Liste kommentierter, weiterführender Quellen. Sollten wir hier etwas nicht aufgenommen haben, finden Sie die Quelle direkt in einer Fußnote. Wir wollten einen möglichst leicht lesbaren Text schreiben, sodass wir uns entschieden haben, in Bezug auf die politische Korrektheit bei den Personenbezeichnungen wie folgt vorzugehen: Wenn eine geschlechtsneutrale Form (wie z.B. „Lehrperson“) nicht existiert, sind die Forscher und Forscherinnen im Text immer weiblich, die Versuchsteilnehmer und Versuchsteilnehmerinnen oder Schüler und Schülerinnen immer männlich bezeichnet. Selbstverständlich sind immer beide Geschlechter gemeint. Dieses Buch wird durch zusätzliches Material im Internet ergänzt, das man unter der Adresse www.narr-studienbuecher.de abrufen kann. Hier wird der Statistikteil erweitert (die Rechenverfahren werden erläutert, und es finden sich Tabellen zur Bestimmung des Signifikanzniveaus), einige Zusatzaufgaben sind hier auch zu finden. Für Dozenten und Dozentinnen, die das Buch als Grundlage für ihren Kurs benutzen, wird auch über den Verlag eine Musterklausur mit einer Musterlösung angeboten. Ein großer Dank gilt den Lektorinnen dieses Bandes, Susanne Fischer und Karin Burger, für ihr sorgfältiges Lektorieren und dafür, dass sie eine enorme Geduld dabei aufgebracht haben, unsere Kämpfe mit den Formatvorlagen zu begleiten und helfend einzugreifen. Wir danken auch Silke Jahns und Heike Janssen sowie den Studierenden unserer Seminare für wertvolle Hinweise, die zur Verbesserung des Manuskripts beigetragen haben. Ganz besonders möchten wir Dr. Cor J. Koster, dem Koautor des Vorgängerbuchs, dafür danken, dass wir seine guten Ideen übernehmen durften. Darüberhinaus danken wir Heike Janssen auch für ihre Hilfe beim Layouten, Dimka Dimova, Frederic Hilkenmeier, Inga Petter, Till Schröder und Katharina Weiß für ihre Hilfe beim Korrekturlesen und Thomas Seiler für das Bekochen des Autorinnenteams in Stresszeiten. 1 11 1 Zur Einführung Zur Einführung Zur Einführung Zur Einführung Manche Sprachlehrpersonen fragen sich Dinge wie beispielsweise: Wie lehrt man am besten Vokabeln? Sollte man Vokabeln den Schülern mit Hilfe von Texten beibringen, indem man eine Übersetzung der unbekannten Wörter eines Textes gibt, oder sollte man die Schüler die Bedeutung der Wörter aus dem Text heraus selbst erraten lassen? Wie sollte man Grammatik lehren? Ist es besser, sie zuerst zu erklären und dann einige Übungen zu machen oder sollte man mit einer Situation oder einem Text beginnen und die darin enthaltenen wichtigen grammatischen Erscheinungen mit den Schülern gemeinsam erarbeiten? Würden die weniger begabten Schüler mehr lernen, wenn ich die Gruppe aufspalte in eine mit den besseren und eine mit den schlechteren Schülern? Macht es einen Unterschied, ob in Gruppen mit Schülern unterschiedlicher Sprachlerneignung oder ob in homogenen Gruppen unterrichtet wird? Sind Schüler mit zwei arbeitenden Elternteilen tatsächlich im Schnitt besser als diejenigen, bei denen nicht beide Eltern arbeiten, oder ist das nur ein Eindruck, den ich aufgrund meiner eigenen Schülergruppe habe? Sind Mädchen wirklich sprachbegabter als Jungen? Und falls ja, warum? Oder fällt ihnen nur die Aussprache von Fremdsprachen leichter? Linguistinnen interessieren sich für ganz andere Fragestellungen, wie beispielsweise: Werden bei mehrsprachigen Personen die übersetzungsäquivalenten Wörter der gerade nicht benutzten Sprache(n) mit aktiviert, wenn sie sprechen oder lesen? Wie unterscheidet sich die gesprochene von der geschriebenen Sprache in Bezug auf den Gebrauch von Steigerungspartikeln? Worin unterscheidet sich die Sprache der Boulevardpresse von der seriöser Zeitungen? Ist es tatsächlich so, dass in politischen Talkshows in England mehr tag questions (wie isn't it? ) verwendet werden als in anderen Sendungen? Und wenn das stimmt, woran liegt es? Einige dieser Fragen können sehr leicht beantwortet werden, weil auf diesem Gebiet schon viel Forschung betrieben wurde. Trotzdem kann man der Mei- Themen Sprachlehrforschung Themen Linguistik 12 1 Zur Einführung nung sein, dass man selbst mehr darüber herausfinden möchte, oder vielleicht glaubt man auch, dass die vorhandene Forschung zu einer bestimmten Frage für die eigene Situation nicht besonders relevant ist, oder man hat einfach Spaß an der Überprüfung von Hypothesen. Für diese neugierige Sorte der besonders enthusiastischen Sprachlehrpersonen und Linguisten - und angehenden Sprachlehrpersonen - ist dieses Buch geschrieben. Auch Linguistinnen, die keine praktische Anwendung ihrer Forschung im Klassenzimmer planen, arbeiten oft empirisch, weil sie Fragestellungen untersuchen, die sich nur mit Hilfe empirischer Forschung beantworten lassen. Obwohl dies häufig nicht geglaubt wird, kann Forschung von Sprachlehrpersonen auch in tatsächlichen Klassenzimmersituationen betrieben werden. Alles, was man braucht, um Forschung zu betreiben, ist Neugier, eine Menge Geduld, etwas Wissen über Forschungsparadigmen und Statistik und eine gehörige Portion gesunden Menschenverstand. Zusätzlich muss man über die möglichen Fallen Bescheid wissen, die einen bei einem Forschungsprojekt erwarten. 1.1 1.1 1.1 1.1 Arten von empirischer Forschung Arten von empirischer Forschung Arten von empirischer Forschung Arten von empirischer Forschung Empirische Forschung heißt wörtlich „auf Erfahrung beruhende Forschung“. Gemeint ist damit, dass eine systematisch zu erfassende Erfahrung die Grundlage bildet, um die zu untersuchende Fragestellung zu beantworten. Die empirische Untersuchung führt diese Erfahrung nach speziellen Verfahren herbei. Empirische Forschung wird gewöhnlich in qualitative und quantitative Forschung aufgeteilt. Quantitative Forschung wird dann wieder aufgeteilt in experimentelle und nicht-experimentelle Forschung (Abb. 1): Abb. 1: Arten von empirischer Forschung empirische Forschung quantitative Forschung qualitative Forschung experimentelle Forschung nicht-experimentelle Forschung 13 1.1 Arten von empirischer Forschung Ziel der qualitativen (auch explorativ-interpretativ genannten) Forschung ist, eine Verhaltensweise aus der Perspektive der Beforschten nachzuvollziehen, im Unterschied zur quantitativen Forschung, die ein Phänomen beschreiben, erklären und seine Verbreitung ermitteln will. „Auf der Ebene der allgemeinen Zielsetzung von Forschungen stehen sich Verstehen auf der qualitativen Seite und auf der quantitativen Seite Deskription und Erklären menschlichen Verhaltens gegenüber“ (Riemer 2008, 6). Qualitative Vorgehensweisen sind u.a. besonders dann sinnvoll, wenn über den Gegenstandsbereich, den man untersuchen will, noch wenig bekannt ist, sodass man erst einmal möglichst reichhaltige Daten von einer sehr begrenzten Gruppe von Personen sammelt, aus denen man dann Erklärungsansätze entwickeln kann. Da Aussagen über sehr kleine Gruppen meist nur für praktische Anwendungen verwertbar sind, wenn sie generalisierbar sind, wird meist zusätzlich noch eine quantitative Forschungsstudie dazu angeregt, die dann die Allgemeingültigkeit der Hypothesen überprüfen soll, die durch die qualitative Forschung gewonnen wurden. Nicht-experimentelle quantitative Forschung zählt oft einfach nur etwas. Meinungsumfragen sind ein typisches Beispiel dafür („Wie viele Menschen beantworten eine bestimmte Frage mit ja, wie viele mit nein? “). Experimentelle Forschung ist dadurch charakterisiert, dass etwas (beispielsweise die Menge Alkohol, die man zu sich nimmt, oder die Art und Weise, wie man lernt) manipuliert wird, d.h. von der Forscherin kontrolliert wird. Tabelle 1 enthält typische Beispiele für die verschiedenen Arten empirischer Forschung. Tabelle 1: Beispiele für die drei Arten von Forschung Experimentelle Forschung Nicht-experimentelle Forschung Qualitative Forschung Der Effekt von Alkohol auf die Sprechgeschwindigkeit Befragung zum Alkoholgebrauch von Lehrpersonen im Dienst Gründe für den Alkoholgebrauch bei Schüler X vor dem Englischunterricht Vergleich der Lehrmethoden X und Y für das Lernen des Genus deutscher Nomen bei zwei Gruppen von Austauschstudenten Erfassung der Korrekt heit des Genusge brauchs bei Austausch studenten mit und ohne DSH-Prüfung Befragung dieser Austauschstudenten, warum sie bestimmte Fehler im Genusgebrauch gemacht haben Der Effekt von regressiver Assimilation auf die Worterkennung Akzeptanz von regressiver Assimilation beim Vorlesen im Sprachunterricht Kritik am Begriff „regressive Assimilation“ qualitativ quantitativ 14 1 Zur Einführung Für qualitative sowie quantitative Forschung gelten einige allgemeine Prinzipien, die wir hier skizzieren: Es sollte eine klare Forschungsfrage geben, auf die hin man seine Untersuchung plant. Dass man bei einem qualitativen Vorgehen im Laufe der Untersuchung aufgrund des erreichten Wissensfortschritts Schwerpunkte ändern kann, bedeutet nicht, dass man damit beginnen kann aufs Geratewohl Daten zu sammeln. Das Sammeln „reicher Daten“ durch eine Kombination verschiedener Erhebungsverfahren, „Datentriangulation“, darf nicht darauf hinauslaufen, dass man versucht, unsystematisch erhobene und deshalb uninterpretierbare Daten durch weitere unsystematisch erhobene Daten aufzubessern. Es muss ein festgelegtes und transparent gemachtes Verfahren geben, wie man vorgeht, wenn sich die Ergebnisse der Analyse der verschiedenen Arten von gesammelten Daten widersprechen. Die Vorgehensweise, auch bei der Auswahl der beobachteten oder befragten Personen, sollte geplant und nachvollziehbar sein. Heutzutage wird immer häufiger auf eine Kombination unterschiedlicher Methoden oder Forschungsparadigmen zurückgegriffen, um ein möglichst vollständiges Bild von Lernprozessen zu erzielen. Wenn auch wir hier, wie üblich, die unterschiedlichen Arten von Forschung getrennt behandeln, bedeutet das nicht, dass es keine Grauzonen zwischen den Ansätzen gibt. Ebenso ist es möglich, in einer einzigen Studie sowohl quantitative als auch qualitative Verfahren zu verwenden, je nachdem, was man untersuchen will. Für größere Arbeiten ist eine solche Kombination aus qualitativen und quantitativen Ansätzen oft durchaus sinnvoll, für kleinere Arbeiten, wie im Rahmen einer Bachelor-, Master- oder Examensarbeit, ist dies meist nicht notwendig. In dieser Einführung beschäftigen wir uns nicht mit qualitativer Forschung. Das liegt zum einen daran, dass diese Art von Forschung in der Linguistik ohnehin weder verbreitet noch sinnvoll einsetzbar ist. In der Sprachlehrforschung gibt es in bestimmten Kontexten gute Gründe für den Einsatz qualitativer Forschungsparadigmen. Wenn Sie sich besonders dafür interessieren, empfehlen wir Ihnen als Einführung die Werke von Altrichter/ Posch 2007 sowie Friebertshäuser/ Prengel 1997/ 3 2010. 1.2 1.2 1.2 1.2 Warum eigentlich empirisch arbeiten? Warum eigentlich empirisch arbeiten? Warum eigentlich empirisch arbeiten? Warum eigentlich empirisch arbeiten? Nicht jede Art von Forschungsfrage, die man sich als Linguistin oder Sprachlehrforscherin stellt, erfordert eine empirische Untersuchung oder ist überhaupt sinnvoll mit einer empirischen Untersuchung zu beantworten. Angenommen, Sie wollten herausfinden, wie das Partizip II regelmäßiger Verben im Deutschen gebildet wird, so ist die richtige Antwort durch die Triangulation Art der Fragestellung 15 1.2 Warum eigentlich empirisch arbeiten? eigene Introspektion (wenn Sie ein kompetenter Sprecher des Deutschen sind und regelmäßige Verben erkennen können) oder durch Nachschlagen in Grammatiken erheblich schneller und zuverlässiger zu finden als z.B. mit einer Befragung oder einer Beobachtung von Sprechern des Deutschen. Insofern ist die Frage nicht trivial, ob eine Forschungsfrage eine empirische Untersuchung erfordert. Die Introspektion einer Sprachwissenschaftlerin als kompetenter Sprecherin der zu untersuchenden Sprache ist für große Teile der Sprachbeschreibung die sinnvollste Methode der Datengewinnung. 1 Sie ist jedoch nicht anwendbar, wenn man befürchten muss, dass nicht alle Sprecher der zu untersuchenden Sprache zu denselben Ergebnissen kämen, wenn sie ihren eigenen Sprachgebrauch reflektieren. Das kann daran liegen, dass es regionale oder soziolektale Unterschiede gibt oder dass ein Unterschied zwischen Sprachnorm und Sprachgebrauch zu vermuten ist. Es kann auch sein, dass man sein eigenes Verhalten gar nicht gut genug kennt, um es beschreiben zu können (etwa beim Geben von Hörersignalen wie hmhm), oder dass man das sprachliche Verhalten von Gruppen beschreiben möchte, zu denen man nicht gehört (z.B. Kinder im Erstspracherwerb oder erwachsene Zweitsprachenlerner auf einer bestimmten Stufe). Ebenso kann es sein, dass das zu untersuchende Phänomen äußerst komplex ist, sodass man bei einer Introspektion niemals alle Komponenten beachten könnte. Das ist z.B. in der Wirklichkeit des Fremdsprachenunterrichts immer so. Aber auch in der „reinen Linguistik“ gibt es sehr komplexe Phänomene zu untersuchen. Dazu gehört vor allen Dingen die Beschreibung des Ablaufs von Gesprächsformen, z.B. Kommunikation vor Gericht, Kommunikation in der Schule, Verkaufsgespräche, Verhandlungsgespräche u.a.m. Für diese Untersuchungen gibt es eine spezielle linguistische Methode, die Gesprächsanalyse (Diskursanalyse/ Konversationsanalyse). Sie beruht auf speziellen Verfahren der Datenerhebung und der Datenaufbereitung, darunter besonders die Transkription der Gespräche nach festgelegten Notationen, die nicht nur den Wortlaut der Äußerungen, sondern auch Betonungen, Gleichzeitig-Sprechen, Pausen, Tonhöhenverlauf und vieles andere mit berücksichtigen. Zu den Verfahren der Gesprächsanalyse oder Konversationsanalyse gibt es gute deutschsprachige Einführungen (z.B. Henne/ Rehbock 1995 sowie Brinker/ Sager 2001). Da es für diese Art empirischer Forschung bereits gute deutschsprachige Einführungen gibt, und für die Gesprächsforschung mehrere Sonderbedingungen gelten, soll dieses Thema hier nicht weiter aufgegriffen werden. Wir beschäftigen uns also mit der nicht konversationsanalytisch ausgerichteten quantitativen empirischen Forschung im Bereich Linguistik/ Sprachlehrforschung. 1 Zu Problemen mit introspektiv gewonnenen Daten s. Schütze 1996 und Kepser/ Reis 2005. Konversationsanalyse 16 1 Zur Einführung 1.3 1.3 1.3 1.3 Zum Aufbau des Studienbuchs Zum Aufbau des Studienbuchs Zum Aufbau des Studienbuchs Zum Aufbau des Studienbuchs Empirische Forschung im Bereich Linguistik außerhalb der Konversationsanalyse und in weiten Teilen der Sprachlehrforschung folgt den üblichen Regeln der empirischen Sozialforschung, d.h., die dort geltenden Gütekriterien und die dort geltenden Methoden werden von Linguisten/ Sprachlehrforschern genauso benutzt wie von Soziologen auch. Das Ziel dieser einführenden Darstellung ist, einen Überblick über diese Methoden zu geben und die Leserinnen und Leser in die Lage zu versetzen, selbst eine empirische Untersuchung in diesem Bereich zu planen und durchzuführen. Dazu wird das Vorgehen bei einer empirischen Forschungsarbeit von der ersten Grobplanung bis zur Niederschrift des Forschungsberichts beschrieben. Es werden die folgenden Themen behandelt: Zunächst einmal behandeln wir, wie man seinen Untersuchungsgegenstand abgrenzen kann und die Vorplanung einer Studie macht, dann die Gütekriterien für empirische Sozialforschung allgemein. Im zweiten Teil des Buchs gehen wir auf gängige Forschungsmethoden ein. Gegenstand unserer Untersuchungen ist im allerweitesten Sinn menschliches Verhalten, nämlich Sprachverhalten, Kommunikationsverhalten oder Lernverhalten. Um über dieses Verhalten mehr zu erfahren, gibt es drei verschiedene Herangehensweisen. Zunächst einmal kann man das zu untersuchende Verhalten da untersuchen, wo es natürlicherweise stattfindet. Das ist in der Sprachlehrforschung das verbreiteteste der angewandten Verfahren. Man beobachtet das Unterrichtsgeschehen einfach im „normalen“ Unterricht, oder man beobachtet das (Lern- oder Sprech-) Verhalten einzelner Personen in Fallstudien. Wichtig bei diesem Verfahren der Beobachtung ist es, dass die beobachtenden Forscher die zu beobachtende Wirklichkeit so wenig wie möglich verändern. Die zweite Möglichkeit ist die Befragung. Hier stört die Forscherin nicht den Prozess, über den sie etwas aussagen will, sondern sie bittet die am Prozess Beteiligten um Auskünfte. In diesem Fall wird die Wirklichkeit durch bewusste Prozesse derjenigen gefiltert, die befragt werden. Das ist vor allem dann problematisch und erfordert besonders ausgefeilte Techniken, wenn Normen im Spiel sind. Jeder Befragte wird natürlich das Bestreben haben, sich so darzustellen, als verhalte er sich den Normen entsprechend, vor allem, wenn er selbst diese Normen akzeptiert (was bei sprachlichen Normen recht häufig der Fall ist). In einer von Ruth Albert durchgeführten Untersuchung (Brons-Albert 1977) wurden Sprecher des Deutschen gefragt, welches Tempus sie zur Bezeichnung von zukünftigen Ereignissen verwenden. Fast alle Befragten erklärten, sie gebrauchten in diesen Fällen immer das Futur. In später erhobenen Daten ihrer tatsächlichen Sprachproduktion gebrauchten sie allerdings nur in etwa 5% der zukunftsbezogenen Sätze das Futur. Wir können also nicht immer davon ausgehen, dass die Antworten, die wir in Beobachtung Befragung 17 1.3 Zum Aufbau des Studienbuchs Befragungen bekommen, tatsächlich die Wirklichkeit widerspiegeln, selbst wenn wir zu einfachen sprachlichen Verhaltensweisen fragen, die keine verwerflichen Handlungen offenbaren würden. Die dritte Möglichkeit der Verhaltensbeobachtung ist das Experiment. Der Vorteil von Experimenten ist, dass wir dort versuchen alles auszuschließen oder konstant zu halten, was für die Untersuchungsfragestellung keine Rolle spielt. Ein gut geplantes Experiment ist ausschließlich auf die Untersuchungsfragestellung hin geplant und erhebt keine anderen Daten als die, um die es bei der entsprechenden Hypothesenüberprüfung geht. Ein Beispiel dafür wären die bekannten Experimente zu den von Sprechern benutzten Regeln der Pluralbildung (Gleason 1958). In diesen Experimenten bilden die Sprecher Pluralformen von verschieden aufgebauten Kunstwörtern, z.B. zu einem Wort wie Wug oder Emmel. Das erreicht man mit einem ganz einfachen Verfahren. Man zeigt eine Zeichnung oder Stoffpuppe eines seltsamen Tieres und erklärt: „Das ist ein Wug.“ Dann zeigt man eine Zeichnung von zwei Exemplaren davon oder zwei Stoffpuppen und erklärt: „Und hier ist noch ein Wug. Das sind jetzt zwei …“. Die Versuchspersonen ergänzen ihren Plural von „Wug“. Hier ist völlig ausgeschlossen, dass die Versuchspersonen die entsprechenden Wörter schon einmal in einem Plural gehört haben, sie müssen also die Pluralregeln anwenden, die sie mental gespeichert haben. Störende Einflüsse kann es aber trotzdem geben, z.B. durch die Reihenfolge, in der die Kunstwörter präsentiert werden (die Versuchsteilnehmer bleiben gern bei einer vorher gewählten Endung). Man muss also nach Techniken suchen, derartige Effekte möglichst auszuschalten, hier wäre eine ganz einfache Technik, dass man die Kunstwörter jedem Versuchsteilnehmer in einer anderen Reihenfolge zeigt. Im anschließenden Teil des Buchs geht es um die statistische Auswertung der Daten, die man durch Befragung, Beobachtung oder Experiment erhoben hat. Dieser Teil ist oft für Geisteswissenschaftler etwas angsterregend. Es gibt aber keinen Anlass vor Statistik Angst zu haben. Die eigentliche Rechenarbeit übernehmen heutzutage Computer-Programme, wichtig ist nur zu verstehen, was vom Programm berechnet wird und warum es so berechnet wird, damit man das richtige Verfahren auswählen kann. Der in dieser Einführung behandelte Teil der Statistik ist nur der, den man als Sprachwissenschaftlerin tatsächlich häufig braucht. Experiment statistische Verfahren 18 1 Zur Einführung Aufgabe Aufgabe Aufgabe Aufgabe Nehmen wir an, Sie sollten Forschung auf einer Reihe von Gebieten, die unten in etwa beschrieben werden, betreiben. Welche Art der Forschung wäre am geeignetsten (experimentell, nicht-experimentell, qualitativ)? Begründen Sie Ihre Entscheidung! a. Der Einfluss eines Partybesuchs in der Nacht vor einer Prüfung auf die Ergebnisse dieser Prüfung b. Die Beziehung zwischen Sprachlaborübungen und Aussprache c. Die Bedeutung von de Saussure für die Entwicklung der Linguistik d. Die Fremdsprachenkenntnisse niederländischer Geschäftsleute e. Der Nutzen von Korrekturen der Grammatikfehler von Fremdsprachenlernern f. Die Verwendung von Höflichkeitsformen bei internationalen Verhandlungen g. Arten der Selbstkorrektur beim L1- und L2-Spracherwerb h. Ein Vergleich des stillen und des lauten Lesens bei der Entwicklung der Lesefähigkeit Schritt 1: Die Planungsphase Schritt 1: Die Planungsphase Schritt 1: Die Planungsphase Schritt 1: Die Planungsphase 2 22 2 Vorplanung einer empirischen Untersuchung Vorplanung einer empirischen Untersuchung Vorplanung einer empirischen Untersuchung Vorplanung einer empirischen Untersuchung Hat man sich dafür entschieden, ein empirisches Forschungsprojekt durchzuführen - und hier ist es unwesentlich, ob das Projekt ein sehr kleines ist (wie zum Beispiel ein Fragebogen im Rahmen einer Seminararbeit) oder ein größeres (wie für ein Dissertationsprojekt) -, ist der wichtigste Schritt die Planung. Wenn man versucht in der Planungsphase Zeit zu sparen, zum Beispiel weil man schnell Daten erheben möchte, verliert man erheblich mehr Zeit bei der Auswertung und Interpretation, weil die falschen Versuchspersonen ausgewählt wurden, weil die Daten nicht das Phänomen abbilden, das sie abbilden sollten, oder weil man nicht weiß, was man mit den gesammelten Daten anfangen soll. In solchen Fällen - und das passiert häufiger, als man denkt - muss man völlig neu beginnen. Man kann viele Fallen vermeiden, indem man sich vorab grundlegende Gedanken macht. Bevor man eine passende Methodik (Versuchspersonen, Vorgehensweise, Datenerhebung) auswählt, sollten der Untersuchungsgegenstand, die Fragestellung und entsprechende Hypothesen genau festgelegt sein, wobei man die Gütekriterien empirischer Forschung und mögliche Störfaktoren im Auge behalten muss. Auf jeden dieser Schritte gehen wir im Folgenden ein. 2.1 2.1 2.1 2.1 Auswahl eines Untersuchungsgegenstandes Auswahl eines Untersuchungsgegenstandes Auswahl eines Untersuchungsgegenstandes Auswahl eines Untersuchungsgegenstandes In der Sprachlehrforschung hat man den Vorteil, dass viele interessante Fragestellungen sich direkt aus der Praxis ergeben (auch deswegen kann die Unterrichtsbegleitforschung oder Aktionsforschung empfehlenswert sein). Als Lehrperson wird man täglich mit Fragen und Problemen konfrontiert, die sich hervorragend für kleinere oder größere Projekte eignen: Fällt es Schülern in bestimmten sprachlichen Kontexten leichter, französische Possessivpronomen korrekt zu verwenden? Hilft es, wenn Schüler jede Woche anstatt des regulären Sprachunterrichts eine Stunde lang Grammatik mit Hilfe einer Computerlernsoftware üben? In welchen Situationen schafft es Renate, ein Adverbial ins Vorfeld zu setzen, ohne vor dem Verb noch das Subjekt einzufügen („Heute lerne ich Deutsch“ anstatt „Heute, ich lerne Deutsch“)? Und hat Peter, der aus Dänemark kommt, mit dieser Struktur mehr Probleme als Madeline, die als Erstsprache Niederländisch spricht? Aber auch wenn man nicht in der beruflichen Praxis steht, trifft man auf forschungswürdige Bereiche: durch das eigene persönliche Umfeld, durch Seminarthemen oder durch Literaturrecherche. Wichtig dabei ist, dass man weiß, was genau untersucht werden soll. Der Untersuchungsgegenstand muss genau beschrieben werden. Man muss exakt festlegen, welchen Ausschnitt aus der Wirklichkeit man untersuchen möchte. Gerade in der Sprach- Planung Untersuchungsfragestellung 22 2 Vorplanung einer empirischen Untersuchung lehrforschung, bei der es um recht verschiedene Dinge gehen kann, die alle auf den Unterrichtsprozess ihren Einfluss haben, muss man seinen Interessensgegenstand sehr klar eingegrenzt haben, was keineswegs einfach ist. Ein Beispiel dazu: Nehmen wir an, es soll untersucht werden, ob man das Hörverständnis von Fremdsprachenlernern besser mit der Methode X oder mit der Methode Y fördern kann. Dann wird eine ganz entscheidende Frage für den Wert der Untersuchung sein, ob es gelingt, den Faktor „Hörverständnis“ hinreichend von anderen Faktoren zu isolieren. Denn ob die Lerner richtig reagieren, hängt nicht nur vom eigentlichen Hörverständnis ab, sie nehmen z.B. ihr Weltwissen und Informationen aus der Situation zu Hilfe, und in der Planung der Untersuchung muss man das berücksichtigen. Auch bei linguistischen Untersuchungen kommt es vor, dass der Untersuchungsgegenstand nicht genau genug bestimmt wird, selbst in vermeintlich klaren Fällen wie etwa einer Auszählung, in welchen Satzarten bestimmte Modalpartikel vorkommen. Wenn z.B. die Beschreibung der Fälle, in denen eben als Modalpartikel angesehen wird (Männer sind eben so), nicht exakt genug ist, werden Adverbien mitgezählt ( Eben war Fritz noch nüchtern). Hat man dann einen interessanten Untersuchungsgegenstand (das wäre der erste Schritt) festgelegt, sind noch weitere Planungen notwendig, bevor man sich eine Forschungsfrage überlegt: Das Projekt muss machbar sein, und es muss auf der Basis des relevanten Informationsstandes der Forschung aufgebaut werden. Machbar zu sein bedeutet mehreres. So muss das Projekt so weit eingegrenzt werden, dass es auch mit den zur Verfügung stehenden Mitteln und in der zur Verfügung stehenden Zeit durchgeführt werden kann. Ist es dagegen zu weit eingegrenzt, läuft man Gefahr, dass die Ergebnisse nicht mehr valide sind (s. Kapitel 2.4.3). Man wird also z.B. Überlegungen zur Größe der untersuchten Gruppe anstellen. Möchte man herausfinden, ob es einen Unterschied zwischen Chinesen und Russen in der benötigten Unterrichtszeit zum Erreichen des GER A1-Niveaus in Deutsch gibt, kann man unmöglich sämtliche chinesischen und russischen Lernenden testen, aber auch nicht einen chinesischen und einen russischen Lerner, die man zufällig kennt. Ebenso wenig ist es für die meisten Untersuchungen sinnvoll, „Sprachkenntnisse“ generell überprüfen zu wollen: Man wählt einen bestimmten, eingegrenzten Bereich aus und versucht, diesen genau zu untersuchen. So könnte man sich dafür entscheiden, Genuskongruenz in der Nominalphrase oder Erfolg beim Verstehen von Richtungsanweisungen oder den (Fehl-) Einsatz des Schwa- Lauts im Deutschen bei italienischen Muttersprachlern zu untersuchen. Machbar sein bedeutet aber auch, dass alles, was man für die Untersuchung braucht, auch vorhanden oder zu beschaffen ist. Möchte man lexikalische Entscheidungstests durchführen (dies wird im Kapitel „Experimente“ noch genauer erklärt: Eine Versuchsperson liest am Bildschirm ein Wort und muss möglichst schnell entscheiden, ob dieses Wort in einer bestimmten Sprache existiert, wobei die Reaktionszeit genau gemessen wird), dann kann Durchführbarkeit Begrenzung 23 2.1 Auswahl eines Untersuchungsgegenstandes die Studie nur dann durchgeführt werden, wenn die Forscherin auch eine zuverlässige Möglichkeit hat, Reaktionszeiten zu messen. Möchte man Fehler analysieren, die deutschsprachige Lernende machen, wenn sie arabische Texte schreiben, muss man diese Fehler auch kompetent erkennen können (also man muss entweder selber fundierte Arabischkenntnisse oder Zugriff auf jemanden mit diesen Kenntnissen haben). Und ebenso braucht man eine Gruppe von Menschen (Versuchspersonen), die zur Forschungsfrage passen - möchte man den bilingualen Spracherwerb untersuchen, hilft es wenig, wenn man nur erwachsene Lernende kennt. Häufige Messverfahren, die man auch ohne besondere Geräte einsetzen kann, werden im Kapitel 6.5 besprochen. Drittens muss die Studie informiert sein. Das bedeutet nichts anderes, als dass man sich - genau wie für eine Seminararbeit - vor der endgültigen Formulierung einer Forschungsfrage über die vorliegenden Erkenntnisse zum Thema durch vertiefte Literaturrecherche informieren muss, und zwar sowohl über den Gegenstand als auch über die mögliche Forschungsmethodik. Das hilft sowohl, das Projekt zu planen, als auch etliche Fallen beim Untersuchungsaufbau zu vermeiden: Man kann aus den Überlegungen anderer etwas lernen, vor allem, wenn dabei die einzelnen Schritte der Planung und Durchführung besprochen werden. Und schließlich muss man natürlich wissen, zu welchem Zweck die Daten erfasst werden sollen. Bereits vor der Datenerhebung muss man bedenken, welche Schlussfolgerungen man aus den Resultaten hinterher tatsächlich ziehen kann. Viele laienhaft angelegte empirische Untersuchungen sammeln Daten, die hinterher nicht interpretierbar sind. Soll z.B. eine bestehende Hypothese oder Theorie überprüft werden, so wird man sich fragen, welche Vorhersagen diese Hypothese für bestimmte Situationen macht. Dann kann man versuchen, diese Situationen zu beobachten oder sie künstlich zu schaffen, um zu überprüfen, ob sich die Wirklichkeit den Vorhersagen dieser Theorie entsprechend verhält. Man beobachtet z.B. bei Befragungen oft, dass Studierende Fragen stellen, ohne sich vorher genug überlegt zu haben, was die möglichen Antworten für ihre Untersuchung überhaupt bedeuten können. Den daraus resultierenden Problemen kann man entgehen, indem man, nachdem der Fragebogen konzipiert ist, systematisch untersucht, ob man die zu erwartenden Antworten überhaupt für seine Argumentation gebrauchen kann. Es ist nicht sinnvoll eine Befragung so anzulegen, dass man Fragen stellt mit dem Ziel „Ich sehe mal, was dabei herauskommt“. Wenn man z.B. für die im Folgenden als Beispiel gebrauchte Untersuchung zum Gebrauch der Vergangenheitstempora bei Katholiken und Nicht-Katholiken eine Operationalisierung von „katholisch“ nach der Lohnsteuerkarte benutzt, dann ist eine Frage wie „Gehen Sie regelmäßig in die Kirche? “ oder „Was halten Sie vom Papst? “ nicht relevant für die Untersuchung. Derartige Fragen hätten nur einen Sinn, wenn anzunehmen wäre, es spiele beim Gebrauch der Tempora eine Rolle, ob jemand das „Katholisch-Sein“ mehr oder weniger intensiv Kenntnis der bisherigen Forschung Operationalisierung 24 2 Vorplanung einer empirischen Untersuchung praktiziert. Wie man solche Fallen vermeidet, steht in den jeweiligen Kapiteln zu unterschiedlichen Forschungsparadigmen. Im Übrigen sind auch Replikationsstudien vor allem für erste empirische Versuche, z.B. im Rahmen von Seminar-, Master- oder Examensarbeiten, sehr zu empfehlen (Porte 2002, 35). Replikationsstudien versuchen, die Ergebnisse aus anderen Studien zu bestätigen. Sie können sehr eng an die Vorgaben der ersten Studie angelehnt werden, oder leicht unterschiedlich sein (z.B. mit einer unterschiedlichen Probandengruppe oder einer unterschiedlichen Zielsprache). Wir resümieren kurz, worüber man sich im Klaren sein muss, bevor man sich an den Aufbau einer Fragestellung setzt: 1. Was genau soll untersucht werden? 2. Ist es durch die Auswahl einer geeigneten Methode möglich, den Untersuchungsgegenstand tatsächlich zu erforschen? 3. Bin ich über die vorhergehende Forschung zum gleichen Untersuchungsgegenstand und über mögliche Methoden informiert? 4. Zu welchem Zweck wird die Studie durchgeführt? Hat man diese Vorfragen zufriedenstellend geklärt, ist der nächste Schritt, eine angemessene Fragestellung zu formulieren. 2.2 2.2 2.2 2.2 Was ist eine Forschungsfrage? Was ist eine Forschungsfrage? Was ist eine Forschungsfrage? Was ist eine Forschungsfrage? Eine solide empirische Studie bestimmt sowohl eine (oder mehrere) Forschungsfrage(n) sowie Hypothesen, die sich auf die gestellte Fragestellung beziehen. Die formulierte Forschungsfrage verdeutlicht möglichst präzise, worum es in der Studie geht; sie entwickelt sich aus dem Forschungsinteresse und der Literaturrecherche und spiegelt häufig den theoretischen Rahmen wider, in dem die Studie eingebettet ist. Nehmen wir an, wir interessieren uns für den Einfluss einer Sprachlernsoftware auf das Lernen des Unterschieds zwischen dem Englischen present perfect tense und dem simple past tense. Angemessen ist eine Fragestellung, die das Forschungsinteresse möglichst klar darstellt, z.B. Lernen Schüler, die - nach derselben Einführung in den Unterschied zwischen den zwei Tempusformen - dazu zwei Stunden Übungen im Softwarelernprogramm X gemacht haben, besser als Schüler, die im gleichen Zeitraum hierzu dieselben oder ganz ähnliche Übungen im Arbeitsbuch lösen, und zwar gemessen an der Leistung bei einem grammatikalischen Entscheidungstest? Diese Frage sagt uns, (1) was der Forschungsgegenstand ist (Vergleich zwischen dem Lernen am Rechner und dem Lernen mit einem Arbeitsbuch in einer Situation, in der möglichst nur das Lernmedium verschieden ist), (2) wie der Forschungsgegenstand operationalisiert wird (Lernen des Unterschieds zwischen present perfect und simple past), und (3) wie Lernen gemessen wird (Ergebnis bei einem Test, wo die Schüler entscheiden müssen, ob die richtige Tempusform Replikationsstudien 25 2.3 Wie formuliere ich eine Hypothese? eingesetzt worden ist). 1 Problematisch dagegen wäre eine Fragestellung wie die folgende: „Lernen Schüler besser mit Hilfe eines Sprachlernprogramms? “, denn diese Frage sagt uns weder, was unter Lernen verstanden wird, noch was die Schüler lernen sollen (man kann z.B. relativ sicher sein, dass ein Sprachlernprogramm weniger hilfreich ist, wenn man in der Fremdsprache streiten lernen möchte - das ist aber ebenso ein Lerngegenstand wie Tempusgebrauch), noch wie das Lernen gemessen werden sollte. 2.3 2.3 2.3 2.3 Wie for Wie for Wie for Wie formuliere ich eine Hypothese? muliere ich eine Hypothese? muliere ich eine Hypothese? muliere ich eine Hypothese? Eine Hypothese ist ein Satz, der empirisch falsifizierbar ist. Empirische Forschung untersucht, ob eine bestimmte Hypothese der Überprüfung in der Realsituation standhält - es wird gefragt, ob die Ergebnisse die formulierte(n) Hypothese(n) unterstützen oder nicht. Somit kann eine Hypothese (zumindest vorerst) bestätigt oder verworfen werden. Plant man, eine empirische Studie durchzuführen, hat man meistens eine Idee, was dabei als Ergebnis herauskommen könnte. Deswegen sind Hypothesen normalerweise direktional - das bedeutet, dass eine bestimmte Richtung vermutet wird. Hypothesen können auch nicht-direktional sein; in diesem Falle besagen sie einfach, dass eine Beziehung zu finden sein wird - aber nicht, was für eine. (Die Nullhypothese, die in anderen Wissenschaften wie z.B. der Psychologie häufig angewendet wird, besagt, dass es keine Beziehung zwischen den einzelnen untersuchten Faktoren in der Studie gibt. Da die Aufstellung einer Nullhypothese in der Sprachlehrforschung eher untypisch ist, wird sie hier nicht weiter behandelt.) Die wichtigsten Kriterien für eine falsifizierbare Hypothese sind: 2 1. Eine Hypothese ist eine Aussage, die Allgemeingültigkeit anstrebt - das heißt, sie geht über den Einzelfall hinaus. Bei der Fragestellung in 2.2 könnte die Hypothese lauten: „Schüler, die mit der Sprachlernsoftware üben, erzielen bessere Ergebnisse als Schüler, die nur mit dem Arbeitsbuch üben.“ Hier sehen wir auch gleich die vermutete Richtung, wir sagen also für eine der beiden Möglichkeiten des Übens voraus, dass sie bessere Ergebnisse haben wird. In unserer Untersuchung werden wir natürlich nicht sämtliche Schüler, die es gibt, untersuchen; trotzdem soll die Hypothese nicht nur für die Schüler gelten, die an unserer Untersuchung teilgenommen haben. 2. Die Konstrukte werden (wenn auch meist implizit) durch den logischen Operator „wenn-dann“ (bzw. „je-desto“) verbunden. Also in unserem Fall, wenn ein Schüler am Computer übt, dann lernt er besser (als wenn er mit einem Buch übt). 1 Weitere Probleme - die Gruppen können unterschiedlich viel vorher gewusst haben, wir wissen nicht, was wirklich der Lernzuwachs ist, wenn der Test nicht vorher schon gemacht wurde, usw. - behandeln wir später in diesem Kapitel bei den Stör- und Kontrollfaktoren. 2 Die folgende Darstellung lehnt sich an die Ausführungen in Bortz/ Döring 1995, 7 an. falsifizierbar direktional Nullhypothese 26 2 Vorplanung einer empirischen Untersuchung 3. Die Aussage ist potenziell falsifizierbar - es muss möglich sein, zu beweisen, dass die Hypothese nicht gilt. Es ist durchaus denkbar, dass unsere Untersuchung entweder keinen Vorteil für Schüler, die mit der Lernsoftware geübt haben, ergibt (also beide Gruppen sind im Test gleich gut) oder, dass es einen Vorteil für die zweite Gruppe (Kontrollgruppe) gibt. In beiden Fällen wäre die Hypothese zu verwerfen. Übrigens sollen Hypothesen natürlich auch eine sinnvolle Fragestellung betreffen. Eine Hypothese wie „Studenten, die Deutsch als Erstsprache sprechen, machen bei der Adjektivflexion im Deutschen weniger Fehler als Studenten, die Englisch als Erstsprache sprechen“ wird höchstwahrscheinlich bestätigt - sie ist aber ziemlich uninteressant. Versuchen wir es jetzt mit einem etwas problematischeren Beispiel. Man könnte die Hypothese aufstellen: „Katholische Deutschsprachige gebrauchen Perfekt bei der Bezeichnung von Vergangenem, andere Deutschsprachige nicht.“ Die Hypothese versucht, eine Aussage über katholische Deutschsprachige im Allgemeinen zu machen - also nicht nur solche, die in Mainz leben - sowie über alle weiteren Deutschsprachigen. In unserer Hypothese gilt aber implizit auch eine Universal-Aussage, d.h. ein einziger Katholik, der das Präteritum statt des Perfekts gebrauchen würde, würde unsere Hypothese schon widerlegen. Diese Hypothese könnte man vereinfachen zu: „Wenn jemand katholisch ist, dann gebraucht er das Perfekt bei der Bezeichnung von Vergangenem, andernfalls nicht “ . Somit wäre die Hypothese bereits mit dem Nachweis falsifiziert, dass eine einzige nicht-katholische Person einmal ein Perfekt benutzt hat. Eine realistischere Hypothese wäre dagegen: „Katholische Deutschsprachige gebrauchen häufiger Perfekt als Nicht-Katholische “ . Diese könnte man vereinfachen zu „Wenn jemand katholisch ist, dann gebraucht er das Perfekt bei der Bezeichnung von Vergangenem häufiger, als wenn er nicht katholisch ist.“ Dann würde stattdessen eine statistische Behauptung gelten, nämlich die, dass, wenn man eine hinreichend große Gruppe von katholischen und von nicht-katholischen Sprechern des Deutschen untersucht, man bei den katholischen Sprechern prozentual mehr Perfekt, bezogen auf die Gesamtverteilung der Vergangenheitstempora, findet als bei den nicht-katholischen. Die Hypothese wäre erst dann falsifiziert, wenn sich bei einer hinreichend großen Anzahl von katholischen und nicht-katholischen Sprechern kein im statistischen Sinne signifikanter Unterschied (d.h. kein Unterschied, der groß genug ist, um den Zufall mit ausreichender Sicherheit als Ursache auszuschließen) in der Häufigkeit des Gebrauchs des Perfekts aufzeigen lässt. Das heißt noch nicht, dass das Gegenteil bewiesen wäre (also dass Katholiken das Perfekt genauso gebrauchen wie andere Sprecher des Deutschen), es heißt nur, dass unsere Daten keinerlei Unterstützung für die Annahme liefern, Katholiken gebrauchten mehr Perfekt als Nicht-Katholiken. Eine gute Hypothese ist also eine Aussage, die sich direkt auf die Forschungsfrage bezieht, die falsifizierbar ist, die Beziehungen zwischen den un- Beispiel 27 2.4 Gütekriterien für empirische Untersuchungen tersuchten Faktoren darstellt, die Konstrukte verwendet, die man operationalisieren (bestimmen und beobachten) kann, und die durch die gesichtete Literatur unterstützt wird (oder für die es zumindest eine gute Erklärung gibt, warum sie bestimmte Ergebnisse vorhersagt). 2.4 2.4 2.4 2.4 Gütekriterien für empirische Untersuchungen Gütekriterien für empirische Untersuchungen Gütekriterien für empirische Untersuchungen Gütekriterien für empirische Untersuchungen Bei jeder empirischen Untersuchung entstehen einige nahe liegende grundsätzliche Fragen, die bei der Planung beachtet werden müssen, und die wir anhand von drei Beispielen erläutern wollen. 3 Angenommen, wir wollen die Übersetzungsfertigkeit von Studenten messen und haben dazu einen Text von 200 Wörtern ausgesucht, der in die Fremdsprache übersetzt werden sollte. Manche Studenten haben eine gute Übersetzung geschrieben, manche eine mittelmäßige oder schlechte. Wissen wir auf Grund dieser Übersetzungen dann, ob diese Studenten gut oder schlecht übersetzen können? Oder könnte es sein, dass wir ganz andere Resultate bekommen hätten, wenn wir einen anderen Text ausgesucht hätten, einen Text über ein anderes Thema, einen viel längeren Text oder einfach eine Liste von Wörtern? Und angenommen, wir hätten diesen Text von einer von drei Gruppen Erstsemester-Studenten der Anglistik übersetzen lassen, können wir dann anhand der Resultate dieser Übersetzungen etwas über das zu erwartende Übersetzungsfertigkeitsniveau der anderen beiden Gruppen aussagen? Oder über die Fähigkeiten von Erstsemestern allgemein im Übersetzen? Oder nehmen wir an, wir lassen einen Dozenten Essays beurteilen, die Studenten in einem Kurs „Schriftlicher Ausdruck“ geschrieben haben. Wie sicher können wir sein, dass die Kriterien, die der Dozent benutzt, gut und konsistent sind? Würde ein anderer Dozent dieselben Noten vergeben? Und können wir, wenn ein Student eine gute Note für diesen Essay bekommen hat, annehmen, dass er sich gut schriftlich ausdrücken kann? Um ein ausführliches Beispiel zu geben: Wir wollen herausfinden, wie Wörter in unserem mentalen Lexikon zusammenhängen, ob Wörter, die in bestimmten Kontexten häufig zusammen vorkommen, auch im Gehirn so organisiert sind, dass sie einander aktivieren. Wir betrachten Wörter aus demselben Script wie Arzt, Krankenschwester, Krankenhaus oder wie Schlüssel und abschließen, bei Mehrsprachigen auch in ihrer zweiten Sprache (key, lock), oder wir betrachten Wörter aus demselben Wortfeld wie hell und dunkel oder Vogel und Spatz. Um das zu untersuchen, haben wir ein sogenanntes „lexikalisches Entscheidungsexperiment“ entwickelt, in dem Wortpaare auf einem Computerbildschirm präsentiert werden, wobei das zweite „Wort“ manchmal ein existierendes Wort und manchmal eine Buchstabenfolge ohne 3 Für die qualitative Forschung gelten andere Gütekriterien, auf die wir hier nicht eingehen; wenn Sie sich weiter informieren möchten, verweisen wir auf Steinke 1999. Beispiel 28 2 Vorplanung einer empirischen Untersuchung Bedeutung ist. Unter den Wörtern gibt es dann solche, die eine Beziehung zum ersten Wort des Wortpaares haben, und solche, die keine von den o.a. Beziehungen aufweisen. Das erste Wort wird kurz auf dem Computerbildschirm gezeigt und direkt danach das zweite. Die Versuchsteilnehmer (Studenten) müssen auf einen roten Knopf drücken, wenn das zweite kein Wort ist, und auf einen grünen, wenn es ein Wort ist. Dabei interessiert uns nur, wie sie auf tatsächliche Wörter reagieren. Wir messen die Reaktionszeit von der Präsentation des zweiten Wortes bis zum Drücken des Knopfes. Wir erwarten, dass die Reaktionszeit kürzer ist, wenn das präsentierte Wortpaar key - lock oder Schlüssel - lock ist, als wenn das präsentierte Wortpaar fee - lock ist. Dabei kommen Fragen auf wie: Wie viele Wortpaare brauchen wir eigentlich, um ein einigermaßen zuverlässiges Ergebnis zu bekommen? Reichen fünf? Oder zehn? Oder brauchen wir erheblich mehr? Und wenn wir Unterschiede in der Reaktionszeit finden, was können wir auf Grund davon genau über unsere Fragestellung aussagen? Und, angenommen wir haben tatsächlich festgestellt, dass die Reaktionszeit kürzer war, wenn es eine - wie auch immer geartete - Beziehung zwischen den beiden Wörtern des Wortpaares gab, können wir dann für die Schlüsse, die wir daraus ziehen, mit der nötigen Sicherheit sagen, dass sie nicht nur für unsere kleine Gruppe von Versuchsteilnehmern gelten, sondern für alle Deutschsprachigen mit Englischkenntnissen? Können wir sicher sein, dass die Auswertung der Ergebnisse nicht durch andere Faktoren (wie das Verhalten der Versuchsleiterin) beeinflusst wurde, weder während des Experiments noch bei der Interpretation der Daten? Die oben gestellten Fragen beziehen sich unter anderem auf die Reliabilität, die Validität und die Objektivität der jeweiligen Untersuchung. Diese Gütekriterien behandeln wir zwar wie üblich getrennt, sie greifen aber häufig ineinander. 2.4.1 2.4.1 2.4.1 2.4.1 Zuverlässigkeit (Verlässlichkeit, Reliabilität) Zuverlässigkeit (Verlässlichkeit, Reliabilität) Zuverlässigkeit (Verlässlichkeit, Reliabilität) Zuverlässigkeit (Verlässlichkeit, Reliabilität) Die Begriffe „Zuverlässigkeit“, „Verlässlichkeit“ und „Reliabilität“ werden synonym gebraucht; sie bezeichnen dasselbe, und zwar, ob das Messverfahren das, was gemessen werden soll, exakt erfasst und die Daten, die daraus gewonnen sind, zuverlässig ausgewertet wurden. Als verlässlich gilt eine Erhebung (und das bei dieser Erhebung benutzte Instrument) dann, wenn bei einer Wiederholung des Verfahrens unter gleichen Bedingungen dieselben Ergebnisse erzielt werden. Das ist bei einfachen Messverfahren kein Problem: Die Länge meines Tisches sollte dieselbe sein, wenn ich sie zweimal nacheinander mit demselben oder einem anderen Zollstock messe, aber bei unserer praktische Fragen 29 2.4 Gütekriterien für empirische Untersuchungen Art von Untersuchungen erfordert die Ermittlung der Reliabilität schon einigen Aufwand. In der Linguistik und Sprachlehrforschung sind zwei Arten von Zuverlässigkeit von Interesse: Bewerterzuverlässigkeit und Testzuverlässigkeit. In unserem Beispiel von oben zur Beurteilung des schriftlichen Ausdrucks in Essays kann es schwierig sein, die Bewerterzuverlässigkeit (engl. rater reliability) zu garantieren. Um Inter-Bewerterzuverlässigkeit (interrater reliability) zu bestimmen, müssten wir mindestens zwei Dozenten - unabhängig voneinander - die geschriebenen Texte bewerten lassen und die Ergebnisse dann miteinander vergleichen. Andererseits ist es auch wichtig, zu bestimmen, ob die Dozenten selber die Ergebnisse konsistent bewerten (dass sie z.B. nicht je nach Müdigkeit ähnliche Texte sehr unterschiedlich bewerten); das ist dann Intra-Bewerterzuverlässigkeit (intrarater reliability). Bei Testverfahren, bei denen das Messinstrument sehr wenig Spielraum lässt, also strikte Vorgaben macht, wird die Bewerterzuverlässigkeit tendenziell höher sein (so z.B. bei unserem lexikalischen Entscheidungsexperiment). Bei Testverfahren, die subjektive Entscheidungen zulassen (wenn z.B. die Qualität bei „Schriftlicher Ausdruck“ nicht ganz genau definiert wird), wird die Bewerterzuverlässigkeit niedriger sein. Deswegen ist es bei solchen Verfahren sehr wichtig, mindestens zwei unabhängige, kompetente Auswertungen der Ergebnisse machen zu lassen. Ebenso wichtig ist es sicherzustellen, dass Erwartungshaltungen seitens der Versuchsleiterin nicht dazu beitragen, dass Daten unterschiedlich bewertet werden. Daher ist es auch häufig sinnvoll, wenn die Bewerter die erwarteten Ergebnisse nicht vor der Datenauswertung kennen - so können sie nicht von den Hypothesen beeinflusst werden. Die Testzuverlässigkeit dagegen versichert, dass das Testverfahren konsistent ist. Zur Ermittlung der Testzuverlässigkeit gibt es im Prinzip drei Verfahren: Testwiederholung: Wenn es möglich ist, kann man - nach einer gewissen Zeit, damit sich die Versuchsteilnehmer nicht mehr an das erinnern, was sie beim letzten Mal gemacht haben - einfach denselben Test mit denselben Teilnehmern noch einmal machen. Dabei sieht man, ob das Ergebnis der zweiten Durchführung des Tests mit der ersten übereinstimmt. Dieses Verfahren kann man bei Grammatikalitätsurteilen durchaus anwenden, bei Sprachbeherrschungstests funktioniert es meist nicht, weil die Lerner in der Zwischenzeit - oder durch den ersten Test selbst - Lernfortschritte gemacht haben können, oder weil sie sich an den Test erinnern (das gilt insbesondere für Kinder, die sich manchmal überraschend lange z.B. an gelesene oder erzählte Geschichten oder an sonstige Testaufgaben erinnern können). Paralleltest: Man untersucht dieselben Versuchsteilnehmer ohne nennenswerten zeitlichen Abstand mit einer zweiten Version des Tests, den man eingesetzt hat. Das erfordert allerdings, dass die beiden eingesetzten Tests wirklich äquivalent sind. Zudem lässt sich das Verfahren nicht anwenden, wenn ein Lerneffekt durch das Bearbeiten des ersten Tests eintritt. Bewerterzuverlässigkeit Testzuverlässigkeit 30 2 Vorplanung einer empirischen Untersuchung Interne Konsistenzprüfung: Wenn man die Versuchsteilnehmer nicht zweimal testen kann, kann man die Konsistenz innerhalb eines Tests überprüfen. Das Einfachste ist, man macht eine Testhalbierung (engl. split-half). Man unterteilt dazu die Ergebnisse des Tests in zwei Hälften - zum Beispiel, alle geraden und alle ungeraden Fragen - und überprüft mit statistischen Verfahren (man errechnet die Korrelation zwischen den zwei Hälften), ob diese zwei Hälften wesentlich verschiedene Ergebnisse haben. Wenn das so ist, gilt der Test als inkonsistent und damit wenig verlässlich. Wenn die Bewerter- oder Testzuverlässigkeit überprüft wird, werden diese Ergebnisse meist in dem Kapitel, in dem die Methode besprochen wird, anhand eines Korrelationskoeffizienten präsentiert (wie man diesen berechnet, behandeln wir in Kapitel 9 genauer). 2.4.2 2.4.2 2.4.2 2.4.2 Objektivität Objektivität Objektivität Objektivität Die Objektivität bezieht sich darauf, ob die Erhebung, Auswertung und Interpretation der Ergebnisse durch die Forscherin beeinflusst worden sind. Es soll möglichst gesichert werden, dass Daten, die von der Forscherin notiert und ausgewertet werden, auch richtig erhoben wurden, ohne dass eine (subjektive) Interpretation einfließt. Je stärker die Auswertung nach einem fest vorgeschriebenen Schema verläuft, um so geringer ist die Gefahr von subjektiven Einflüssen. Das Messen von Reaktionszeiten durch den Computer beim o.a. lexikalischen Entscheidungsexperiment ist objektiver als die Beurteilung der Qualität von Schulaufsätzen durch Lehrpersonen. Objektivität und Zuverlässigkeit sind beide für die Herstellung von Gültigkeit notwendig, reichen aber hierfür nicht aus. Daher gehen wir jetzt zur Problematik der Gültigkeit über. 2.4.3 2.4.3 2.4.3 2.4.3 Gültigkeit (Validität) Gültigkeit (Validität) Gültigkeit (Validität) Gültigkeit (Validität) Mit „Gültigkeit“ oder „Validität“ bezeichnet man, inwiefern das Messverfahren das misst, was es zu messen vorgibt. Wir kennen alle ironische Sprüche wie „Ich weiß zwar nicht genau, was ich messe, aber das messe ich ganz genau“. 4 Die Validität einer Untersuchung ergibt sich also daraus, ob tatsächlich das erhoben, erfragt oder beobachtet und gemessen wird, was untersucht werden soll. Nicht nur das Messinstrument selbst (also z.B. der benutzte Fragebogen oder der benutzte Test), sondern das gesamte Untersuchungsdesign muss bei einer Prüfung der Gültigkeit kontrolliert werden, denn Fehler können auch in anderen Punkten liegen, etwa einer fehlerhaften Auswahl der Befragten oder der Verwendung von Begriffen, die von verschiedenen Personenkreisen unterschiedlich gebraucht werden, u.a.m. 4 Der Erfinder eines Intelligenztests z.B. soll gesagt haben, „Intelligenz ist das, was meine Tests messen.“ Objektivität Gültigkeit/ Validität 31 2.4 Gütekriterien für empirische Untersuchungen Es gibt unterschiedliche Arten der Gültigkeit, wobei in der Sprachlehr- und -lernforschung vor allem interne und externe Validität von Belang sind. Deswegen gehen wir jetzt darauf ein. Die interne Validität bezieht sich darauf, inwiefern die Ergebnisse das abbilden, was sie abbilden sollen - und ob sie von weiteren Faktoren (Störfaktoren) beeinflusst worden sind. So ist es zum Beispiel wichtig zu wissen, dass die Versuchspersonen, die wir testen, zur anvisierten Gruppe gehören. Will man untersuchen, unter welchen Bedingungen Sätze wie Ich gehe gern ins Freibad, weil da sind die Leute so nett für Muttersprachler akzeptabel sind, dann ist es schlecht, wenn sich unter den befragten Personen auch Nicht- Muttersprachler befinden (oder wenn wir deutlich mehr weibliche als männliche befragte Personen haben oder wenn z.B. viele Dialektsprecher dabei sind). Ebenso kann bei wiederholten Messverfahren (Kapitel 6.2) die interne Validität beeinträchtigt werden, wenn viele Versuchspersonen bei den weiteren Messungen nicht mehr dabei sind - z.B. weil sie weggezogen sind, oder weil sie nicht mehr an der Studie teilnehmen wollen. Ebenso kann es mit der internen Validität Probleme geben, wenn ein Testverfahren sehr lang ist (Ermüdung führt meist zu schlechteren Ergebnissen, ebenso Langeweile) oder wenn die Versuchspersonen wissen, was die Forscherin von ihnen erwartet und versuchen, sich so zu verhalten (das kann vor allem bei Befragungen problematisch werden). Schließlich kann interne Validität durch äußere Faktoren gestört werden, z.B. durch störenden Lärm im Versuchsraum, der die Konzentration der Versuchsteilnehmer beeinträchtigt. Mit externer Validität oder Geltungsbereich ist gemeint, unter welchen Gegebenheiten die Ergebnisse einer Untersuchung für ein bestimmtes Untersuchungsobjekt bzw. für bestimmte Untersuchungsobjekte gelten - über die Studie hinweg. Der Geltungsbereich bei sprachwissenschaftlichen Untersuchungen ist häufig einer der am ehesten angreifbaren Punkte. Sehr häufig wird recht naiv davon ausgegangen, dass Daten, die vor zwanzig Jahren oder vor noch längerer Zeit erhoben wurden, immer noch Aussagen über die heutige Sprache erlauben. Ebenso naiv wird oft angenommen, dass Daten, die in einem ganz bestimmten Dorf oder einer ganz bestimmten Stadt erhoben worden sind, Aussagen erlauben über die Landessprache insgesamt. Wir müssen also genau überlegen, wofür die erhobenen Daten überhaupt repräsentativ sein können. Dabei spielen nicht nur zeitliche und örtliche Gegebenheiten eine Rolle, sondern natürlich auch die ausgewählten Versuchspersonen. Das, was wir üblicherweise in der Psycholinguistik und Sprachpsychologie mangels anderer Möglichkeiten tun, nämlich aus Experimenten mit Psychologie- und Linguistikstudierenden Rückschlüsse zu ziehen auf die Sprecher der deutschen Sprache allgemein, berücksichtigt nicht, dass solche Studierende natürlich eine besondere soziale Gruppe sind, und zwar sowohl vom Alter als auch vom sozialen Status her, möglicherweise sogar auch von bestimmten Wertvorstellungen und Einstellungen zur Sprache her. Dies kann in Teilbereichen auch ein besonderes Sprachverhalten hervorrufen. interne Validität externe Validität 32 2 Vorplanung einer empirischen Untersuchung Auch die Sprachlehrforschung hat mit diesem Problem zu kämpfen. Es ist nicht einfach, sämtliche Schultypen, Unterrichtsformen usw. in die Untersuchung einzubeziehen, aber wenn dies nicht gelingt, kann man nicht ohne weiteres davon ausgehen, dass die erhobenen Daten für alle Schultypen usw. gelten. Wie überprüft man dann die Gültigkeit eines Messverfahrens? Hier ist eine Reihe von unterschiedlichen Vorgehensweisen möglich; die beste Methode ist nach wie vor, möglichen Gefahren für die Gültigkeit vorzubeugen (wie man das macht, besprechen wir weiter unten im Teilkapitel 2.6). 1. Augenschein-Validität bezieht sich ganz einfach darauf, ob Tester und Getesteter meinen, dass der Test „richtig“ aussieht (Plausibilitätskontrolle). Er könnte z.B. nicht richtig aussehen, wenn er zu kurz ist. Einige Lehrer können sich sehr schnell eine gute Einschätzung davon verschaffen, wie die Aussprache eines Schülers ist, nachdem sie mit ihm eine Minute geredet haben, und diese Einschätzung würde sich auch nicht ändern, wenn der Schüler einen 20 Minuten dauernden Aussprachetest absolvieren würde. Es gäbe also keinen Grund, einen 20-Minuten-Test durchzuführen; eine Minute würde reichen. Allerdings kann es gut sein, dass der Schüler nicht glauben würde, dass der Lehrer ein gut begründetes Urteil auf Grund einer einminütigen Prüfung fällen kann, und daher würde ein so kurzer Aussprachetest für ihn keine Augenschein-Validität besitzen. 2. Die Messung der Übereinstimmungs-Validität ist darauf angewiesen, dass bereits andere Daten vorliegen. Sie vergleicht die in der Untersuchung gewonnenen Daten mit Daten, von denen man annimmt, dass sie mit dem Merkmal, das gemessen werden soll, eng zusammenhängen. Man nimmt an, dass das eigene Erhebungsinstrument dann valide ist, wenn die damit erhobenen Daten annähernd mit bereits vorliegenden Daten übereinstimmen. Ein Beispiel: Es geht um einen Hörverständnis-Test. Schlecht konzipierte Hörverständnis-Tests messen bekanntlich oft Wortschatz, allgemeine Schlussfolgerungsfähigkeiten, Weltwissen u.a. Ein in seiner Aussagefähigkeit zu überprüfender Hörverständnis-Test müsste also bei denselben getesteten Personen ähnliche Ergebnisse erbringen wie bereits als gut erkannte Hörverständnis-Tests desselben Niveaus. Auch deswegen ist es wichtig, sich mit vorhergehender Forschung auszukennen, bevor man eine eigene Studie entwickelt. 3. Inhaltliche Validität (content validity) bezieht sich darauf, ob das Material, das in einem Test verwendet wird, eine repräsentative Auswahl dessen ist, was getestet werden muss, bei Tests in der Schule also zum Beispiel von dem, was bereits gelernt oder gelehrt wurde. 4. Die Konstrukt-Validität ist das Kriterium, das angewendet wird, wenn kein „greifbareres“ möglich ist. Es handelt sich um das Aufzeigen, dass das Erhebungsinstrument tatsächlich eine angemessene Operationalisierung des zu Untersuchenden darstellt und den theoretischen Bezugsrahmen der Forschungsfrage genau trifft. Man sollte jedoch überprüfen, ob Augenschein-Validität Übereinstimmungs- Validität inhaltliche Validität Konstrukt-Validität 33 2.5 Wie komme ich zu einem Forschungsplan? man andere Möglichkeiten der Messung der Validität hat, denn ein solcher Beweis ist nicht nur schwierig zu führen, es ist auch naheliegend, dass man bessere Operationalisierungsmöglichkeiten, die man schon bei der Planung seiner Untersuchung übersehen hat, auch in diesem Fall übersieht. Wenn jedoch keine andere Möglichkeit besteht, so müssen Sie so deutlich wie möglich darlegen, dass Ihre Operationalisierung das misst, was gemessen werden soll. 2.4.4 2.4.4 2.4.4 2.4.4 Warum kann es schwierig sein, Gütekriterien zu erfüllen? Warum kann es schwierig sein, Gütekriterien zu erfüllen? Warum kann es schwierig sein, Gütekriterien zu erfüllen? Warum kann es schwierig sein, Gütekriterien zu erfüllen? In der Sprachlehrforschung haben wir es mit sehr unterschiedlichen Situationen und vor allem sehr vielen unterschiedlichen Faktoren (die individuellen Faktoren der Versuchspersonen, unterschiedliche Lernkontexte u.a.m.) zu tun, die Einflüsse auf die Gütekriterien ausüben können. Auch bei einem vorsichtig angelegten Untersuchungsverfahren kann die Validität durch störende Einflüsse beeinträchtigt werden. Wichtig ist, vermeidbare Störfaktoren möglichst zu vermeiden (s.u.), und sich über weitere, nicht vermeidbare, Störfaktoren bewusst zu sein und diese dann im Forschungsbericht zu erwähnen. 2.5 2.5 2.5 2.5 Wie komme ich zu einem Forschungsplan? Wie komme ich zu einem Forschungsplan? Wie komme ich zu einem Forschungsplan? Wie komme ich zu einem Forschungsplan? Wenn man sich in sein Themengebiet ausgiebig eingelesen hat, kann es gut sein, dass man feststellt, dass eine enorme Anzahl von Faktoren eine Rolle spielen könnte. Diese alle zu untersuchen, ist aber eventuell gar nicht in der zur Verfügung stehenden Zeit möglich. Dieses Problem ergibt sich sehr häufig bei Master- oder Examensarbeiten. Man muss also seinen Forschungsplan u.U. so aufbauen, dass er immer noch eine sinnvolle Fragestellung beantwortet, aber doch in der Zeit zu bewältigen ist, die zur Verfügung steht. Als Forschungsanfänger kann man häufig nicht genau einschätzen, was im Bereich des Möglichen ist. Vieles kann man mit gesundem Menschenverstand sowie Austausch unter Kommilitonen oder Kollegen beurteilen, zum Beispiel, ob man eine sinnvolle Fragestellung und eine passende Hypothese dazu gefunden hat, ob die benötigten Materialien (und Versuchspersonen) zur Verfügung stehen, oder ob Störfaktoren (s.u.) einen Einfluss auf die Ergebnisse haben könnten. Wie viel Zeit man für die Erhebung und die Auswertung von Daten braucht, unterschätzt man am Anfang jedoch oft. Daher ist es sinnvoll, zuerst eine Skizze der Studie aufzustellen (mit Untersuchungsgegenstand, Forschungsfrage, Hypothesen, Überlegungen zu den Gütekriterien, Methode, Versuchspersonen und Zeitrahmen), und dann mit einer erfahrenen Forscherin darüber zu sprechen. Entwicklung des Forschungsplans 34 2 Vorplanung einer empirischen Untersuchung 2.5.1 2.5.1 2.5.1 2.5.1 Eine passende Forschungsmethode finden Eine passende Forschungsmethode finden Eine passende Forschungsmethode finden Eine passende Forschungsmethode finden Nachdem man einen Forschungsgegenstand bestimmt, eine Fragestellung formuliert und eine sich darauf beziehende und durch die Literatur untermauerte Hypothese verfasst hat, ist der nächste Schritt zu überlegen, wie das zu Untersuchende erfasst werden soll. Damit ist die Wahl der Methode gemeint. Abhängig von der Art der Fragestellung muss die richtige Methode zur Datenerhebung gewählt werden. Grundsätzlich können Daten über Beobachtung, Befragung oder durch ein Experiment gewonnen werden. Untersucht man z.B. Fehlerkorrekturen im Fremdsprachenunterricht, so kann man die Frage, welche Arten von Fehlerkorrekturen überhaupt vorkommen, kaum anders als durch Beobachtung klären, keine Lehrperson wird ihr Verhalten so genau beschreiben können, dass man tatsächlich alle Arten von Fehlerkorrekturen erfahren würde, die diese Lehrperson anwendet. Die Zufriedenheit der Schüler mit bestimmten Arten der Korrektur kann man über eine Befragung erheben und eine Erfolgsmessung verschiedener Korrekturverfahren gelingt am exaktesten in einem Experiment, in dem man alle störenden Einflussfaktoren ausschließen kann. Da die Wahl der Methodik sehr wichtig ist, gehen wir hier nicht weiter darauf ein, sondern behandeln die häufigsten Datenerhebungsmethoden - Beobachtung, Befragung und Experiment - ausführlich in eigenen Kapiteln. 2.5.2 2.5.2 2.5.2 2.5.2 Die passenden Versuchspersonen auswählen Die passenden Versuchspersonen auswählen Die passenden Versuchspersonen auswählen Die passenden Versuchspersonen auswählen Als Forscherin ist man immer von den Versuchspersonen abhängig: Die Zuverlässigkeit einer quantitativ ausgerichteten Studie kann man nur durch eine gute Auswahl der Teilnehmer gewährleisten. In einer Seminar-, Magister- oder Masterarbeit ist die Wahl der Versuchspersonen meist durch pragmatische Überlegungen bestimmt: Einfach gesagt, man nimmt die Teilnehmer, die man bekommen kann („anfallende Stichproben“, nach Grotjahn 2006, 257). Man muss sich aber darüber im Klaren sein, dass man so keine generalisierbaren Ergebnisse erzielen kann, und man muss in der Arbeit darauf hinweisen, dass man eine solche Generalisierbarkeit auch nicht behauptet. Wenn man die Möglichkeit hat, sollte man sich um eine Auswahl der Versuchspersonen bemühen, die eine möglichst gute Übereinstimmung mit der Gruppe aufweist, über die man seine Aussagen machen möchte. Wenn wir zum Beispiel die Effektivität des Übens mit Sprachlernsoftware untersuchen wollen und die Hypothese im Kapitel 2.3 aufstellen („Schüler, die mit der Sprachlernsoftware üben, erzielen bessere Ergebnisse als Schüler, die nur mit dem Arbeitsbuch üben.“), können wir unmöglich die Grundgesamtheit testen - das würde bedeuten, dass wir sämtliche Schüler, die eine Fremdsprache lernen, testen müssten. Stattdessen wird in einem quantitativen Forschungsparadigma fast immer mit einer Stichprobe gearbeitet. Man versucht, eine möglichst repräsentative Stichprobe zu finden, indem man überlegt, für welchen Bereich die Ergebnisse gelten sollten (externe Validität), Methode Auswahl der Teilnehmer Stichprobe 35 2.6 Worauf muss ich sonst noch achten? und möglichst aus dieser Population dann die Versuchsteilnehmer bezieht. In der Sprachlehrforschung ist dies etwas schwieriger. Bei experimentellen Studien, die einen Vergleich zwischen zwei (oder mehreren) Gruppen herauszustellen versuchen, ist es ratsam, die Gruppen in Bezug auf die unterschiedlichen individuellen Merkmale der Versuchspersonen (Alter, Geschlecht, Lernhintergrund, sozioökonomischer Status, evtl. Erstsprache usw.) vorher so zusammenzustellen, dass sie in diesen Merkmalen möglichst genau der Gruppe entsprechen, über die man eine Aussage machen möchte. Das ist dann keine zufällige Einteilung in unterschiedliche Gruppen mehr, hilft aber sicherzustellen, dass alle Gruppen die jeweilige Gesamtpopulation besser abbilden. Egal, wie Sie zu Ihren Versuchspersonen kommen, sollten Sie sich bewusst werden, welche Einflüsse diese Auswahl auf die externe Validität der Ergebnisse haben könnte. Weil die Wahl der Stichprobe bei den unterschiedlichen Forschungsparadigmen verschieden ausfällt, gehen wir in den näch s ten drei Kapiteln jeweils näher darauf ein. 2.6 2.6 2.6 2.6 Worauf Worauf Worauf Worauf muss ich sonst noch achten muss ich sonst noch achten muss ich sonst noch achten muss ich sonst noch achten ? ? ? ? 2.6.1 2.6.1 2.6.1 2.6.1 Störfaktoren (Störvariablen) Störfaktoren (Störvariablen) Störfaktoren (Störvariablen) Störfaktoren (Störvariablen) Störfaktoren sind Faktoren, die die Ergebnisse einer Studie verzerren können und daher möglichst zu vermeiden sind. Viele mögliche Störfaktoren haben wir bereits bei den Überlegungen zu den Gütekriterien angesprochen. Typischerweise entstammen Störungen (1) der Situation oder (2) individuellen Charakteristika der Versuchsteilnehmer. Die meisten Störfaktoren, die die Untersuchungssituation beeinflussen, kann man gut kontrollieren: Ein lästiger Lärmpegel, ein Austausch unter den Teilnehmern über den Untersuchungsgegenstand, Erhebungen zu ungünstigen Tageszeiten (Mittagspause, spätabends), Stresssituationen, die durch eine zu knappe Aufgabenbearbeitungszeit, Testangst oder Leistungsdruck entstehen, oder Ermüdungseffekte durch zu lange Erhebungen sind Faktoren, die man bei sorgfältigem Einrichten der Studie relativ gut vermeiden kann oder die man für alle untersuchten Bedingungen gleich halten kann. 5 Manche Störfaktoren (z.B. die selbsterfüllende Prophezeiung) sind in bestimmten Situationen wie Interviews oder Beobachtungen häufiger anzutreffen als in anderen. Dieses Phänomen kann dann auftreten, wenn eine gewisse Erwartungshaltung der Versuchsleiterin (oder der Lehrerin) den Versuchsteilnehmern bewusst oder unbewusst kommuniziert wird, und die Versuchsteilnehmer sich dann so verhalten, wie es von ihnen erwartet wird. (Der Effekt wurde schon 1968 für schulische Situationen von Rosenthal und Ja- 5 In vielen (psycho)linguistischen Experimenten ist Zeitdruck erforderlich, damit die Versuchspersonen ihre Entscheidungen spontan treffen, aber dieser Zeitdruck muss in allen untersuchten Bedingungen gleich sein. Störfaktoren selbsterfüllende Prophezeiung 36 2 Vorplanung einer empirischen Untersuchung cobson in einem einfachen Experiment nachgewiesen, in dem sie 20% einer Gruppe von Schulkindern per Zufall auswählten und gegenüber ihren Lehrern behaupteten, diese Kinder seien besonders intelligent - und diese Schüler verbesserten sich in der Tat im Laufe des Schuljahrs deutlich stärker als ihre nicht-ausgewählten Schulkameraden.) Sowohl im Alltag als auch in der Wissenschaft gibt es viele Beispiele dafür, weswegen sowohl für Interviews als auch Beobachtungen und sogar für Experimente besonders davor gewarnt wird. Weil das Phänomen der selbsterfüllenden Prophezeiung auch dann auftreten kann, wenn nur die Versuchsleiterin weiß, worum es in der Studie geht (also die Teilnehmer es nicht wissen), ist im Idealfall ein Double-blind- Verfahren vorzuziehen: Weder die Person, die die Daten erhebt, noch die Teilnehmer wissen, was das erwartete Ergebnis ist. Obwohl dies in der Linguistik und Sprachlehrforschung nicht immer möglich ist, sollte man möglichst versuchen, die Gefahr der selbsterfüllenden Prophezeiung zu minimieren. Aber auch das reine Wissen um das Beobachtet-Werden kann das Verhalten von Menschen ändern (wenn Sie dies ganz einfach ausprobieren möchten, versuchen Sie, alles, was Sie morgen essen, in einer Liste am Küchentisch aufzuschreiben - und schon nehmen Sie weniger zu sich). Diese Erscheinung nennt man den Hawthorne-Effekt; sie wurde so genannt nach einer Fabrik, in der Psychologen in den 30er Jahren des vorigen Jahrhunderts Untersuchungen zu den Arbeitsbedingungen durchführten, wobei herauskam, dass einfach das Wissen, Gegenstand einer Untersuchung zu sein, dazu führte, dass das Verhalten der Arbeiter sich änderte. Sobald man weiß, dass man für eine Studie ausgewählt worden ist, gibt man sich tendenziell mehr Mühe, seine Aufgaben zu erledigen. Das spiegelt aber keine echte (Lebens- oder Lern-) Situation wider. Um hierfür ein Beispiel zu geben, kommen wir wieder auf die exemplarische Untersuchung zurück, in der die Schüler entweder am Computer oder mit Arbeitsblättern die unterschiedlichen Vergangenheitsformen üben. Die Lernsoftwaregruppe weiß, dass sie nach einer neuen Methode lernen wird, und auch die Lehrperson weiß das. Das kann die Motivation der Gruppe und der Lehrperson so erhöhen, dass - zumindest vorerst - bessere Ergebnisse erzielt werden als bei der anderen Gruppe, ohne dass dies tatsächlich auf die exzellente Aufbereitung der Lernsoftware an sich zurückzuführen wäre. Jedes Sich-Einstellen der Versuchspersonen auf ihre Situation im Experiment kann ihr Handeln beeinflussen. (Übrigens sind hier auch weitere Störfaktoren möglich, worauf wir auch im Kapitel zu den Experimenten zurückkommen.) Störfaktoren, die durch individuelle Charakteristika der Teilnehmer verursacht werden, sind weniger gut zu vermeiden. In diesem Fall helfen eine geschickte Stichprobenauswahl sowie eine Bewusstheit über die Hintergründe der Teilnehmer. Beim Forschungsbericht muss man, egal welches Forschungsparadigma man heranzieht, mögliche Störfaktoren erwähnen. Doppelblindversuch Beobachtungseffekte 37 2.6 Worauf muss ich sonst noch achten? 2.6.2 2.6.2 2.6.2 2.6.2 Kontrollfaktoren Kontrollfaktoren Kontrollfaktoren Kontrollfaktoren Um mögliche Gefahren für die Validität einer Untersuchung zu minimieren (und potenzielle Störvariablen zu minimieren), sollten Sie bei der Planung und Durchführung einer Studie auf einige relativ einfache Dinge achten. Die wichtigsten davon sind: Um Gefahren für die Testzuverlässigkeit zu reduzieren, können Sie (z.B. in einem Vortest) die oben genannten Verfahren einsetzen, wenn es um einen Test geht, den man teilen oder wiederholen kann, oder bei dem man einen Paralleltest einsetzen kann. Um die Beurteilerzuverlässigkeit zu ermitteln, kann man dann auch - je nach Forschungsparadigma und sofern möglich - die Kodierung der Daten durch zwei unabhängige Personen durchführen lassen. In der Psycholinguistik ist es üblich, die Datenauswertung von einer zweiten Person kontrollieren zu lassen. Was realistisch ist, hängt natürlich von der jeweiligen Situation ab. Um Gefahren für die interne Gültigkeit 6 zu reduzieren, sollen Sie möglichst relevante biografische Daten von den Versuchspersonen erheben. Typischerweise werden bei Arbeiten zum Sprachenlernen Informationen dazu erhoben, welche Sprachen die Versuchsteilnehmer schon sprechen, wie lange und wo sie die Zielsprache schon gelernt haben, welches Sprachniveau sie derzeit erreicht haben usw. Bei länger andauernden Untersuchungen sollten Sie darüber hinaus wissen, wie lange Ihnen die Versuchspersonen zur Verfügung stehen werden: Wenn Ihre Versuchspersonen zu großen Teilen Austauschstudenten sind, dann bringen Ihnen Erhebungen im Juni, August und Oktober wahrscheinlich wenig, da die meisten dieser Studenten Ende Juli wieder in die Heimat reisen werden. In psycholinguistischen Untersuchungen achtet man normalerweise darauf, dass die Versuchspersonen ein vergleichbares Alter haben, dass alle Rechtshänder sind, wenn die Lateralisierung 7 eine Rolle spielen könnte, dass man nicht Männer mit Frauen vergleicht usw. Vermeiden Sie gleichzeitig, soweit möglich, poten ielle Störvariablen, indem Sie einen geeigneten Untersuchungsort (wenn Sie keine Feldforschung betreiben) suchen, die Erhebung zeitlich so eingrenzen, dass die Teilnehmer nicht dadurch ermüdet werden, und indem Sie keinesfalls Ihre Hypothesen schon vor oder während der Untersuchung bekannt geben. Die externe Gültigkeit ist im Rahmen einer kleineren Arbeit, wie bei einer Seminar-, Master- oder Examensarbeit, etwas schwieriger zu verbessern. Prinzipiell hilft eine überlegte Auswahl der Versuchsteilnehmer (in den wichtigen Merkmalen ausgewogen zusammengestellte Gruppen, wenn es um ein experimentelles Verfahren geht, und für die Gesamtpopulation möglichst repräsentative Stichproben). Für größere Studien (wie Doktorarbeiten) kön- 6 Die folgende Darstellung lehnt sich an Mackey/ Gass 2005, 118f sowie 128 an. 7 Unter „Lateralisierung“ versteht man die Spezialisierung der beiden Hirnhälften auf verschiedene Funktionen, wobei große Teile der sprachlichen Fähigkeiten bei Rechtshändern in der linken Hirnhälfte repräsentiert sind. z 38 2 Vorplanung einer empirischen Untersuchung nen Sie versuchen, genug Informationen über die Versuchsteilnehmer zu erheben; ebenso sollte die Stichprobe groß genug sein, um eine statistische Repräsentativität zu erreichen, und die Studie sollte möglichst in unterschiedlichen Kontexten durchgeführt werden, sodass Informationen nicht nur von einer Stichprobe stammen. Je nachdem, ob Sie eine Befragung, eine Beobachtung oder ein Experiment durchführen, gelten einige weitere Überlegungen, die wir hier aber (noch) nicht aufführen werden, sondern in den nächsten Kapiteln bei den jeweiligen Forschungsparadigmen besprechen. 2.7 2.7 2.7 2.7 Zusammenfassung Zusammenfassung Zusammenfassung Zusammenfassung Sie haben sich in diesem Kapitel mit den unterschiedlichen Überlegungen befasst, mit denen man sich bei der Planung einer empirischen Studie auseinander setzen muss: Auswahl und Eingrenzung eines Untersuchungsgegenstandes, Formulierung einer Fragestellung und von dazu passenden, empirisch überprüfbaren Hypothesen, Gütekriterien für empirische Studien, Orientierung auf einen Forschungsplan sowie die Beachtung von möglichen Stör- und Kontrollvariablen. Im nächsten Schritt geht es um die Datenerhebung: die Auswahl eines passenden Forschungsparadigmas. Aufgaben Aufgaben Aufgaben Aufgaben 1. Fragestellung und Hypothesen: Nehmen Sie wieder die Situationen vom Einführungskapitel ins Visier. Formulieren Sie zu jedem Thema eine Fragestellung sowie eine Hypothese, die sich darauf bezieht und die zudem falsifizierbar ist. 2. Wir nehmen uns noch einmal den Fall des Gebrauchs der Vergangenheitstempora vor. a. Operationalisieren Sie „Perfekt“! Welche Bedingungen müssen erfüllt sein, damit etwas als „Perfekt“ gezählt wird? Erstellen Sie eine eindeutige Zählanweisung, die „Zustandsformen“ weitgehend ausschließt. b. Welche Art der Datenerhebung würden Sie vorschlagen, wenn es darum geht, den Gebrauch der Vergangenheitstempora bei Sprechern unterschiedlicher Konfession zu ermitteln (Beobachtung - Befragung - Experiment)? Legen Sie fest, wie Sie konkret bei der Form der Datenerhebung vorgehen könnten, die Sie gewählt haben. c. Angenommen, Sie sind folgendermaßen vorgegangen: Sie haben bei Ihren Eltern in der ländlichen Umgebung von Kiel, wo der größte Teil der Bevölkerung evangelisch ist, und bei Ihrer Freundin in der ländlichen Umgebung von München, wo der größte Teil der Bevölkerung katholisch ist, jeweils 20 nach Schichtzugehörigkeit und Geschlecht sorgsam ausgewählten Dorfbewohnern die gleiche Aufgabe gestellt: 39 Aufgaben „Bitte, erzählen Sie mir detailliert, wie Ihr gestriger Tag verlaufen ist.“ Die Erzählungen haben Sie auf Band aufgenommen und die finiten Verbformen gezählt. Sie haben bei den Kielern 1356 finite Verbformen in Vergangenheitstempora erhalten, bei den Münchenern 1837. Davon waren bei den Kielern 1017 Präteritum, 258 Perfekt, der Rest andere Tempora oder unverständlich. Bei den Münchenern waren 1706 Perfekt, 93 Präteritum, der Rest andere bzw. unverständlich. Diskutieren Sie Validität und Geltungsbereich dieser Ergebnisse für eine Hypothesenprüfung: "Die Wahl der Vergangenheitstempora richtet sich nach der Konfession der Sprecher in der Art, dass Katholiken mehr Perfekt gebrauchen als Nicht-Katholiken.“ 3. Sie haben aus pädagogischen Gründen einen Sprachstandstest so konzipiert, dass am Anfang die leichten Fragen gestellt werden, damit die Schüler Erfolgserlebnisse haben; gegen Ende des Tests werden die Fragen immer schwieriger. Was bedeutet das für die Anwendung von Reliabilitätstests? 4. Stellen Sie sich vor, jemand plant als Untersuchung die Beantwortung der Forschungsfrage, warum amerikanische Studenten mit 4 Jahren Sprachunterricht nur das A2-Niveau erreichen. Welche Probleme sehen Sie für die Durchführung der Studie? 5. Wir hatten im Kapitel 2.4 das Beispiel des lexikalischen Entscheidungsexperiments. Stellen Sie sich vor, Sie wollten dies empirisch untersuchen. Mit welchen Störfaktoren würden Sie rechnen und welche Ideen haben Sie, um sie möglichst auszuschließen oder zu kontrollieren? Schritt 2 Schritt 2 Schritt 2 Schritt 2: : : : Datenerhebung Datenerhebung Datenerhebung Datenerhebung 3 33 3 Die Beobachtung Die Beobachtung Die Beobachtung Die Beobachtung Die Beobachtung ist ein besonders aufwändiges Verfahren der Datenerhebung. Für eine Beobachtung entscheidet man sich deshalb normalerweise nur dann, wenn man anhand von Befragungen oder Experimenten nicht das tatsächliche Verhalten, über das man Aufschluss haben will, erfahren kann, wenn man sich zunächst ein Gesamtbild von einer Lernsituation machen möchte, oder wenn man Aktionsforschung betreibt (vgl. Altrichter/ Posch 2007). Dies kann dann der Fall sein, wenn die zu befragenden Personen auf Grund der Fragestellung zu sehr beeinflusst würden (z.B. wenn sprachliche oder gesellschaftliche Normen im Spiel sind - man denkt üblicherweise von sich selbst, dass man „richtig“ spricht bzw. sich als Lehrperson „richtig“ verhält) oder wenn es um ein Phänomen geht, das lediglich in gesprochener Sprache zu beobachten ist, oder wenn das zu untersuchende Sprechbzw. Kommunikationsverhalten nur im realen situativen Kontext vorkommt und nicht simulierbar ist. Die Beobachtung ist auch deshalb ein besonders Zeit raubendes und aufwändiges Verfahren, weil sie in der realen Situation stattfindet und anschließend dokumentiert werden muss. Das Verfahren der Beobachtung wird von Linguistinnen und Sprachlehrforscherinnen vor allem in der Konversationsanalyse und in der Unterrichtsbeobachtung als eine Methode zur Gewinnung von Informationen benutzt. Man kann sich als Beobachter grundsätzlich unterschiedlich verhalten, entweder beobachtet man „von außen“ und gibt sich der beobachteten Gruppe gegenüber als Wissenschaftlerin zu erkennen, die für die Beobachtung Daten sammelt, z.B. durch Mitschriften, Audioaufnahmen oder Videoaufnahmen u.a.m., oder man versucht, als ein Mitglied der beobachteten Gruppe zu agieren und von der beobachteten Gruppe auch so wahrgenommen und akzeptiert zu werden („teilnehmende Beobachtung“). Diese Art von Beobachtung kommt in der Linguistik und Sprachlehrforschung praktisch nicht vor, deshalb befassen wir uns damit nicht. 3.1 3.1 3.1 3.1 Offene und verdeckte Beobachtung Offene und verdeckte Beobachtung Offene und verdeckte Beobachtung Offene und verdeckte Beobachtung Man unterscheidet bei der Beobachtung die offene und die verdeckte Beo achtung. Bei der verdeckten Beobachtung sind die Beobachteten sich während der Beobachtung nicht der Tatsache bewusst, dass sie beobachtet werden. Dies ist allerdings teils moralisch und oft auch gesetzlich problematisch. Die verdeckte Beobachtung ist der offenen dadurch überlegen, dass der Beobachter die Beobachteten nicht durch die Beobachtung beeinflusst. Wenn man weiß, dass man beobachtet wird, verhält man sich üblicherweise anders als in der normalen Situation, über die man ja Daten gewinnen will. Eine Wann Beobachtung? offene und verdeckte Beobachtung b 44 3 Die Beobachtung Schulklasse mit einem videofilmenden Team von Wissenschaftlerinnen im Hintergrund benimmt sich - zumindest bei den ersten Erhebungen - nun einmal normalerweise nicht so, wie sie sich ohne dieses Team und seine Kameras verhielte. Aber natürlich möchte man wissen, wie die Schulklasse sich ohne Beobachtung verhielte. Das bedeutet, die Beobachtung kann dazu führen, dass man nicht mehr das Verhalten vorfindet, das man beobachten möchte (Beobachterparadoxon). Zur Unterrichtsbeobachtung gibt es daher in einigen Laborschulen speziell für Unterrichts-Mitschnitte gebaute Klassenräume, die eine verdeckte Beobachtung problemlos ermöglichen. 1 In diesen Räumen gibt es Möglichkeiten, von einem Nebenzimmer aus in den Klassenraum zu sehen und zu filmen, ohne dass das Nebenzimmer vom Klassenraum aus einzusehen wäre. Aus ethischen Gründen wird aber üblicherweise die Lehrperson vor der Beobachtung informiert, auch sind die Schüler und Eltern generell über die Existenz der Anlage informiert und werden über Aufnahmen wenigstens nachher unterrichtet. Sollen Aufnahmen aus solchen Beobachtungen veröffentlicht oder öffentlich vorgeführt werden, ist das übrigens nur mit Einverständnis aller gefilmten Personen, bei Minderjährigen auch der Eltern, möglich. Ein Trick bei verdeckten Beobachtungen von kommunikativem Verhalten ist, dass man den bezahlten Versuchsteilnehmern mitteilt, leider habe sich der Beginn des Experiments, an dem sie teilnehmen sollen, verzögert, sie sollten bitte in einem Warteraum Platz nehmen. In diesem Warteraum „wartet“ dann jeweils außer der bezahlten Versuchsperson eine instruierte Person, die aber als eine andere wartende Versuchsperson wahrgenommen wird. Die Reaktion der Versuchsperson auf das Verhalten der instruierten Person wird mit einer unauffälligen Anlage gefilmt. Natürlich werden die Personen nachträglich darüber aufgeklärt, dass sie genau für die Beobachtung dieser Situation engagiert und bezahlt wurden, und ihr Einverständnis für die Auswertung wird eingeholt. Trotzdem bleibt das Gefühl einer nicht ganz korrekten Vorgehensweise. Der Normalfall bei der Beobachtung ist deshalb die offene Beobachtung, die zwar meist einfacher einzurichten ist, die jedoch für Beobachtungseffekte anfälliger ist. Die störenden Effekte des Beobachters auf das Beobachtete können vor allen Dingen durch möglichst unauffällige Apparaturen und die Gewöhnung der Beobachteten an die Beobachtungssituation reduziert werden. Beim fünften Auftauchen des Video-Teams ist das Gefilmt-Werden erfahrungsgemäß schon nicht mehr so aufregend, dass man deswegen sein gesamtes Verhalten ändern würde. Trotzdem ist immer damit zu rechnen, dass Menschen, die plötzlich in die Situation geraten, Teilnehmer an einer wissenschaftlichen Untersuchung zu sein, ihr Verhalten ändern (der Hawthorne- Effekt). Man wird also möglichst vermeiden wollen, dass solche Verhaltens- 1 Natürlich funktioniert das nur, wenn diese Räume auch für normalen Unterricht genutzt werden, nicht so wie in einer den Autorinnen bekannten Schule mit einem solchen Beobachtungsraum, der nur aufgesucht wird, wenn der Unterricht beobachtet wird. verdeckte Beobachtung offene Beobachtung 45 3.2 Beobachtungskategorien änderungen auftreten. Wenn es um sprachliches Verhalten geht, ist es oft noch relativ einfach, die Beobachtungseffekte gering zu halten, indem man die Vermutung darüber, was untersucht wird, auf etwas Nichtsprachliches lenkt. So kann man z.B. bei einer Untersuchung zu Interferenzerscheinungen zwischen zwei Sprachen einer bilingualen Person auch eine soziologische Frage stellen („Wie fühlt man sich als Person, die ständig zwei Sprachen benutzt? “). 3.2 3.2 3.2 3.2 Beobachtungskategorien Beobachtungskategorien Beobachtungskategorien Beobachtungskategorien Ein praktisches Problem bei Beobachtungen ist das folgende: Bei der Beobachtung fallen erheblich mehr Informationen an, als in die Auswertung eingehen können. 2 Deswegen ist bei der Beobachtung ganz besonders wichtig, dass eine systematische Auswahl von Beobachtungskategorien getroffen wird, durch die diese Vielfalt an Informationen erheblich reduziert wird, und zwar auf diejenigen, die für die Fragestellung am wichtigsten sind. Wissenschaftliche Beobachtung muss immer durch explizit formulierte Fragen angeleitet sein; das bedeutet in diesem Zusammenhang, dass die Beobachtungskategorien vor der Durchführung der Beobachtung festgelegt sein müssen. Eine Herangehensweise der Art: „Wir sehen mal, was passiert, und analysieren es dann“ hat also wenig Sinn, weil man dann gar nicht weiß, was man genau beobachten und analysieren soll. 3 Nur wenn man die Situation kom p lett aufgezeichnet hat (z.B. mit einer aussagefähigen Videoaufnahme), kann man dann noch etwas retten, weil man im Nachhinein die Situation noch beliebig oft ansehen kann, nachdem man seine Beobachtungskategorien entwickelt hat. Bei einer normalen Mitschrift im Unterricht sind die Ergebnisse nicht verwertbar, wenn die Beobachtungskategorien nicht vorher genau genug festgelegt waren. Welche Beobachtungskategorien man auswählt, hängt von der Untersuchungsfragestellung ab. Angenommen, Sie möchten herausfinden, bei welcher Unterrichtsmethode die Schüler besonders gut „bei der Sache“ sind, dann müssten Sie sich Kriterien ausdenken, aus denen Sie schließen, ob die Schüler dem Unterricht folgen oder nicht. Sie könnten dabei die Aktivitäten der Schüler während des Unterrichts beobachten (schreiben sie mit, hören sie aufmerksam zu, tun sie Dinge, die nichts mit dem Unterricht zu tun haben? ), Sie könnten aber auch z.B. alle am Ende der Stunde ein Protokoll mit den wichtigsten Ergebnissen der Stunde schreiben lassen und dann überprüfen, welche Inhalte fehlen. Im ersten Fall wären Ihre Beobachtungskategorien also direkt beobachtete Verhaltensweisen, im zweiten Fall wären es Ihre Analysen der Arbeitsergebnisse der Schüler. 2 Die Darstellung orientiert sich in großen Teilen an Atteslander 1995. 3 Für Studien im Rahmen der grounded theory, die wir hier nicht behandeln, gelten andere Vorgaben (Strübing 2004). Beobachtungskategorien Wahl der Kategorien 46 3 Die Beobachtung Wie viele Beobachtungskategorien man benutzt, hängt auch sehr stark davon ab, wie viel Zeit für die Beobachtung zur Verfügung steht. Wenn die Beobachtung anhand von Videoaufnahmen dokumentiert ist, die man sich immer und immer wieder ansehen kann, hat man die Möglichkeit, sehr viele verschiedene Kategorien auf einmal zu beobachten. Wenn man allerdings auf den Einsatz von Audio- oder Videotechnik verzichtet (die Videokamera, vor allem mit „Kamerafrau“, ist immer auffällig und führt daher zu stärkeren Beobachtungseffekten; Ähnliches kann bei Audioaufnahmen passieren) und in der Unterrichtsstunde selbst einzelne Verhaltensmerkmale protokollierend beobachtet, muss man sich auf sehr wenige beschränken, wenn die Beobachtung für diese Merkmale noch genau sein soll. 3.3 3.3 3.3 3.3 Datenklassifikation Datenklassifikation Datenklassifikation Datenklassifikation Der nächste Schritt nach der unmittelbaren Beobachtung besteht darin, die beobachteten Rohdaten zu klassifizieren, was keineswegs einfach ist (Datenklassifikation). Es geht hierbei um die Einordnung von einzelnen Verhaltensweisen in verschiedene Klassen von Sachverhalten, die als ähnlich beobachtet wurden. Hierbei ist es wichtig, sinnvolle und für das zu untersuchende Phänomen relevante Klassen von Verhaltensweisen zu erstellen. Die Einteilung der einzelnen Sachverhalte in die jeweiligen Klassen erfolgt durch Vergleichen der Sachverhalte untereinander. In einem letzten Schritt schließlich geht es darum, offen zu legen, welche der aufgenommenen Signale aus den beobachteten Verhaltensweisen zur Klassifizierung als „X“ oder „Y“ geführt haben. Hierbei muss die Beobachterin auch die von ihr als bedeutungsvoll erachteten nicht-verbalen Signale (z.B. nimmt sie wahr, dass Schüler A die linke Schulter ca. 3 cm, die rechte ca. 2 cm anhebt und anschließend beide wieder absenkt, wobei er die Kopfposition nach links hinten verschiebt) in verbale (z.B. „Schüler A zuckt mit den Schultern“) übertragen. Dabei werden Informationen verändert, teilweise gehen Informationen verloren, teilweise wird interpretiert. Da die Beobachterin mit diesem dritten Schritt zunächst für sich selbst die Begründung ihrer Interpretation offen legt, gibt sie sich selbst die Möglichkeit, ihre Einschätzung zu verbessern. Um diese sehr abstrakte Darstellung etwas zu veranschaulichen: Angenommen, wir vergleichen die Wirkung von zwei Unterrichtsmethoden, und eine der beobachteten Kategorien war „Schüler folgen der Lehrperson nicht (mehr)“. Gesehen haben wir Schüler, die unter dem Tisch Comic-Hefte lasen, Schüler, die mit Mitschülern sprachen, mit Mitschülern Briefchen austauschten, in Zeichensprache mit Mitschülern Botschaften austauschten, Schüler, die aus dem Fenster guckten, Schüler, die sich ihrer Frisur oder ihrem Makeup widmeten u.a.m. Genau genommen sind dies hier schon teil-klassifizierte Daten, denn was wir genau gesehen haben, ist ja: „Erwin schneidet Grimassen zu Helga, die ihn amüsiert anguckt, Eva schreibt ein Briefchen, das Hans Auswahl der Kategorien Datenklassifikation Beispiel 47 3.3 Datenklassifikation weiterreicht und an Erna gibt, die es liest und ein Briefchen zurück schreibt, Hugo faltet einen Papierflieger, Hans guckt aus dem Fenster, Susi hat einen Taschenspiegel hervorgeholt und verbessert ihren Lidstrich, Marion untersucht ihre Haarspitzen, Klaus flüstert dem neben ihm sitzenden Theo etwas ins Ohr, Mario stupst die vor ihm sitzende Elisabeth an, die sich umdreht, und er sagt etwas zu ihr usw. usf.“ Unsere endgültige Klassifikation könnte sich nun auf die Stimmung der Abgelenkten (fröhliche, missmutige Aktivitäten, „Den Clown/ Miesepeter machen“) oder auf die Art der Aktivität (Sprechen, Lesen, Schreiben, Körperpflege usw.) beziehen oder sie könnte Personenanzahl und räumliche Kriterien zugrunde legen (Einzelaktivitäten eines Schülers, Aktivitäten mit Banknachbarn, Aktivitäten über größere Distanzen). Für die Unterrichtssituation ist aber wohl vor allem wichtig, wie groß der Grad der Störung ist, der durch die Aktivität hervorgerufen wird. Insofern werden wir wohl die Anzahl der an der Störung Beteiligten wichtiger nehmen als die Stimmung der Beteiligten. Angenommen, unsere Klassifikation ginge einfach nach der Anzahl der Beteiligten, so wäre das Merkmal, das zur Klassenbildung führt, „1-2-3-4-5-usw. Beteiligte“. Das Zuerkennen dieses Merkmals ist sicher einfach, wenn zwei Personen miteinander ein Comic- Heft ansehen, aber es dürfte genauer Begründung bedürfen, wenn man dem durch die Klasse fliegenden Papierflieger eine Anzahl Beteiligter zuerkennt (genügt das bloße Hinsehen usw.? ). Es ist also nicht immer einfach, die eigene Datenklassifikation hieb- und stichfest zu begründen. Dieses Ziel wird aber vor allem mit dem vierten Schritt verfolgt, der systematischen Suche nach Signalen, die nicht zu der Interpretation passen, zu der man gelangt ist. Beim wissenschaftlichen Beobachten muss man sämtliche Interpretationen, die man vorgenommen hat, zunächst als zu prüfende Hypothesen behandeln. Diese Hypothesen muss man zu falsifizieren versuchen, d.h., man muss versuchen, jede einzelne Hypothese bzw. Interpretation als falsch zu erweisen. Dies erfolgt dadurch, dass man systematisch nach Gegenbeispielen sucht, die der jeweiligen Interpretation bzw. Hypothese widersprechen und sie damit infrage stellen. Kann das Gegenbeispiel mit der Hypothese bzw. vorliegenden Interpretation noch plausibel erklärt werden, so ist dieser Falsifikationsversuch gescheitert und die Validität der Hypothese hat sich erhöht. Kann das Gegenbeispiel beim besten Willen mit der vorliegenden Interpretation nicht mehr erklärt werden, so kann sie nicht mehr als allgemein gültige wissenschaftliche „Erkenntnis“ angesehen werden und muss aufgegeben werden - sie ist falsifiziert. Bleiben wir bei unserem Papierflieger-Beispiel. Angenommen, wir haben beobachtet, dass 15 Personen dem Papierflieger zugesehen haben. Damit wäre es eine ganz große Störung, 15 Personen sind selten an einer Störaktion im Unterricht beteiligt. Wenn unsere Hypothese war: „Je mehr Personen an einer Störung beteiligt sind, desto schädlicher ist sie für den Unterrichtsverlauf“, dann könnten wir beim Falsifizierungsversuch z.B. versuchen, herauszufinden, wie viele von den 15 Personen dabei den Ausführungen der Lehrperson noch Falsifikationsversuche 48 3 Die Beobachtung folgen. Angenommen, es wären 13 gewesen, dann zeigt sich, dass unsere Art der Klassifizierung ungünstig war. Einen Teil seiner Aufmerksamkeit der Störaktion zu widmen, wäre nicht ausreichend, um das Merkmal „Beteiligung an der Störaktion“ zuzuerkennen, es müsste schon ein so großer Teil der Aufmerksamkeit sein, dass man dem Unterrichtsgeschehen nicht mehr folgt. Insofern wäre unsere Zuerkennung von Beobachtungskategorien zu verbessern, für die Hypothese wäre dieser Falsifizierungsversuch nicht schädlich. Die Validität einer Hypothese wird umso größer, je mehr der Sache angemessene Falsifikationsversuche eine Interpretation, ein Messverfahren oder eine sonstige Operationalisierung bestanden hat, ohne widerlegt worden zu sein. Im Idealfall findet sich keinerlei Gegenbeispiel, sodass größtmögliche Validität gegeben ist. Auch bei Bachelor-, Master- und Staatsexamensarbeiten ist es wichtig, auf diesen Punkt große Sorgfalt zu verwenden und eventuell auch den Bekannten- und Freundeskreis dabei einzubeziehen, sich Falsifizierungsmöglichkeiten für die eigene Hypothese und das benutzte Vorgehen einfallen zu lassen. Man übersieht leicht Schwächen der eigenen Vorgehensweise, begeht dieselbe Ungenauigkeit bei der Entwicklung und bei der Überprüfung, insofern kann der Rückgriff auf fremde Intuitionen den Wert der Untersuchung erheblich steigern. Es wäre wünschenswert, dass, wenn zwei Wissenschaftlerinnen dieselbe Situation nach denselben Kategorien und derselben Klassifizierung untersuchen, sie auch dasselbe Ergebnis erzielten. Das ist natürlich nur möglich, wenn die Kategorien und Klassifikationen so genau wie möglich beschrieben werden. In der Praxis ist es aber selten möglich, dass die Zuverlässigkeit so überprüft wird, schon deshalb, weil dieselbe Situation nicht noch einmal herstellbar ist. Wenn man wirklich aussagefähige Ton- oder Videoaufnahmen hat, kann es gelingen. Ein weiteres Problem ist die Gültigkeit, die so gut wie möglich überprüfbar gemacht werden muss. Zum einen muss die Wissenschaftlerin, die die Beobachtung bzw. Studie durchführt, in ihrer Veröffentlichung sämtliche Interpretationen, die sie vorgenommen hat, systematisch und vollständig offen legen, auch diejenigen, die zu den Klassifizierungen geführt haben. Dadurch wird es möglich, dass durch andere Wissenschaftlerinnen ein etwa vorhandenes und die Interpretationen beeinflussendes Bezugsmuster der interpretierenden Wissenschaftlerin - vorgefasste und als selbstverständlich erachtete Meinungen, ungeklärte Prämissen u.a.m. - aufgedeckt werden und eine alternative Interpretation der bisherigen entgegengesetzt werden kann. Zum anderen bewirken die schon besprochenen Falsifikationsversuche, sofern sie erfolglos sind, eine Erhöhung der Validität. Wichtig ist hierbei, dass gezielt nach Signalen gesucht wird, die nicht zu der vorgenommenen Interpretation passen. Validität Zuverlässigkeit Gültigkeit 49 3.4 Zur Wahl der Stichprobe 3.4 3.4 3.4 3.4 Zur Wahl der Stichprobe Zur Wahl der Stichprobe Zur Wahl der Stichprobe Zur Wahl der Stichprobe Im Prinzip muss man für Beobachtungen dieselben Anforderungen an die Stichprobe stellen wie für alle empirischen Untersuchungen. Das Problem dabei ist, dass es oft ausgesprochen schwierig ist, Personen oder Schulklassen zu finden, die sich beobachten lassen, und dass man deshalb nur die Auswahl unter einer begrenzten Anzahl von möglichen Beobachtungsobjekten hat. Deshalb wird ein recht pragmatisches Vorgehen selbst bei Doktorarbeiten toleriert. Man sollte jedoch auf jeden Fall planvoll vorgehen, verschiedene Möglichkeiten prüfen und in seiner Arbeit darauf hinweisen, aus welchem Grund man sich für die beobachtete Gruppe entschieden hat und welche Einschränkungen der Generalisierbarkeit der Ergebnisse die Wahl der Stichprobe mit sich bringt. Aufgaben Aufgaben Aufgaben Aufgaben 1. Sie wollen herausfinden, welche Arten von Korrekturen der Aussprache durch die Lehrperson im Fremdsprachenunterricht vorkommen und wie die Lerner darauf reagieren. Sie haben sich für eine Beobachtung im normalen Englischunterricht entschieden. Überlegen Sie, wie Sie genau vorgehen wollen und welche Auswertungskategorien Sie benutzen wollen. Ihre Vorüberlegungen sind so, dass Sie alle Äußerungen der Lehrperson als „Korrektur der Aussprache“ auffassen, bei denen mindestens ein Wort aus der Äußerung des Schülers mit einer anderen Aussprache durch die Lehrperson aufgegriffen wird. 2. Sie möchten herausfinden, mit welchen Mitteln erfolgreiche Gebrauchtwagenhändler zu Beginn eines Gesprächs mit Kunden dafür sorgen, dass eine gute Beziehung zum Kunden entsteht, also dass sie vom Kunden als vertrauenswürdig angesehen werden. Sie haben den Kontakt zu einem großen Gebrauchtwagenhändler mit verschiedenen, unterschiedlich erfolgreichen, Angestellten hergestellt, der Ihnen die Beobachtung erlaubt hat, unter der Bedingung, dass Sie später die als erfolgreich erkannten Methoden seinen Mitarbeitern erläutern und dass keine Kunden sich während des Kaufs beobachtet fühlen. Der Chef hat seine Mitarbeiter darüber informiert, dass irgendwann in nächster Zeit Ihre Beobachtung stattfinden werde und dass sie der Fortbildung diene. Sie schwanken nun zwischen zwei verschiedenen Möglichkeiten, Ihre Beobachtung durchzuführen: a. Sie gewinnen in Ihrem Freundeskreis einige Personen, die sich bereit erklären, „den Kunden zu spielen“, die also vorgeben, ein Auto kaufen zu wollen, und sich von den Verkäufern beraten lassen. Diese Freunde von Ihnen nehmen verdeckt gehaltene kleine Rekorder mit, Stichprobe 50 3 Die Beobachtung die das Gespräch aufzeichnen, und notieren unmittelbar nach dem Gespräch auf einem von Ihnen vorbereiteten Blatt mit vorgegebenen Kategorien ihre Beobachtungen zu einigen Phänomenen, die nicht per Band aufgenommen werden können, z.B. eingehaltener Körperabstand zum Kunden, Gesten, Lächeln u.ä. b. Sie nehmen an natürlichen Kundengesprächen teil und lassen sich den Kunden als neue Verkäuferin in der Ausbildung vorstellen, die erst einmal durch Zuhören ihr Handwerk lernt. Auch in dieser Situation haben Sie einen kleinen, nicht sichtbaren Rekorder mit, der die Gespräche aufzeichnet, und auch in diesem Fall soll nach jedem Gespräch ein Bogen ausgefüllt werden mit einigen vorgegebenen Kategorien zu nicht auditiv wahrnehmbaren Merkmalen des Gesprächs. Stellen Sie Überlegungen an zu den Vor- und Nachteilen der beiden Verfahren in Bezug auf Beobachtungseffekte und Validität der erhaltenen Ergebnisse. 4 44 4 Arbeiten mit Textkorpora Arbeiten mit Textkorpora Arbeiten mit Textkorpora Arbeiten mit Textkorpora Wir beschäftigen uns in diesem Buch nicht mit der Suche nach und der Benutzung von vorliegenden Textkorpora. Für dieses Thema gibt es mit Scherer 2006 und Lemnitzer/ Zinsmeister 2006 zwei gute deutschsprachige Einführungen. Uns interessiert für dieses Buch die Auswahl von Korpora und die Auswertung der Daten, die man mit ihrer Hilfe gefunden hat. Das Arbeiten mit Textkorpora ist eine Alternative zur introspektiven Sprachanalyse (bzw. der Befragung einiger weniger „kompetenter Sprecher“ einer Sprache). Wir haben es hier mit Beobachtungen natürlicher Sprache zu tun, wobei - im Falle von veröffentlichten Korpora zur allgemeinen Nutzung - jemand die Beobachtungsdaten bereits erhoben und aufbereitet hat. Das Arbeiten mit Textkorpora hätte man also auch in das Kapitel „Beobachtung“ aufnehmen können, es ist im Prinzip vom Verfahren her eine Beobachtung. Viele Forscherinnen stellen sich für ihre Forschungsarbeit ein eigenes Korpus aus Texten oder Gesprächen zusammen. Aber man kann auch Beobachtungsdaten benutzen, die schon andere Personen erstellt und aufbereitet haben, und spart sich die Datenerhebung und die aufwändige Aufbereitung durch das Transkribieren gesprochener Sprache. Bei der Auswertung der Daten gelten keine anderen Bedingungen als für Beobachtungen allgemein, jedoch bieten veröffentlichte Korpora, die für die allgemeine Nutzung zur Verfügung gestellt werden, viele praktische Vorteile. Ein linguistisches Korpus ist eine Sammlung von Texten, die heute meist EDV-lesbar vorliegt. Diese Sammlung kann je nach Größe des Korpus ein paar Hundert oder viele Millionen von Wörtern umfassen. Üblicherweise wird die Korpusgröße in Tokens angegeben, damit meint man jedes vorkommende Wort. Daneben gibt es den Begriff Type, die Types in einem Korpus sind die einzelnen Wörter, die unterschiedlich oft vorkommen und als Type nur einmal gezählt werden. Als Token werden sie so oft gezählt, wie sie im Korpus auftreten. Ein Korpus kann ein paar Hundert oder viele Millionen von Wörtern umfassen (gemeint hier als Tokens). 1 Aber auch eine Sammlung von Sätzen oder Texten, die die Forscherin selbst für ihre Untersuchung (aus tatsächlich beobachtetem Sprachmaterial, nicht aus selbst erfundenen Beispielen) erstellt hat, ist ein Korpus. Korpora, die in elektronischer Form vorliegen und die man für eigene Untersuchungen benutzen kann, sind meist sehr viel umfangreicher als eine selbst zusammengestellte Sammlung, aber nicht jede Textsorte ist ausreichend vertreten in Korpora, die für die allge- Als Type würde, wie erwähnt, jedes neu auftretende Lexem einmal gezählt, als Token jedes Vorkommen dieses Wortes. Das Wort ist im Deutschen z.B. kommt in einem Text von einer Seite Länge durchaus gelegentlich 20-mal vor und würde als Token auch so oft gezählt; als Type würde es im gesamten Korpus nur einmal gezählt. Wozu Korpora? 52 meine Nutzung zur Verfügung stehen, sodass man sich doch oft selbst ein Korpus zusammenstellen muss. Manche allgemein nutzbaren Korpora sind von einzelnen Forscherinnen für ihre eigene Forschung zusammengestellt und dann veröffentlicht worden. Gerade wenn es um spezielle Gesprächsformen geht, wird man häufig noch auf solche meist in Buchform und nicht elektronisch veröffentlichten Korpora zurückgreifen. Daneben gibt es Korpora, die von Anfang an für unterschiedliche Benutzerinnen zusammengestellt wurden, wobei es den Erstellerinnen darum ging, eine möglichst große und möglichst repräsentative Menge an Texten zu sammeln und deren Nutzung so einfach wie möglich zu machen. Wenn man mit einem Korpus arbeiten will, muss man sich natürlich überlegen, ob die in diesem Korpus als Stichprobe zusammengestellten Texte tatsächlich repräsentativ sind für die Grundgesamtheit, über die man in seiner eigenen Arbeit Aussagen machen möchte. Z.B. kann man schlecht für eine Erscheinung, die in der gesprochenen Sprache erheblich häufiger vorkommt als in der geschriebenen, auf ein Korpus zur geschriebenen Sprache zurückgreifen. Viele der zur Zeit elektronisch nutzbaren Korpora enthalten auch Texte, die seit den 60er Jahren veröffentlicht wurden, was problematisch ist, wenn man Aussagen über prozentuale Anteile des Gebrauchs einzelner Formen im heutigen Deutsch machen will. Gute Korpora ermöglichen es aber auch, innerhalb des Gesamtkorpus nach eigenen Kriterien eine Auswahl zu treffen, sodass man dieses Problem reduzieren kann. Wozu kann man Korpora nutzen? Das hängt natürlich von der Art des Korpus ab. Wenn nichts als der reine Text im Korpus gespeichert ist, kann man kaum mehr als Wörter suchen lassen. Viele Korpora bieten die Möglichkeit, dass automatisch zu einer Grundform alle ihre flektierten Formen mit berücksichtigt werden, ohne dass man diese alle einzeln eingeben müsste. Außer nach Einzelwörtern kann man auch nach Wortgruppen und auch nach gebundenen Morphemen suchen. „Annotierte“ Korpora bieten aber viel mehr, sie enthalten auch eine syntaktische und morphologische Klassifizierung, sodass man auch nach syntaktischen oder morphologischen Phänomenen suchen kann, also z.B. nach erweiterten Partizipien I (die geduldig lesende Studentin) oder z.B. nach Sätzen mit zwei Konstituenten im Vorfeld (Vor zwei Jahren in Heidelberg hast du genau das Gegenteil behauptet). Wenn das Korpus sehr groß ist, wird die Annotation nicht von einer menschlichen Bearbeiterin, sondern von einem Computerprogramm vorgenommen. Obwohl diese Programme oft erstaunlich gut funktionieren, können dabei Fehler entstehen, deshalb enthalten manche Korpora speziell ausgewiesene Teile, bei denen die automatisch erstellte Annotation noch einmal (meist von einer Linguistik-Studentin als studentischer Hilfskraft) kontrolliert wurde. In diesem Fall läge also auch bereits eine Datenklassifikation nach syntaktischen Kriterien vor, in vielen anderen Fällen wird man als Benutzerin des vorliegenden Korpus selbst die Daten klassifizieren, wie es bei Repräsentivität Annotierte Korpora 4 Arbeiten mit Textkorpora 53 Beobachtungsdaten normalerweise nötig ist, bevor man mit einer Auswertung beginnen kann. Die bei weitem häufigste Verwendung von Korpora ist die, dass man für bestimmte sprachliche Phänomene das tatsächliche Vorkommen in Texten sucht. Man lässt also per Computer nach einzelnen Wörtern oder Wortverbindungen suchen und sich jeweils die Umgebung anzeigen, in der sie vorkommen. Man kann auch einfach suchen, wie häufig sie vorkommen, z.B. im Vergleich zu konkurrierenden Formen. Alle elektronisch nutzbaren Korpora bieten die Möglichkeit, zu einem Wort seine Textumgebung anzusehen, viele auch gleich eine statistische Analyse, welche anderen Wörter besonders häufig mit diesem Wort vorkommen. Diese Möglichkeiten sind sehr praktisch, wenn man ein Lexikon erstellen oder überarbeiten will, wenn man verschiedene Varianten bei einem Wort, z.B. die Vorkommenshäufigkeit einzelner Lesarten von Verben, feststellen will, für Lehrmaterial besonders typische Beispiele für die Verwendung eines Worts sucht usw. Überhaupt können solche Frequenz-Analysen sehr gut für die Entwicklung von Lehrmaterial benutzt werden, begreiflicherweise sollte Lehrmaterial für eine Sprache die häufiger vorkommenden Erscheinungen vor den seltener vorkommenden behandeln. Ein Beispiel aus dem Falkokorpus (Abb. 1): Abb. 1: Beispiel für ein Wort im Satzkontext im Falko-Korpus (http: / / korpling.german.hu-berlin.de/ falko) Man kann ein Korpus auch nutzen, um Aussagen über syntaktische Phänomene zu verifizieren. Man könnte sich fragen, ob der englische Satz If I would have more money, I would buy a new computer zu korrigieren ist in If I had Belege suchen 4 Arbeiten mit Textkorpora 54 4 Arbeiten mit Textkorpora more money, I would buy a new computer, wie wir es in der Schule gelernt haben, oder ob Muttersprachler des Englischen die Form if I would have... nicht auch recht häufig gebrauchen. Ob dies so ist, kann man anhand eines Korpus von englischen Texten, vor allem aus der gesprochenen Sprache, überprüfen. Das heißt, Vermutungen, die wir über den Gebrauch bestimmter sprachlicher Phänomene haben, können wir unter Benutzung eines geeigneten Korpus überprüfen, was weniger aufwändig als eine Befragung ist und weniger die Gefahr von Verzerrungen durch den Befragten möglicherweise bekannte grammatische Regeln mit sich bringt. Wie wir bei der Auswertung vorgehen, hängt begreiflicherweise von der Fragestellung ab. Im Beispiel oben wären wir vielleicht schon zufrieden, wenn wir feststellen, dass 15 % der Konditionalsätze, die wir gefunden haben, die Form mit would enthalten, und wir würden sagen, es gibt Anhaltspunkte dafür, dass die Normvorgabe etwas zu strikt ist. Wir können aber natürlich auch Hypothesen prüfen anhand der Auswertung von Korpora. Wir stellen die Hypothese auf, dass die Vorgaben der Rechtschreibreform die einzelnen Möglichkeiten für das Partizip II von staubsaugen, in neuer Rechtschreibung Staub saugen beeinflusst haben, d.h. also, wir sagen vorher, dass sich nach Einführung der neuen Schreibung Staub gesaugt gegenüber gestaubsaugt und staubgesaugt stärker verbreitet hat. Wir suchen in Korpora geschriebener Sprache, und zwar deshalb, weil bei Transkripten gesprochener Sprache eine Interpretation der Transkript-Erstellerinnen zur Wahl zwischen Staub gesaugt und staubgesaugt geführt hat, wir also nicht wissen, welche Version die Textproduzenten bevorzugt hätten. Wir suchen also Belege aus der Zeit von 1986-1996 und 1998-2008 (die Zeit dazwischen werten wir als Übergangszeit, in der sich niemand sicher war über die Schreibung). Unser (hypothetisches) Ergebnis ist (Tabelle 1): Tab. 1: Beispiel für gefundene Tokens Staub gesaugt staubgesaugt gestaubsaugt vorher 1 13 9 nachher 19 4 2 Wenn bei der Analyse des Korpus numerische Daten entstehen, dann werden sie so wie bei den anderen Verfahren der Datenerhebung ausgewertet und mit denselben statistischen Verfahren weiter untersucht. Beispiele dafür finden sich in Kapitel 8 bei der beschreibenden Statistik und in Kapitel 9.2 bei der Darstellung des Chi-Quadrat-Tests. Wenn Sie selbst einmal das Benutzen von Korpora ausprobieren wollen: Die Adresse http: / / www.ids-mannheim.de/ service/ / #korpora bietet eine Übersicht über die vom IdS zur Verfügung gestellten Korpora des Deutschen und erläutert auch für die einzelnen Korpora, wie man Zugang zu ihnen bekommt. Es gibt dort auch verschiedene Hilfen, mit denen man das Suchen in den Korpora lernen kann. Viele der dort aufgeführten Korpora sind für eine begrenzte Zeit (60 Minuten im Moment) ohne Nutzungsgebühr einsehbar, Auswertung Korpora finden 55 Aufgabe allerdings wird man bei „Nicht-Aktivität“ sehr schnell vom IdS-Rechner getrennt. Das Angebot reicht auf jeden Fall zum Ausprobieren, ob man mit dem Korpus arbeiten könnte. In Zeiten der Unterfinanzierung wissenschaftlicher Institutionen ist leider die kostenlose Nutzung der mit viel Arbeit erstellten Korpora schwieriger geworden. Zeitlich unbeschränkt kostenlos nutzen kann man das annotierte Korpus von Zeitungstexten (20.602 Sätze, alle aus der „Frankfurter Rundschau“) der Computerlinguisten der Universität Saarbrücken http: / / www.coli.uni-sb.de/ sfb378/ negra-corpus. Man muss sich allerdings erst einmal anmelden, aber dann kann man als Wissenschaftler an einer Non-Profit-Organisation auch die sehr umfangreiche Annotierung nutzen, die sogar syntaktische Analysen enthält. Einige weitere für unsere Themenbereiche nützliche Korpora sind das Falko-Korpus (Fehleranotiertes Lernerkorpus des Deutschen als Fremdsprache, http: / / korpling.german.hu-berlin.de/ falko) und das sehr umfangreiche und für mehrere Sprachen eingerichtete CHILDES-Korpus (Child Language Data Exchange System, http: / / childes.psy.cmu.edu). Natürlich gibt es erheblich mehr Korpora und keineswegs nur für das Deutsche, Lothar Lemnitzer hat in seinem Buch (s. Bibliographie) versprochen, eine Internetseite über die nutzbaren Korpora aktuell zu halten, die Adresse ist: www.lemnitzer.de/ lothar/ KoLi. Eine sehr nützliche Adresse für Transkripte gesprochener Sprache ist übrigens die Mailliste zur Gesprächsforschung, auf die sehr viele Sprachwissenschaftlerinnen abonniert sind, die sich mit gesprochener Sprache beschäftigen. Man kann dort Fragen stellen und bekommt meist nützliche Tipps und man kann Partnerinnen finden, mit denen man Transkripte tauschen kann (mailliste@gespraechsforschung.de, z.Z. 8 € jährlich). Aufgabe Aufgabe Aufgabe Aufgabe Angenommen, Sie wollen mit Hilfe von einem Korpus Zählungen machen, die Aufschluss darüber geben, wie häufig ein bestimmtes Phänomen (oder auch nur ein bestimmtes Wort) in der gesprochenen und in der geschriebenen Sprache vorkommt. Sie wollen beim Worthäufigkeitsvergleich die Anzahl der Tokens in den beiden Gesamtkorpora mit den Tokens für Ihr interessierendes Wort vergleichen, bei den Types wollen Sie dasselbe tun. Stellen Sie Überlegungen dazu an, welche Probleme der Abgleich von Types und Tokens machen könnte. Achten Sie u.a. auf Realisierungen der Wörter das und es! Zur Illustration ist ein Transkript 2 aus einem Korpus gesprochener Sprache beigefügt. Aus: Ruth Brons-Albert 1995. Verkaufsgespräche und Verkaufstrainings. Opladen: Westdeutscher Verlag, 179-180. 56 4 Arbeiten mit Textkorpora ! " # ! $ %& ' ( # # ) " # * + # , #! - # . %& # ) #) #) ) / ! 0 1 # 1 , ) # #& ) ) ) ) 2 3 # / " % / ( ) )! 1 . 1 4 & # 5 & ! 5 & 6 '7 % 8% #& 9# # : '7 9 ; " ! < = > " 7 % #! 1 1! 1 5 ! ! ! ? @& &11 #! 9# $A BB # ## ++ CC 1 BB$6 #CC BB6 #CC DDDDDDDD 57 Aufgabe $$ BB # " ( E # ( & # $- CC BB # ) # #&) & F 7 < < ! < ! < $0 # ## $6 #CC " # / @ ( $2 / ( ) #) (% ) ) @ ) 7 ) # #) $4 B ( ) C ; ( DDDD & ) # 11 " # B C! $6 BB # * E ( 7 1) # , # B & 1 $: #& CC < # 1 C #& # 7 ( 1 # G $> H BB0 #CC # # $? . # / #& # ) (% . # / #& -A # 1 -$ 5 55 5 Die Befragung Die Befragung Die Befragung Die Befragung Die einfachste Art der Datenerhebung ist die Befragung, weil man so mit relativ geringem Aufwand zu seinen Ergebnissen kommt. Man kann sie in allen Situationen anwenden, in denen man davon ausgehen kann, dass das Verhalten, über das man forscht, von den Befragten so wahrgenommen wird, wie es tatsächlich stattfindet. 1 Natürlich gibt es aber viel zu beachten, wenn die Befragung Erfolg haben soll. Eine Befragung ist nicht ein reines Einholen von Informationen, sondern auch eine Kommunikation zwischen zwei oder mehreren Personen. Sie geschieht in einer Kommunikationssituation und wird geprägt durch gegenseitige Erwartungen. Die Antworten stellen die Erinnerung an Ereignisse dar, die die befragte Person erlebt hat, oder sie spiegeln ihre Meinungen und Bewertungen wider. Die Befragung zeigt also eine Art „gefilterte Wirklichkeit“, wobei einer der „Filter“ die Versprachlichung ist, ein anderer die Erinnerung. Der genaue Ablauf einer Unterrichtssequenz z.B. bleibt den Beteiligten nämlich normalerweise gar nicht in Erinnerung, sondern eher Ergebnisse oder besondere Vorkommnisse. Daneben gibt es natürlich auch die Einflüsse, die durch die o.a. gegenseitigen Erwartungen, die Kommunikationssituation u.a.m. verursacht werden. Wenn man die Einteilung nach der Situation, in der sich die Antwortenden befinden, vornimmt, gibt es zwei verschiedene Arten von Befragungen, nämlich einmal die persönliche Befragung, in der einer Person - der Interviewerin - mündlich geantwortet wird und andererseits die schriftliche Befragung, in der die befragte Person beim schriftlichen Beantworten von schriftlich gestellten Fragen allein ist. Dazwischen liegt die telefonische Befragung, in der man zumindest seinen Gesprächspartner nicht sieht. In allen diesen Situationen ist damit zu rechnen, dass gegenseitige Erwartungen das Antwortverhalten beeinflussen. Bei jeder Art von Befragung ist mit sogenannten „Interviewer-Effekten“ zu rechnen. Die befragte Person wird mit einer mündlich oder schriftlich formulierten Frage konfrontiert und reagiert darauf. Sie nimmt nicht nur die wörtliche Bedeutung der Frage wahr, sondern auch allerhand Merkmale der Situation, sie analysiert und bewertet alle diese Informationen und überlegt eine Antwort oder reagiert mit einer Antwortverweigerung, z.B. wenn die Frage oder die Befragung als Zumutung empfunden wird. Jeder dieser Schritte ist von Erwartungen und von sozialen Normen beeinflusst. Bei persönlichen Interviews ist dies für jeden ganz offensichtlich. Das Aussehen der Interviewerin, ihre Art zu fragen, ihre Formulierungen, ihre Art, während der 1 Wenn das unwahrscheinlich ist, muss man die aufwändigeren Verfahren Beobachtung oder Experiment wählen. Befragungssituation Interviewer- Effekte , 60 5 Die Befragung Antwort zu reagieren, all das beeinflusst ganz offensichtlich das Verhalten der interviewten Person. 2 Interviewereinflüsse gibt es aber nicht nur bei persönlichen Befragungen. Sie sind auch nicht auf offensichtlich suggestive Fragen bei schriftlichen Befragungen beschränkt. Sehr viel weniger wird beachtet, dass Interviews sehr häufig den Befragten durch die Situation suggerieren, sie müssten auf jeden Fall eine Antwort auf die gestellte Frage oder eine Meinung zu dem infrage stehenden Problem haben. Atteslander (1984, 100) berichtet von einer Befragung, in der dieselbe Frage nach der Akzeptanz einer militärischen Vereinbarung zwischen Amerika und Russland einmal so gestellt wurde, dass die Befragten einfach ihre Meinung dazu äußern sollten, und einmal so, dass zunächst gefragt wurde, ob sie schon eine Meinung dazu hätten und, wenn ja, welche. Im ersten Fall gab es nur 15,2% Unentschiedene bzw. nicht antwortende Befragte, im zweiten Fall erklärten 56,2% der Befragten, sie hätten zu diesem Thema noch keine Meinung. Die Situation, die das Interview schafft, beeinflusst also ganz deutlich die Antworten. Effekte wie die oben angegebenen ergeben sich natürlich auch aus der Situation, dass die Befragende ein ganz anderes Interesse an den Ergebnissen des Interviews hat als der Befragte. Befragende, die meist ein klares Ergebnis für ihre Untersuchung haben wollen, sind an „Weiß nicht"-Antworten im Normalfall nicht interessiert. Die übliche Methode, die Interviewer-Effekte so gering wie möglich zu halten, ist eine möglichst starke Lenkung der Interviews oder Befragungen. Dadurch kann man sicherstellen, dass wenigstens alle Befragten dieselben Fragen erhalten haben, selbst wenn unterschiedliche Interviewerinnen die Fragen gestellt haben. Die starke Festlegung und die damit verbundene Reduzierung von Interviewer-Effekten geht allerdings auf Kosten von eventuell bei der Erstellung der Fragenfolge nicht bedachten Einzelheiten. So kann es sein, dass in einem wenig strukturierten Interview die Befragten von selbst Aspekte einbringen, an die die Interviewerin nicht gedacht hätte. Deswegen wird empfohlen, bevor man mit stark gelenkten Interviews eine größere Menge von Personen befragt, zunächst einmal explorativ nicht so stark gelenkte Interviews mit am Thema interessierten Personen vorzunehmen, die eventuell von sich aus mögliche weitere Aspekte, nach denen man fragen könnte, einbringen. Für die Interviewerinnen gibt es Anweisungen, wie sie sich verhalten sollten. Dabei ist ganz wichtig, dass sie Hörersignale (z.B. hmhm, hm) geben, die nicht als Bewertung der Antwort - wohl aber als Interesse - aufzufassen sind, und dass sie sich dabei unter Kontrolle haben, sodass sie nicht bei von ihnen erwünschten Antworten viel mehr solche Signale abgeben als bei nicht er- Zur nonverbalen Ebene der Kommunikation bei der Befragung ist noch keineswegs alles erforscht. So gibt es z.B. keine Anleitungen zum Umgang mit offensichtlichen Ironiesignalen bei Interviewten usw. Interviewerverhalten 61 wünschten. 3 Interviewerinnen in persönlichen Interviews sollen freundlichinteressiert wirken, eine eigene Meinung darf man ihnen nicht anmerken. Es erfordert ein gewisses Training, so zu wirken. Am geeignetsten für die Befragung sind tatsächlich Personen, die keinerlei Interesse an einem bestimmten Ergebnis der Untersuchung haben, denen also die untersuchte Frage ziemlich egal ist. Dies gilt für die Fälle, in denen es um die Erhebung von Meinungen oder um Berichte über Verhalten geht. Wenn die Frage nur darauf abzielt, Sprache aufzunehmen, weil z.B. die Art der Realisierung des Phonems / r/ untersucht werden soll oder ein bestimmtes grammatisches Phänomen elizitiert werden soll, sind die Gefahren von Interviewer-Effekten geringer. Aber auch hier sollte die Interviewerin nicht eine der möglichen Varianten selbst vorgeben in der Frage, die sie stellt. 4 Auch die schriftliche Befragung ist natürlich eine Möglichkeit zur Reduktion von Interviewer-Effekten, zumindest sind die Interviewer-Effekte dann reduziert auf diejenigen, die die Fragebogenschreiberin zu verantworten hat. Jeder Befragte bekommt dieselben Fragen und niemand wird beeinflusst durch eventuelle Reaktionen seiner Gesprächspartnerin. Das ist nur ein Vorteil der schriftlichen Befragung, ein weiterer Vorteil ist, dass man in erheblich kürzerer Zeit viel mehr Personen befragen kann und somit leichter auf eine akzeptable Größe der Stichprobe kommt. Trotzdem gibt es einige Probleme. Bei der schriftlichen Befragung ist die Befragungssituation kaum kontrollierbar. Es können andere Personen die Antworten des Befragten beeinflussen, eventuell wird der Fragebogen, wenn er verschickt wird, gar nicht von der Person ausgefüllt, die für die Befragung ausgewählt wurde und zur Stichprobe gehört. Man hat die Erfahrung gemacht, dass in Firmen Fragebögen, die sich an den Chef richteten, sehr häufig von den Sekretärinnen ausgefüllt wurden. Dies ist ein Fall, in dem wenigstens ein Rücklauf des Fragebogens erfolgt, sehr häufig werden aber schriftlich zugestellte Fragebögen überhaupt nicht beantwortet. Beantwortet werden sie nur von Personen, die ein besonderes Interesse an der jeweiligen Fragestellung haben oder die aus irgendwelchen Gründen gern Fragebögen ausfüllen. Häufig beträgt der Rücklauf bei derartigen Fragebogenaktionen um die 20%, man spricht dann von einer „Selbstselektion der Stichprobe“. Das ist insofern problematisch, als sich die Personen, die den Fragebogen beantworten, von der Grundgesamtheit, über die man Aussagen machen will, in wesentlichen Merkmalen unterscheiden könnten. Denken Sie z.B. an Fragen zum Sprachunterricht. Diejenigen, die unbedingt ihren Frage- Auch die Art der Hörersignale ist wichtig. Das Hörersignal ja, das vor allem Frauen häufig benutzen, um zu zeigen, dass sie die Ausführungen des Sprechers verstehen, wird oft als Zustimmung missverstanden. Auch hmhm sollte nicht mit bejahender oder verneinender Intonation verwendet werden. Wenn es z.B. um den Gebrauch der Tempora bei der Bezeichnung von Zukünftigem geht, ist weder die Frage: „Was machen Sie im nächsten Urlaub? “ noch „Was werden Sie im nächsten Urlaub machen? “ sinnvoll, sondern etwas wie „Was sind Ihre Pläne für den nächsten Urlaub? “. schriftliche Befragung Selbstselektion Die Befragung 5 62 5 Die Befragung bogen einschicken wollen, sind oft die ganz Begeisterten und die stark Verärgerten oder die besonders Enttäuschten. Damit hat man aber nur Befragungsergebnisse zu den Extremgruppen. Was die breite Mehrheit denkt, erfährt man nicht. Es gibt einige Verfahren, dieses Problem wenigstens teilweise in den Griff zu bekommen. Wenn man die Fragebögen nicht persönlich austeilt, sondern mit der Post schickt, dann gibt es die Möglichkeit, bei ungenügendem Rücklauf telefonisch oder schriftlich zu mahnen. Bei schriftlichen Mahnungen verschickt man sinnvollerweise gleich den Fragebogen wieder mit, damit die angeschriebene Person nicht ihren alten Fragebogen suchen muss. Dies ist natürlich auch ein Kostenfaktor, denn bei jeder solchen Mahnung muss wieder ein frankierter Rückumschlag beigelegt werden. Man geht aus Kostengründen mehr und mehr dazu über, die Fragebögen per Mail zu verschicken, was allerdings die Probleme mit dem Rücklauf keineswegs löst. Wenn Erhebungen in Schulen oder mit Studierenden- Gruppen gemacht werden, so hat sich das Verfahren bewährt, dass man die Fragebögen in Anwesenheit der Verteilenden ausfüllen lässt und danach gleich wieder einsammelt. So kommt man zu akzeptablen Rücklaufquoten. Wenn die Schüler oder Studierenden die Fragebögen mit nach Hause nehmen, so kommt nur ein erheblich geringerer Teil wieder an die Befragerinnen zurück. Die Länge des Fragebogens spielt ebenfalls eine Rolle für die Rücklaufquote, weil die zu Befragenden meist nicht viel Zeit investieren wollen (auch deswegen sollte man direkt am Anfang der Befragung einen Hinweis geben, wie viel Zeit die Befragung in Anspruch nehmen wird). Fragebögen von mehr als vier Seiten werden deshalb seltener ausgefüllt, vor allem wenn sie auch noch offene Fragen enthalten, bei denen die Befragten selbst eine Antwort formulieren müssen. Das wirkt sich umso stärker aus, je weniger interessant die Befragten das Thema und die Gestaltung des Fragebogens finden. Ebenso zu beachten ist, dass, wenn man sich für eine Online-Befragung entscheidet, nicht mehr als eine Frage pro Bildschirmseite gestellt werden soll, und bei jeder Frage ein Hinweis erscheinen soll, wie viele Fragen noch zu beantworten sind, z.B. „Frage 4/ 21“. So vermeidet man Demotivation, die durch ein falsches Einschätzen der Fragebogenlänge entstehen kann. 5.1 5.1 5.1 5.1 Die Wahl der Stichprobe Die Wahl der Stichprobe Die Wahl der Stichprobe Die Wahl der Stichprobe 5.1.1 5.1.1 5.1.1 5.1.1 Auswahl der Befragten Auswahl der Befragten Auswahl der Befragten Auswahl der Befragten Wenn wir eine Befragung durchführen, haben wir selten die Möglichkeit, alle Betroffenen, über die wir gern eine Aussage machen wollen, auch tatsächlich zu befragen. Wir wählen also nur einen Teil der Betroffenen aus, eine sogenannte Stichprobe (alle Betroffenen wären die „Grundgesamtheit“). Die Frage nach der Auswahl der Stichprobe stellt sich zwar bei jeder empirischen Untersuchung, aber da es bei Befragungen relativ leicht möglich ist, eine akzeptable Auswahl der Stichprobe zu erreichen, wird bei Befragungen erheb- Fragebogenlänge 63 5.1 Die Wahl der Stichprobe lich mehr als bei anderen Untersuchungen darauf geachtet, dass die Wahl der Stichprobe angemessen ist. Was wir erreichen wollen, ist immer eine Aussage, die generell oder doch für einen möglichst großen Anwendungsbereich gilt, nicht nur für die eingeschränkte Gruppe, die wir tatsächlich untersucht haben (wer interessiert sich für das Ergebnis „In der Klasse 5b des Herder-Gymnasiums in Immekeppel funktioniert der Englischunterricht mit der Grammatik-Übersetzungsmethode besser als der mit einem aufgabenorientierten Unterricht“? ). Wir können aber nicht jeden Sprachenlerner untersuchen. Also müssen wir unsere Aussage anhand der Untersuchung einer sogenannten Stichprobe machen. Die Meinungsforscher tun nichts Anderes: Sie fragen am Tag der Wahl 2000 Deutsche, wen sie gewählt haben, errechnen das Wahlergebnis, das sich bei diesen 2000 - allerdings sehr gut ausgewählten - Leuten ergeben hätte, und sagen vor der Auszählung schon, wie das Ergebnis der Wahl sein dürfte. Das Verblüffende ist: Sie irren sich selten in mehr als einem Prozent, obwohl sie doch einen verschwindend kleinen Anteil von der gesamten Anzahl der Wähler befragt haben. Das Geheimnis des Erfolgs der Stichprobenwahl liegt nicht darin, dass man einen möglichst großen, sondern einen möglichst gut ausgewählten Teil der Grundgesamtheit untersucht. 5 Das kann man mit zwei verschiedenen Verfahren erreichen. Das eine Verfahren nennt man „Zufallsstichprobe“. In diesem Fall muss man mit geeigneten Verfahren sicherstellen, dass jedes Mitglied der Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu kommen. Echte Zufallsstichproben lassen sich z.B. erzielen, wenn man eine Kartei/ Datenbank der infrage kommenden Personen hat, aus der man blind diejenigen wählen kann, die man in die Stichprobe nimmt. Idealerweise sind die Personen in einer Liste nummeriert, dann kann man sich vom Computer Zufallszahlen für die entsprechende Anzahl geben lassen. So etwas hat man aber meist nicht. Sehr häufig werden Zufallsstichproben aus Telefonbüchern genommen. Wenn man z.B. für eine Untersuchung zu den Trinkgewohnheiten in Köln Interviewpartner sucht, dann schlägt man blind eine Seite des Kölner Telefonbuchs auf und tippt auf einen Eintrag, dann wiederholt man das so lange, bis man die gewünschte Zahl an Personen hat. Man muss sich darüber im Klaren sein, dass man so genau genommen keine Aussagen über die Gesamtbevölkerung Kölns macht, sondern höchstens eine Aussage über die Kölner Telefonbesitzer, die im Telefonbuch verzeichnet sind. Aber selbst bei den über 95% der Bevölkerung, die ein Telefon im Haushalt ha , hat nicht jeder die gleiche Chance, in die Stichprobe aufgenommen zu werden. Arbeitsmigranten haben z.B. weniger Festnetzanschlüsse, Singles haben ein Telefon für sich alleine, Familienmitglieder im Normalfall nicht, und immer mehr Menschen haben überhaupt keinen Festnetzanschluss, sondern nur ein Mobiltelefon. Damit Es gibt natürlich Untergrenzen, die man einhalten muss. Wenn man extrem kleine Gruppen untersucht, gibt es keine Chance mehr, dass nicht repräsentative Einzelfälle in der Masse untergehen. Zufallsstichprobe ben 64 5 Die Befragung werden Singles in der Stichprobe überrepräsentiert sein, Arbeitsmigranten unterrepräsentiert. Zudem ist nicht jeder Telefonbesitzer im Telefonbuch eingetragen, vor allem alleinstehende Frauen und Intellektuelle lassen sich oft nicht ins Telefonbuch eintragen. Ein weiteres Problem ergibt sich erst mit der Art der Kontaktaufnahme mit den betreffenden Mitgliedern der Stichprobe. Im Telefonbuch stehen meist die Haushaltsvorstände, wenn man sich also schriftlich an die eingetragenen Personen wendet, sind die Haushaltsvorstände überrepräsentiert. Ruft man aber an, sind diejenigen überrepräsentiert, die mit Begeisterung ans Telefon gehen, und das sind häufig die Kinder und Jugendlichen im Haushalt. Die Besitzer von Anrufbeantwortern werden in einer solchen Umfrage dagegen eher unterrepräsentiert sein, wenn man es nicht immer wieder bei ihnen versucht - die Wahrscheinlichkeit, dass jemand für eine Umfrage zurückruft, ist sehr gering. Da Telefonbücher die einzigen jedermann zugänglichen Listen von möglichen Befragten sind, werden trotz all dieser Mängel oft Zufallsstichproben aus Telefonbüchern gezogen. Eine echte Zufallsauswahl ist wegen der geschilderten Probleme oft nicht möglich, und dann ist die Telefonbuch-Methode immer noch besser als eine Auswahl aufs Geratewohl. 6 Die andere Möglichkeit der Zusammenstellung der Stichprobe ist das Quotenverfahren. Bei diesem Verfahren wählt man seine Stichprobe nach bestimmten Merkmalen, die für die Untersuchung relevant sein könnten, und stellt die Stichprobe so zusammen, dass sie im Hinblick auf diese Merkmale der Grundgesamtheit entspricht. Die Merkmale der Grundgesamtheit findet man, wenn die Grundgesamtheit die Bevölkerung der BRD ist, im Statistischen Jahrbuch, das jedes Jahr vom Statistischen Bundesamt herausgegeben wird und u.a. in jeder Universitätsbibliothek zu finden ist. Für unser Beispiel mit der bevorzugten Lehrmethode im Englischunterricht der Schule könnten z.B. folgende Merkmale relevant sein: Alter, besuchter Schultyp, Geschlecht, Stadt-/ Landbevölkerung. Wir müssten darauf achten, dass ihre Verteilung in etwa der in der Grundgesamtheit der Schüler in diesem Land entspricht. Diese Daten können wir gut anhand des Statistischen Jahrbuchs mit dem Quotenverfahren an die Grundgesamtheit angleichen. Was Art und Dauer des bisher erteilten Unterrichts, Englisch als 1. oder spätere Fremdsprache und eventuell noch weitere uns interessierende Merkmale betrifft, kann uns das Jahrbuch allerdings nicht helfen, eventuell ist es nötig, selbst Zahlen zu erheben. Professionelle Marktforschungsinstitute und die erwähnten Wahlforscher arbeiten mit solchen nach dem Quotenverfahren zusammengestellten Stichproben. Wenn Sie selbst so eine Stichprobe zusammenstellen wollen, überlegen Sie sich genau, welche Merkmale wirklich relevant sind. Je mehr Merkmale Sie berücksichtigen wollen, umso schwieriger wird es, die Personen so auszuwählen, dass sie die Grundgesamtheit genau abbil- 6 Sollten Sie sich zu diesem Vorgehen entschließen, nennen Sie aber die damit verbundenen Problem in Ihrem Bericht, damit man nicht denkt, Sie würden ganz naiv davon ausgehen, so könne man eine gute Zufallsstichprobe zusammenstellen. Quotenverfahren 65 5.2 Befragungsarten den, weil jede befragte Person mehrere Merkmale hat. Am Ende brauchen Sie, um die Anforderungen der Quote zu erfüllen, z.B. einen Jungen aus einem ländlichen Kreis in Berlin, der Englisch in der Grundschule lernt und 17 Jahre alt ist. 5.1.2 5.1.2 5.1.2 5.1.2 Die Größe der Stichprobe Die Größe der Stichprobe Die Größe der Stichprobe Die Größe der Stichprobe Da wir nur eine Auswahl aus der Gesamtzahl der interessierenden Personen befragen, erhebt sich die Frage, wie viele wir insgesamt befragen müssen. Sollten wir zum Beispiel wissen wollen, was Studierende über ihren Kultusminister denken, dann bilden alle eingeschriebenen Studierenden des Landes die Gesamtzahl. Wenn wir wissen wollen, ob Germanistik-Studierende einer bestimmten Hochschule mit ihrem Studiengang zufrieden sind, dann bilden alle Germanistik-Studierenden dieser Hochschule zusammen die Gesamtzahl. Weil auch bei diesen noch überschaubaren Gruppen in der Regel nicht die ganze Gesamtzahl befragt werden kann, muss eine Stichprobe gemacht werden. Als Hilfestellung bei der Ermittlung, wie groß diese Stichprobe sein muss, wenn es sich um eine Zufallsstichprobe handelt, kann man ein Programm benutzen. Das Internet bietet eine Reihe solcher „Stichproben- Rechner“, sodass man die nötige Stichprobengröße berechnen kann. Man findet sie über die gängigen Suchmaschinen mit dem Suchbegriff „sample size calculator“. Da die Stichprobengröße, die für eine repräsentative Untersuchung nötig ist, in der Praxis bei Bachelor- und Masterarbeiten nie erreicht wird, verzichten wir auf eine ausführliche Besprechung. Bei den Programmen zur Berechnung von Stichprobengrößen findet man üblicherweise Erläuterungen. 5.2 5.2 5.2 5.2 Befragungsarten Befragungsarten Befragungsarten Befragungsarten 5.2.1 5.2.1 5.2.1 5.2.1 Offene Konzepte, explo Offene Konzepte, explo Offene Konzepte, explo Offene Konzepte, explorative Interviews rative Interviews rative Interviews rative Interviews Unter einer „offenen Befragung“ versteht man eine Befragung, bei der die Befragten frei antworten können und Gelegenheit haben, eigene Formulierungen und Gedanken einzubringen. Zunächst mag es so aussehen, als sei „offen“ und „nichtstandardisiert“ dasselbe, aber der Unterschied liegt in den einzelnen Fragen, die „offen“ (d.h. ohne vorgegebene Antwortkategorien) oder „geschlossen“ (mit vorgegebenen Antwortkategorien) sein können. Man kann also auch eine standardisierte Befragung mit offenen Fragen durchführen, dies ist allerdings nicht üblich, weil man offene Befragungen meist ohne feste Abfolge der Fragen mit einer kleinen Gruppe durchführt. Die offene Befragung wird oft vor einer geschlossenen Befragung angewandt, um zunächst einmal einen Überblick darüber zu bekommen, welche Themenbereiche angesprochen werden könnten und welche Arten von Antworten gegeben werden. Sie können in der explorativen Phase der Forschungsarbeit Stichprobengröße offene Befragung 66 5 Die Befragung helfen, genauer zu erfahren, welche Fragen in der endgültigen Befragung angesprochen werden sollten. Manche Details kann eine Forscherin nicht schon vorher wissen, sondern erhebt sie in Gesprächen mit Experten oder mit Betroffenengruppen. Wer eine qualitative Studie durchführt, arbeitet meist nur mit offenen Befragungen. Angenommen, Sie führen eine Befragung zum Korrekturverhalten von Lehrpersonen durch, wobei Sie wissen wollen, was die Schüler akzeptieren und was sie stört. Dann werden Ihnen einige offene Befragungen mit Schülern helfen, erst einmal das Spektrum von vorkommenden - beliebten und unbeliebten - Korrekturtechniken zu erfahren. Nach diesen Techniken können Sie dann später präzise fragen. Auch die günstigste Reihenfolge der Fragen kann in der explorativen Phase der Untersuchung durch offene Fragen ermittelt werden (welche Themen sprechen die befragten Personen von sich aus nacheinander an? ). Die Reihenfolge der Fragen ist nämlich nicht beliebig. Zu Beginn des Interviews braucht der Befragte meistens einige Fragen als Anlaufphase, um sich an die Situation des Interviews zu gewöhnen. Auch bei einem Themenwechsel braucht der Interviewte eine gewisse Zeit, um sich auf das neue Thema einzustellen und an Details zu erinnern. Daher ist es ungünstig, die entscheidenden Fragen gleich zu Anfang zu stellen, die Befragung sollte mit einigen leicht zu beantwortenden Fragen eingeleitet werden. Solche Einleitungsfragen können außerdem zum Aufbau der sozialen Beziehung zwischen Interviewerin und Interviewtem genutzt werden sowie zu einer allgemeinen Orientierung über den Kontext der Befragung. Bleiben wir bei unserem Beispiel mit dem Korrekturverhalten. Ein allgemeiner Kontext, der den Interviewten auch anhand der ersten Fragen klar werden sollte, wäre z.B., dass es um eine wissenschaftliche Untersuchung über die Effektivität verschiedener Korrekturverhaltensweisen geht, und nicht etwa die Ermittlung der Zufriedenheit mit einzelnen Lehrpersonen. Bei linguistischen Befragungen, bei denen selten nach Dingen gefragt wird, die ungern preisgegeben werden, stehen am Anfang oft die Fragen zur Person (Altersgruppe, Dialektgebiet, in dem die Person aufgewachsen ist, u.ä.). 7 Auch die relevanten Antwortkategorien werden häufig in der offenen Befragung eruiert. Der Forscherin ist oft nicht klar, welche Antwortkategorien bei den Befragten später auftauchen werden, und ob sie selbst alle Antwortkategorien bedacht hat, die die Befragten später produzieren würden. In wenig strukturierten Interviews, in denen so wenig Themenkontrolle wie möglich ausgeübt wird, kann die Vollständigkeit und Klarheit der vorgesehenen Antwortkategorien überprüft werden, und wenn einige Antwortkategorien sich als unvollständig oder unnötig herausstellen, kann man sie verbessern. Z.B. Fragen nach dem Einkommen werden häufig nicht gern beantwortet und deshalb in Interviews oft ans Ende gestellt; sie werden aber in linguistischen Befragungen kaum gestellt. Reihenfolge Antwortkategorien finden 67 5.2 Befragungsarten Während der wenig strukturierten Interviews zu Beginn der Untersuchung kann man oft auch Informationen über mögliche Interviewpartner für die Hauptuntersuchung bekommen. Bei Lehrerbefragungen z.B. erfährt man meist, wer sich mit dem zu untersuchenden Thema besonders beschäftigt hat und Interesse an der Untersuchung hätte. Auch sprachliche Besonderheiten der untersuchten Gruppe können in den explorativen Interviews festgestellt werden. Das trifft sowohl für Dialektsprecher als auch für die Sprache von einzelnen Gruppen, z.B. Jugendlichen, zu. Es ist ungünstig, wenn man in den eigentlichen Interviews Dinge nicht kodieren kann, weil man die Antworten auf Grund ungewohnter Ausdrücke nicht versteht (z.B.: Ist nun urst gut oder schlecht? ). Ein weiterer Vorteil der offenen Befragung ist das Abbauen von Hemmschwellen. Es kann durchaus sein, dass Kommunikationspartner, die wir befragen, uns gegenüber behaupten, sie würden sich normgerecht verhalten. Das betrifft durchaus auch sprachliches Verhalten. Sprecher schämen sich oft für ihr sprachliches Verhalten, wenn sie gelernt haben, dass dieses Verhalten falsch sei (Ich bin die Kuh am Stall am Schwanz am raus am Ziehen sagen z.B. alle rheinischen Grundschullehrpersonen ihren Schülern, um ihnen Wendungen wie Ich bin am Arbeiten abzugewöhnen. Folglich sagen befragte Rheinländer auch meist, dass sie diese Form nie verwenden). In solchen Fällen kann man Hemmschwellen abbauen, indem nicht nach einem festgelegten Schema („inquisitorisch“), sondern locker gefragt wird. In Extremfällen kann auch die Interviewerin selbst die nicht normgerechte Form benutzen. Es kann auch sein, dass es sinnvoll ist, erst mit Menschen zu sprechen, die Erfahrung haben im Umgang mit den Personen, die wir eigentlich untersuchen wollen. In unserem Fall sind das häufig ihre Lehrpersonen. 8 Eine weitere Möglichkeit, „offen“ zu Fragestellungen für die eigene Untersuchung zu kommen, sind Gruppendiskussionen, die man als Forscherin beobachtet oder anregt. Sie haben aber nur Sinn, wenn die Gruppe in Gegenwart der Forscherin auch normal diskutiert. Gruppendiskussionen unterscheiden sich von Gruppenbefragungen dadurch, dass die Teilnehmer an der Gruppendiskussion nicht nur Fragen beantworten, sondern auch selbst Fragen stellen. Indem die Gruppenmitglieder auch untereinander diskutieren und eigene Themen einführen, können Aspekte aufkommen, auf die die Forscherin als Außenstehende nicht gekommen wäre. 5.2.2 5.2.2 5.2.2 5.2.2 Geschlossene Konzepte, festgelegte Fragefolgen Geschlossene Konzepte, festgelegte Fragefolgen Geschlossene Konzepte, festgelegte Fragefolgen Geschlossene Konzepte, festgelegte Fragefolgen Wenn man Meinungen erfahren will, ist wohl das gebräuchlichste Verfahren das Interview, das mündlich anhand eines stark strukturierten Fragebogens (Interviewleitfadens) als Einzelinterview geführt wird. Die Fragen werden 8 Wir vermeiden hier den unklaren Begriff „Experteninterview“, weil damit recht verschiedene Dinge gemeint sein können. Auf sich als qualitativ verstehende Arten von Interviews gehen wir, wie im einleitenden Kapitel erwähnt, in diesem Buch nicht ein. sprachliche Besonderheiten Experteninterviews Interviews 68 5 Die Befragung dabei in einer vorher festgelegten Reihenfolge gestellt, eigene Ideen oder Exkurse der Befragten sind bei einem so schematischen Vorgehen allerdings kaum zu verwerten. Auf den Aufbau eines solchen das Interview strukturierenden Fragebogens sowie auf die dabei verwendeten Fragearten gehen wir im nächsten Abschnitt ausführlicher ein. Die mündliche Befragung anhand eines strukturierten Fragebogens kann im direkten Face-to-face-Gespräch durchgeführt werden oder als telefonisches Interview. B ei der schriftlichen Befragung soll der Befragte, wie erwähnt, ohne Kontakt mit einer Interviewerin einen Fragebogen ausfüllen. In den überwiegenden Fällen wird dieser Fragebogen einer nach dem Quotenverfahren zusammengestellten Gruppe per Post oder Mail zugeschickt und es wird erwartet, dass die Antwort in vorbereiteten Rückantwort-Umschlägen an die Untersuchungsleiterin zurückgeschickt wird. Einige Nachteile dieser Art der Befragungen wurden bereits erwähnt, nämlich dass keine Kontrolle der Interviewsituation vorliegt, sodass der Befragte die Fragen nicht in der vorgegebenen Reihenfolge zu bearbeiten braucht und sich sehr lange Zeit nehmen kann, um sich mit bestimmten Fragen auseinander zu setzen, sodass keine spontanen Antworten gegeben werden, wobei man außerdem nie ganz sicher sein kann, wer einen schriftlichen Fragebogen ausgefüllt hat und unter welcher Beeinflussung durch Dritte. Ein weiterer Nachteil der schriftlichen Befragung ist, dass offensichtliche Missverständnisse nicht durch eine Ansprechpartnerin zu klären sind. Die befragte Person hat keine Möglichkeit Rückfragen zu stellen. Ein ungelöstes Problem bei schriftlichen Befragungen ist nach wie vor auch die Rücklaufquote. Es ist keineswegs so, dass die Rücklaufquote nur vom Fragebogen selbst beeinflusst wird. Die Länge des Fragebogens spielt eine gewisse Rolle; längere Fragebögen kommen noch seltener zurück als kürzere, aber der Unterschied liegt nur bei etwa 5%. Die Unterscheidung in „standardisiertes“ und „nichtstandardisiertes Interview“ bezieht sich auf die Art der vorgegebenen Antwortkategorien. Als „standardisiert“ wird ein Interview bezeichnet, wenn die Antworten zu den einzelnen Fragen vorab in Kategorien zusammengefasst wurden. Beim nichtstandardisierten Interview wird die Kategorisierung der Antworten von den Auswerterinnen später vollzogen, die Interviewerin nimmt auf Tonband auf oder schreibt alles mit. Wenn man die Antwortkategorien vorher festlegt, dann können die Antwortkategorien den Befragten mit der Frage gleichzeitig vorgelegt werden, in persönlichen Interviews können sie aber auch nur der Interviewerin bekannt sein. Ihre Aufzeichnungsarbeit wird natürlich dadurch erleichtert, dass sie nur die richtige Antwortkategorie ankreuzt, nicht die Antwort mitschreibt (allerdings muss sie unerwartete Antworten unter Zeitdruck kategorisieren, was eine Fehlerquelle darstellen kann). Wenn es um Meinungsbefragungen geht, dann stellt sich die Frage, ob eine einfache Ja-Nein-Antwortmöglichkeit angemessener ist, oder ob mehrere Kategorien besser geeignet sind, die verschiedenen Meinungen wiederzugeben. Für die Ja-Nein-Alternative spricht, dass die Befragten zu einer klaren Fragebogen standardisiertes vs. nichtstandardisiertes Interview vorgegebene Antwortkategorien 69 5.2 Befragungsarten und eindeutigen Stellungnahme gezwungen werden, während mehrere Alternativen die Möglichkeit des Ausweichens auf eine mittlere Kategorie geben, die erfahrungsgemäß sehr häufig genutzt wird, wodurch man kein aussagefähiges Ergebnis bekommt. Das ist nicht wünschenswert, wenn die Befragten durchaus zu einer der Alternativen tendieren, ihnen jedoch in der Befragungssituation die mittlere Kategorie als der „sichere Weg“ erscheint. Umgekehrt kann man auch unerwünschte Effekte bei der Ja-Nein-Alternative bekommen. Es könnte sein, dass die befragten Personen eigentlich „weiß nicht“ oder „mal so, mal so“ antworten wollen und durch das alleinige Vorgeben von „ja“ und „nein“ zu einer Antwort gezwungen werden, die das Ergebnis verfälscht. Es empfiehlt sich also in vielen Fällen, Ausweichkategorien zu geben. Wie immer man die Antwortkategorien vorgibt, die Gefahr einer Beeinflussung der Ergebnisse der Befragung besteht. Man sollte darüber nachdenken, was für die eigene Untersuchung die bessere Lösung ist und diese Überlegungen auch im Forschungsbericht erwähnen. Um eine Suggestiv-Wirkung zu verhindern, sollte bei der Antwortvorgabe auf jeden Fall darauf geachtet werden, dass beide Alternativen bereits in der Frage enthalten sind (Beispiel: „Bevorzugen Sie einsprachigen Unterricht oder ist es Ihnen lieber, wenn die Lehrperson gelegentlich muttersprachliche Erklärungen gibt? “). Das macht einfache Ja-Nein-Antworten schwierig, denn bei Fragen, die mit ja oder nein zu beantworten sind, fehlt normalerweise eine der beiden Alternativen. Wenn man mehrere Antwort-Alternativen vorgibt, sollten sie sich nicht inhaltlich überschneiden, und vor allem sollte auf ein Gleichgewicht zwischen positiven und negativen Antwortkategorien geachtet werden. 9 Beispiel: Man kann dieselbe Frage auch so stellen, dass man eine Anzahl von Ziffern vorgibt, wobei eine Ziffer für „immer“ und eine Ziffer für „nie“ steht und die Befragten im Interview die Zahl nennen, in der schriftlichen Befragung eine Zahl umkringeln können, ohne dass sie eine direkte Verbalisierung für die Zwischenkategorien finden müssen. Diese Form wird vor allem bei schriftlichen Befragungen häufig verwendet, auch mit anderen Eckpunkten, und wird als „Likert-Skala“ bezeichnet. 9 Falsch wäre also z.B. eine solche Beschriftung der Antwortkategorien: Likert-Skala 70 5 Die Befragung ! " # $ % Wichtig bei Reihen von Aussagen dieser Art, die jeweils anzukreuzen oder zu umringen sind, ist, dass man die Befragten durch die Art der Fragestellung nicht dazu verleitet, immer dieselbe Zahl zu nennen oder die gesamten Reihen immer an derselben Stelle anzukreuzen. Das geht meist recht einfach, indem man gelegentlich auch verneinte oder anders zu wertende Aussagen einfügt. ! " # $ % & ' ( ) ! " # $ % Beim nichtstandardisierten Interview wird auf eine vorgegebene Kategorisierung der Antworten verzichtet. Das bedeutet, nicht der Befragte oder die Interviewerin klassifiziert die Antworten nach der Zugehörigkeit zu bestimmten Kategorien, sondern das geschieht nachträglich durch die auswertende Forscherin. Der Vorteil dabei ist, dass viel Zeit für die Klassifizierung zur Verfügung steht, andererseits besteht dann keine Möglichkeit mehr für Rückfragen. 5.2.3 5.2.3 5.2.3 5.2.3 Die Wahl zwischen offenen und geschlo Die Wahl zwischen offenen und geschlo Die Wahl zwischen offenen und geschlo Die Wahl zwischen offenen und geschlossenen Fragen ssenen Fragen ssenen Fragen ssenen Fragen Wie erwähnt, geht es um den Spielraum, der bei der einzelnen Frage für die Antworten gelassen wird. Die offene Frage enthält keine festen Antwortkategorien. Eine offene Frage wäre z.B. „Wie gefällt Ihnen Ihr Sprachlehrbuch? “. Die befragte Person kann ihre Antwort völlig selbstständig formulieren und die Interviewerin hat die Aufgabe, die Äußerungen der Auskunftsperson so genau wie möglich zu notieren bzw. auf Tonträger aufzunehmen. Erst bei der späteren Auswertung werden die Antworten bestimmten Kategorien zugeordnet. Bei der geschlossenen Frage werden den Befragten mit der Frage auch alle für die Auswertung vorgesehenen Antworten nach Kategorien geordnet vorgelegt. Die Aufgabe besteht lediglich darin, dass sie aus diesen Antwortmöglichkeiten ihre Antwort auswählen. Geschlossene Fragen wären z.B. „Gefällt Ihnen Ihr Sprachlehrbuch? ja - teilweise - nein.“ oder „Wie würden Sie Ihr Sprachlehrbuch am ehesten charakterisieren? sehr interessant - interessant - geht so - langweilig - sehr langweilig“. 10 10 Hier ist sehr klar festgelegt, welche Dimension gemeint ist. Bei offenen Fragen können völlig verschiedene Dinge angesprochen werden, was es sehr schwierig macht, hinterher eine Kategorisierung zu finden, die das Gesagte wiedergibt, aber trotzdem einen schnellen Überblick ermöglicht. Antworten auf dieselbe offene Frage könnten z.B. sein „Viel zu teuer“ oder nichtstandardisiert offene vs. geschlossene Fragen 71 5 .2 Befragungsarten In der Beurteilung der offenen versus geschlossenen Frageform wird als grundsätzlicher Unterschied angeführt, dass offene Fragen vom Befragten verlangen, sich an etwas zu erinnern, geschlossene Fragen dagegen, etwas wiederzuerkennen. Sich-Erinnern ist schwieriger als Wiedererkennen; auf offene Fragen erhält man daher in der Regel weniger Antworten als auf geschlossene Fragen. Andererseits besteht bei geschlossenen Fragen die Gefahr der Suggestivwirkung, vor allem bei Meinungsfragen, über die der Befragte nie oder kaum nachgedacht hat oder zu denen er sich noch keine Meinung gebildet hat. Offene Fragen helfen, Unwissenheit, Missverständnisse und unerwartete Einordnungen der Frage zu entdecken. 11 Bei unserem Beispiel mit der Frage zum Sprachlehrbuch könnte z.B. herauskommen, dass die Interviewten das Buch in Bezug auf die äußere Aufmachung beurteilen, während die Untersuchungsleiterin an den Inhalt gedacht hatte. Offene Fragen können auch den Gesprächskontakt und das Interesse am Interview fördern, weil sie einer normalen Gesprächssituation nahe kommen. Der Befragte fühlt sich als Gesprächspartner ernst genommen. Geschlossene Fragen erbringen dagegen eine größere Einheitlichkeit der Antworten und erleichtern dadurch die Vergleichbarkeit. Sie erleichtern der Interviewerin die Aufnahmearbeit und der Forscherin die Auswertung. Sie sind auch weniger anfällig für Interviewer ffekte, es sei denn, es fehlen Antwortmöglichkeiten, die die Befragten in einer offenen Befragung geäußert hätten. 5.2.4 5.2.4 5.2.4 5.2.4 Direkte und indirekte Fragen Direkte und indirekte Fragen Direkte und indirekte Fragen Direkte und indirekte Fragen Die Technik der indirekten Befragung versucht, eine Gesprächssituation zu schaffen, in der der Befragte sich auch offen zu Themen äußert, bei denen Normvorstellungen eine Rolle spielen. Die indirekte Befragung eignet sich auch dazu, Informationen über Zusammenhänge, die dem Befragten selbst nicht bewusst sind, zu erhalten. Nun erheben wir als Sprachwissenschaftlerinnen oder Sprachlehrforscherinnen ja selten sehr sensible Daten, trotzdem haben wir auch manchmal mit Normvorstellungen zu tun, z.B. über den richtigen Unterricht oder über das richtige Sprachverhalten. In diesen Fällen kann es vorkommen, dass auch wir indirekte Fragetechniken gebrauchen sollten. Manchmal besteht die Möglichkeit, eine besonders raffinierte Methode der indirekten Fragetechnik anzuwenden und die Frage so zu stellen, dass eine „richtige“ Antwort gar nicht möglich ist. So etwas wurde z.B. gemacht, um Einstellungen verschiedener Personen zu unterschiedlichem Sprachverhalten zu ermitteln. Die Versuchspersonen hörten Bandaufnahmen von jeweils demselben „Geht mir zu schnell vor, hätte es lieber kleinschrittiger“ oder „Manche Bilder sind unrealistisch“ usw. Eine Linguistin, die Grammatikalitätsurteile erheben wollte, musste erstaunt feststellen, dass ihr ein Befragter zum zu beurteilenden Satz Fritz ist größer wie Paul sagte, er könne zu dessen Korrektheit kein Urteil abgeben, da er weder Fritz noch Paul kenne. direkte vs. indirekte Fragen -E 72 5 Die Befragung Sprecher. Ihnen wurde aber gesagt, dass es sich um unterschiedliche Sprecher handele. Aufgabe der Versuchspersonen war, den Beruf dieser angeblich unterschiedlichen Sprecher zu erraten. Auf den Bandaufnahmen, die zu beur teilen waren, sprach ein geschulter Schauspieler in unterschiedlichen amerikanischen Soziolekten. Entsprechend bestimmten Merkmalen seiner Sprache wurden ihm Berufe aus einem Spektrum zwischen „Arzt“ und „Hafenarbeiter“ zugeordnet. In einer direkten Befragung mit Fragen wie beispielsweise „Würden Sie doppelte Verneinung als ein Kennzeichen von Unterschichtsprechern ansehen? “ wären wahrscheinlich nicht dieselben Ergebnisse erzielt worden. 5.3 5.3 5.3 5.3 A AA Aufbau eines Fragebogens ufbau eines Fragebogens ufbau eines Fragebogens ufbau eines Fragebogens Der Fragebogen/ Interviewleitfaden ist das wichtigste Instrument der Befragung; insofern kann man kaum genug Sorgfalt in seine Entwicklung stecken. Üblicherweise geht man beim Aufbau eines Fragebogens nach den folgenden Prinzipien vor. Fragen, von denen man erwartet, dass sie das Interesse des Befragten am ehesten zu wecken vermögen, werden zu Beginn gestellt. Wenn sein Interesse geweckt ist und er sich am Interview zu beteiligen beginnt, wird er eher bereit sein, auf Fragen, die ihn weniger interessieren oder die mehr Überlegungen und Anstrengungen verlangen, zu antworten. Sollten auch heikle Fragen gestellt werden, dann möglichst gegen Ende der Untersuchung, und zwar aus zwei Gründen. 12 Erstens kann es durchaus sein, dass durch den Ablauf des Interviews der Befragte Zutrauen zur Interviewerin gefasst hat und daher auch bereit ist auf heikle Fragen einzugehen, und zweitens, wenn der Befragte bei solchen Fragen beginnt das Interview zu verweigern oder in seinen Antworten höchst zurückhaltend wird, so hat die Interviewerin zumindest die Antworten auf die früheren unproblematischen Fragen erhalten. Ein Trick bei Fragen nach negativ bewertetem Verhalten ist, dass man einleitende Bemerkungen zum Abbau konventioneller Schranken den eigentlichen Fragen voranstellt. Ein Beispiel dafür wäre „Viele Schüler benutzen ja Hilfsmittel während der Klassenarbeiten. Könnten Sie mir sagen, wann Sie zum letzten Mal in einer Klassenarbeit ein unerlaubtes Hilfsmittel benutzt haben? “ Bei einer solchen - im zweiten Teil sicherlich suggestiven - Frage bekommt man vermutlich mehr zutreffende Antworten, als wenn man direkt fragt „Wann haben Sie zuletzt gemogelt? “ (Selbstverständlich sollte man ohnehin negativ wertende Ausdrücke in derartigen Fragen vermeiden). In manchen Fragebögen werden auch Kontrollfragen eingebaut, die überprüfen sollen, ob die Versuchspersonen übertrieben haben, unaufrichtig waren oder in ihren Urteilen schwanken. 13 Bei linguistischen Fragebögen zur Akzeptanz Heikle Fragen wären z.B. Fragen an die Lehrperson zu als unerwünscht geltendem Lehrerverhalten u.ä. Zum Beispiel können an verschiedenen Stellen im Fragebogen die folgenden Aussagen stehen, die mit einer Likert-Skal beurteilt werden sollen: Aufbau des Fragebogens a 73 5.4 Umgang mit der Gefahr von Artefakten bestimmter sprachlicher Erscheinungen gibt es immer mehrere Beispiele für ein als gleich angesehenes Phänomen, einerseits wegen der erwähnten möglichen Schwankungen des Urteils, und andererseits, weil man nicht sicher sein kann, dass in einem einzelnen vorgelegten Satz oder einer einzelnen vorgelegten Textpassage nicht irgendetwas zur Wertung durch den Befragten führt, was mit der Untersuchungsfrage gar nichts zu tun hat (er mag oder kennt beispielsweise ein bestimmtes Wort nicht). Wie bereits erwähnt, ist es wichtig, dass der Fragebogen nicht zu lang wird. Die Befragten sind selten bereit, über eine längere Zeitspanne konzentriert zu antworten. Bei allen Fragen, die man stellen will, muss man sich also überlegen, ob man die möglichen Antworten überhaupt für die Untersuchung verwerten kann. Am besten geht man wie folgt vor, wenn man seinen Fragebogen / Interviewleitfaden aufstellt: 1. Analyse der Literatur zum Thema, Festlegen der zu erfragenden Inhalte 2. Festlegen der zu befragenden Stichprobe 3. Entscheidung über die Art der Fragen 4. Festlegen von Formulierungen und Reihenfolge der Fragen 5. Erprobung an einer kleinen Gruppe 6. Kontrolle: - Wurden alle Fragen verstanden? - Ist die Reihenfolge ideal? - Liefern alle Fragen ein für die Untersuchung interessantes Ergebnis? (In vielen Untersuchungen braucht man keine Fragen, die immer gleich beantwortet werden.) - Sind die Ergebnisse aller Fragen auswertbar? 7. Überarbeitung des Fragebogens 8. Zusammenstellen der zu Befragenden Ein ausführlicheres Beispiel für die Entwicklung eines Fragebogens findet sich im Internet-Material zum Buch im Zusammenhang mit Aufgabe 4. 5.4 5.4 5.4 5.4 Umgang mit der Gefahr von Artefakten Umgang mit der Gefahr von Artefakten Umgang mit der Gefahr von Artefakten Umgang mit der Gefahr von Artefakten Es lässt sich niemals völlig vermeiden, dass die Befragung selbst die Ergebnisse der Befragung beeinflusst, und die bereits behandelten Interviewerffekte sind nur eine der Möglichkeiten dazu. Man kann jedoch den Grad der Verfälschung in gewisser Weise unter Kontrolle halten. Einerseits muss man die Art der Befragung vollständig dokumentieren, sodass andere Wissenschaftlerinnen überprüfen können, in welcher Weise mögliche Beeinflussungen stattgefunden haben können. Andererseits muss man seinen Fragebogen so sorgfältig zusammenstellen, dass aus dem Fragebogen nicht Ich möchte nicht korrigiert werden, wenn ich die Fremdsprache spreche. Ich finde es wichtig, dass meine Fehler beim Sprechen korrigiert werden. Es stört, wenn die Lehrperson mit Korrekturen eingreift, wenn jemand gerade spricht. Artefakte E 74 5 Die Befragung geschlossen werden kann, welches Ergebnis die Untersuchende selbst bevorzugen würde. Dafür ein schlichtes Beispiel: In einer Untersuchung sollen die Probanden Sätze auf ihre Grammatikalität hin beurteilen. Wenn Studierende für eine solche Umfrage einen Fragebogen entwerfen sollen, gehen sie häufig fälschlicherweise so vor, dass sie die Beispielsätze, die die Probanden beurteilen sollen, schon im Fragebogen in einer gewissen Ordnung angeben: Sie bringen zuerst die Sätze, die sie selbst für grammatisch korrekt halten, dann die, bei denen sie selbst zweifeln, dann die, die sie für völlig ungrammatisch halten. Das ist ganz logisch in der Vorgehensweise, und bei der Planung des Fragebogens ist es auch sicher ein wichtiger Schritt (es sollten schließlich auch genügend akzeptable Sätze in der Befragung vorkommen, und die erwartete Verteilung von akzeptablen, zweifelhaften und ungrammatischen Sätzen lässt sich so gut abschätzen). Der Fehler bei einem solchen Verfahren ist jedoch offensichtlich: Die Befragten können - bewusst oder unbewusst - eine Ordnung erkennen, nämlich die Wertung der Autorin des Fragebogens, werden davon beeinflusst und neigen im Allgemeinen dazu, sich diesen impliziten Wertungen des Fragebogens anzuschließen, ohne sich selbst noch weitere Gedanken zu machen. Dass das Ergebnis einer solchen Umfrage dann weitgehend unbrauchbar ist, versteht sich von selbst: Man hat nicht empirisch die Meinungen mehrerer sprachkompetenter Probanden eingeholt, sondern sich im Wesentlichen lediglich die Meinung einer Sprecherin bestätigen lassen. Diese ist als die Linguistin, die den Fragebogen entworfen hat, auch noch eine für ein unbefangenes Grammatikalitätsurteil besonders ungeeignete Person, denn sie hat bereits eine Hypothese im Hinterkopf. Um derartige Beeinflussungen der Probanden so weit wie möglich zu vermeiden, ist es daher wichtig, die zu beurteilenden Beispielsätze möglichst gut gemischt und ohne erkennbares Ordnungsprinzip zu präsentieren. Insbesondere wenn es um die Untersuchung sprachlicher Normen geht, ist es auch wichtig, dass die Befragten möglichst nicht erkennen können, um welches grammatische Phänomen es in der Untersuchung geht. Denn wenn sie ein solches Wissen über die Ziele der Untersuchung haben oder meinen zu haben, sind sie in ihrem Urteil nicht mehr die unmittelbar und intuitivunreflektiert antwortenden Sprachbenutzer bzw. kompetenten Sprecher, sondern fangen möglicherweise an, sich über das Phänomen Gedanken zu machen, und stellen dazu bewusst eigene Regeln auf oder greifen auf vorhandenes Regelwissen zurück. Da man mit der Untersuchung aber nicht das Wissen der Sprachbenutzer über normative Regeln des Duden oder ähnlicher normierender Instanzen testen möchte, sondern etwas über den Sprachgebrauch und das Sprachempfinden kompetenter Sprecher herauszufinden beabsichtigt, lenkt man die Befragten vom eigentlichen Thema ab durch sogenannte Distraktoren. Distraktoren sind beispielsweise Ablenkersätze, d.h. zusätzliche Beispielsätze, die für das eigentliche Ziel der Untersuchung gänzlich irrelevant sind und in denen es um ein ganz anders gelagertes grammatisches Phänomen oder andere sprachliche Erscheinungen geht. Distraktoren 75 5.5 Das Klassifizieren von umfangreichen Befragungsdaten 5.5 5.5 5.5 5.5 Das Klassifizieren von umfangreichen Befragungsdaten für Das Klassifizieren von umfangreichen Befragungsdaten für Das Klassifizieren von umfangreichen Befragungsdaten für Das Klassifizieren von umfangreichen Befragungsdaten für eine differenzierte Auswertung eine differenzierte Auswertung eine differenzierte Auswertung eine differenzierte Auswertun Wenn wir unsere Befragung auswerten, wollen wir normalerweise nicht nur wissen, wie viel Prozent der Befragten auf welche Frage wie geantwortet haben, wir möchten auch Beziehungen zwischen den Antworten auf die einzelnen Fragen herstellen. Wir möchten z.B. wissen, was die Frauen geantwortet haben im Vergleich zu den Männern oder die Personen, die schon mehr als zwei Fremdsprachen gelernt haben, im Vergleich zu denen, die ihre erste oder ihre zweite Fremdsprache lernen, oder wir wollen wissen, ob diejenigen, die Komparative mit wie ablehnen, auch das Doppelplusquamperfekt (als ich kam, hatte er den Mantel schon angezogen gehabt) ablehnen. Das geht bei größeren Mengen von Antworten nur, indem wir die Antworten kodieren, so dass wir den Computer die Zusammenstellung machen lassen können. In der folgenden Tabelle sehen Sie ein Beispiel dafür, wie eine solche Kodierung aussehen kann. Die befragten Personen sind durchnummeriert, männliche Personen sind mit „1“, weibliche mit „2“ kodiert. Beim Schulabschluss wurde „1“ für „Hauptschule oder weniger“, „2“ für „höherer Abschluss als Hauptschule bis Abitur inklusive“ und „3“ für „Studium“ vergeben. Die Anzahl der gelernten Sprachen außer der Muttersprache ist mit der Ziffer für ihre Anzahl kodiert, beim Alter wurde eine Kodierung für Altersgruppen vergeben „1 = bis 25, 2 = 26-40, 3 = 41-60, 4 = über 60“ und in der letzten Spalte findet sich die Kodierung der Antworten zum Satz Fritz ist größer wie Paul (1 = völlig okay, 2 = gefällt mir nicht, aber man hört es oft, 3 = falsch). Wenn Sie Ihre Daten so aufbereitet haben, können Sie ganz schnell ermitteln, was denn junge Frauen mit Hauptschulabschluss zur Grammatikalität des Satzes sagen im Vergleich zu älteren Herren mit Studium usw. (Tabelle 1): Tabelle 1: Hypothetische Klassifizierung von Befragungsdaten Versuchsperson Geschlecht Schulabschluss Gelernte Sprachen Alter Beurteilung Satz 3 1 1 1 0 1 2 2 1 2 2 1 2 … … … … … … - 76 5 Die Befragung Aufgaben Aufgaben Aufgaben Aufgaben 1. Eine Aufgabe, zu der wir keine Musterlösung geben können, die sich aber sicher für Sie lohnen kann: Lassen Sie sich einmal von einer der zahlreichen Interviewerinnen in einer Fußgängerzone ansprechen (ein Interviewer ist natürlich auch gut, aber Sie werden sehen, es sind meistens junge Frauen) und beobachten Sie beim Interview das Interviewerverhalten. Da diese Fußgängerzonen-Interviewer meist nur eine Kurzausbildung erhalten haben, werden Sie sicher einige Fehler feststellen können, eventuell auch im Aufbau des Interviewleitfadens. Überlegen Sie, wie sich diese Fehler auf das Ergebnis der Befragung auswirken könnten. 2. Angenommen, Sie wollen wissen, welche Gruppen der Bevölkerung eine bestimmte Meinung vertreten (z.B., dass an Schulen zu wenig Sprachunterricht erteilt wird). Sie haben dazu mit einem Fragebogen Informationen gesammelt. Im Folgenden sind die (hypothetischen) Daten für zwölf Befragte angegeben. a) Erstellen Sie aus den Daten unten eine Kreuztabelle, in der Sie (in absoluten Zahlen) angeben (a1) wie viele Befragte in den einzelnen Altersgruppen diese Meinung vertreten (a2) welchen Schulabschluss die befragten Männer und Frauen hatten (a3) wie die Einkommensgruppen sich auf die Altersgruppen verteilen. b) Erstellen Sie eine neue Kreuztabelle, in der Sie nicht die absoluten Zahlen, sondern Prozentwerte angeben. 77 Aufgaben Versuchsperson Geschlecht Schulabschluss Einkommen Alter Votum 1 1 1 1 2 2 1 2 2 1 2 3 2 2 2 2 1 4 1 1 1 1 3 5 1 3 2 1 1 6 2 3 3 3 1 7 2 2 2 3 1 8 1 3 1 4 1 9 1 2 1 10 2 1 2 1 2 11 1 1 3 1 1 12 2 2 3 3 1 Hierbei gilt: Versuchsperson: weist jeder befragten Person eine Nummer zu Geschlecht: 1 = männlich, 2 = weiblich Schulabschluss: 1 = Abitur, 2 = Fachhochschulabschluss, 3 = Universitätsdiplom, Magister oder Promotion Einkommen: 1 €50.000, 2 = €50.001-80.000, 3 € 80.001 jährlich Alter: 1 18 Jahre, 2 = 19-30 Jahre, 3 = 31-60 Jahre, 4 > 60 Jahre Votum: 1 = „ja“, 2 = „nein“, 3 = „weiß nicht“ 3. Der im Folgenden dargestellte Fragebogen soll für eine Befragung zur Akzeptanz der Vergangenheitstempora „Doppelperfekt“ (Es hat geregnet gehabt) und „Doppelplusquamperfekt“ (Es hatte geregnet gehabt) bei Studierenden der Philipps-Universität Marburg benutzt werden. Er soll an 300 Studierende am Eingang der Mensa verteilt werden und beim Herausgehen wieder eingesammelt werden. Kommentieren Sie dieses Vorgehen und die Qualität des Fragebogens! 78 5 Die Befragung Philipps-Universität Marburg Fachbereich 09 „Germanistik und Kunstwissenschaften“ Prof. Dr. Erna Anfänger/ Eva Neumann Philipps-Universität Marburg, D-35032 Marburg FB 09, Institut für Germanistische Sprachwissenschaft " * + , - .* #! / 0 , 1-- .* #! / 0 2 3 4 5 4 5 6 2 6 2 + 7 8 2 9 ' % 6 + : ' 5 ; % + : 5 : ; - 5555555555 < = - 555555555555555555555555555555555555555555555555555555555 + - 2 - 555555555555555555555555555555555555555555 > 2 ' ? 5 6 % + @ 8 > : : 2 4+ 4; @ : ; : 5 4+ 4; - 555555555555555555555555555555555555555555555 79 Aufgaben ) 2 : % 5 A ; 5 = ) 8 5 5 B ' , 4 5 ! 5 ' )C : D 5 "5 E ' 2 : ' C5 #5 = ' = A 5 $5 ; ' : 2 D F B 5 05 G 8 5 F5 8 8 > *5 = ' ' 4 5 5 + + ; D 4 5 5 ; ' , 2 : E : 5 5 H ' 9 5 ! 5 8 B 4 2 D 5 "5 ; : D : 4 2 : 4 : 5 #5 > : : 5 $5 ; ; : 2 ! > 5 05 B : 4 5 80 5 Die Befragung 4. Sie möchten herausfinden, welche Arten von Korrekturen erwachsene Teilnehmer von Volkshochschul-Sprachkursen bevorzugen. Entwickeln Sie eine Strategie für eine Befragung und den Fragebogen. Damit Sie es später mit den Lösungshinweisen vergleichen können, empfiehlt es sich, dass Sie möglichst alle Schritte bei Ihrer Planung aufschreiben. (Die Lösungshinweise für diese Aufgabe mussten wir wegen des großen Umfangs ins Internet-Begleitmaterial auslagern. Sie finden sie unter www.narr-studienbuecher.de.) 6 66 6 Das Experiment Das Experiment Das Experiment Das Experiment 6 66 6 .1 .1 .1 .1 Experimentelle Forschung Experimentelle Forschung Experimentelle Forschung Experimentelle Forschung In Bezug auf den Aufwand der Forscherin liegt das Experiment meist zwischen der Befragung und der Beobachtung. Es empfiehlt sich besonders, wenn eine Befragung wenig Erfolg versprechend ist, z.B. weil das untersuchte Verhalten gar nicht bewusst wahrgenommen wird, wenn es z.B. um Sprachverarbeitung geht. In der experimentellen Forschung manipuliert man eine Variable und betrachtet, ob eine Änderung in dieser unabhängigen Variablen eine Auswirkung auf eine andere Variable zeigt (die abhängige Variable). Als ein erstes, einfaches Beispiel können wir uns die folgende Frage stellen: „Beeinträchtigt Alkohol die Fahrtüchtigkeit? “ Das Alkoholbeispiel ist recht repräsentativ für die meisten Arten der Forschung, sogar im Bereich der Sprachlehrforschung. In der experimentellen Forschung würde man normalerweise damit anfangen, die Fahrtüchtigkeit nüchterner Menschen mit der solcher Menschen zu vergleichen, die etwas (oder eine Menge) getrunken haben. Man könnte zwei Gruppen bilden, eine Gruppe mit nüchternen Probanden und eine Gruppe von Leuten, die jeweils fünf Glas Bier getrunken haben. Dann bittet man sie, eine bestimmte Strecke zu fahren, und misst dabei, ob die nüchterne Gruppe besser fährt. Die Menge des getrunkenen Alkohols ist hierbei die unabhängige Variable, die vom Forscher manipuliert wird (der Forscher entscheidet, wer kein Bier trinkt oder fünf Gläser trinkt), und die Fahrtüchtigkeit ist die abhängige Variable, denn sie hängt ab von (und zeigt den Effekt) der Menge Bier, die man getrunken hat. Wir müssten natürlich die abhängige Variable operationalisieren, d.h. beschreiben, wie wir sie messen. Wir können die abhängige Variable in unserem Fall messen, indem wir unsere Probanden einen Slalom um eine Reihe Verkehrshütchen fahren lassen und die Anzahl der umgefahrenen Verkehrshütchen zählen, oder wir messen sie, indem wir die Zeit stoppen, die die Versuchsteilnehmer benötigen, um einen Kilometer Hütchenparcours zu fahren. In diesem Fall nehmen wir an, dass die Fahrer desto mehr Verkehrshütchen umfahren oder desto langsamer um die Hütchen fahren, je mehr Bier sie getrunken haben. Beispiel 82 6 Das Experiment Tabelle 1: Forschungsfragen, Variablen und ihre Operationalisierung Wenn man sich überlegt, wie man sein Experiment aufbaut, muss man eine Reihe von Aspekten berücksichtigen und festlegen: Die Forschungsfrage, die Variablen und wie sie operationalisiert werden sollen, die Versuchsteilnehmer (wie viele und welche Art von Personen sollen an dem Experiment teilnehmen, wie viele Gruppen), die Art von Ergebnissen, die wir erwarten, und womit wir sie vergleichen wollen, die Validität der Forschung (d.h. ob wir wirklich testen, was wir testen wollen) und ob wir die Ergebnisse des Experiments verallgemeinern können (d.h. ob wir uns sicher sein können, dass die Ergebnisse eine größere Bedeutung haben, die nicht nur für die Personen, die wir getestet haben, zutrifft). Wegen des hohen Aufwands bei einem Experiment kann man allerdings nicht dasselbe für die „Wahl der Stichprobe“ verlangen wie bei einer Befragung. Oft arbeitet man nur mit 30-50 Experimentteilnehmern, häufig sogar mit weniger. Aus unterschiedlichen Gründen hat es sich in der psycholinguistischen Forschung (wie in der Psychologie auch) eingebürgert, die eigenen Studierenden als Versuchspersonen zu nehmen, oft wird auch das Ableisten von „Versuchspersonenstunden“ von allen Studierenden verlangt. Unproblematisch ist dieses Vorgehen nicht, wenn man daraus Schlüsse auf die Repräsentation von Sprache bei allen Sprechern Forschungsfrage unabhängige Variable operationalisiert als beeinflusst abhängige Variable operationalisiert als Beeinflusst Alkohol die Fahrtüchtigkeit? Menge des Alkohols Anzahl der getrunkenen Gläser (0 - 5) → Fahrtüchtigkeit Anzahl von umgeworfenen Verkehrshütchen Sollte man die von Schülern gemachten Fehler korrigieren? Häufigkeit der Korrektur Lehrer korrigiert Fehler oder korrigiert sie nicht → grammatische Korrektheit Anzahl der in einem Test gemachten Fehler Welchen Effekt hat das Lehren in Gruppen mit heterogener Lernfähigkeit im Vergleich zu homogenen Gruppen auf die Sprechfertigkeit? Gruppenzusammensetzung zwei unterschiedliche Gruppen: eine gemischte und eine homogene → Sprechfertigkeit Ergebnisse bei einem Sprechtest Bestehen im mentalen Lexikon von Mehrsprachigen nur Beziehungen zwischen Wörtern oder auch zwischen Morphemen der einzelnen Sprachen? Status als Wort oder als Morphem Satzergänzung mit der korrekten Wortform nach kurzem Einblenden der anderen Sprache → nachweisbare Verbindung Fehleranzahl und/ oder Reaktionszeit 83 6.2 Der Entwurf des Forschungsvorhabens der jeweiligen Sprache ziehen will. Die Altersgruppen, Dialektgebiete, die Mehrsprachigkeit u.a.m. sind nicht so abgedeckt, wie man das bei einer nach dem Quotenverfahren zusammengestellten Stichprobe verlangen müsste. Auch in der Sprachlehrforschung wird meist mit den Unterrichtsgruppen/ Lehrpersonen experimentiert, die man für eine Teilnahme gewinnen kann, auch wenn sie nicht repräsentativ sind. Wichtig ist auf jeden Fall, dass man im Bericht über sein Experiment auf die Repräsentativität der gewählten Stichprobe kritisch eingeht. 6 66 6 .2 .2 .2 .2 Der Entwurf des Forschungsvorhabens Der Entwurf des Forschungsvorhabens Der Entwurf des Forschungsvorhabens Der Entwurf des Forschungsvorhabens Normalerweise möchten wir den Effekt der unabhängigen Variable (zum Beispiel Alkohol) auf die abhängige Variable (Fahrtüchtigkeit) einschätzen können. Wir stellen fest, ob es einen Effekt gibt, indem wir die Ergebnisse eines Tests in dem einen Zustand einer Variable (zum Beispiel in einem Fahrtest, bei dem die Anzahl der umgefahrenen Verkehrshütchen nach fünf Gläsern Bier gezählt wird, wobei die Variable „Menge des getrunkenen Alkohols“ ist) mit den Ergebnissen in einem anderen Zustand der gleichen Variable (zum Beispiel die Anzahl der Verkehrshütchen, die nach null Gläsern Bier umgefahren werden, d.h. von nüchternen Fahrern) vergleichen. Wir können eine Gruppe von Probanden in dem einen Zustand (betrunken) und eine andere Gruppe von Probanden in einem anderen Zustand (nüchtern) nehmen. In diesem Fall sprechen wir von einem Unabhängige-Gruppen- Design. Alternativ können wir nur eine Gruppe verwenden, die wir zuerst nüchtern und später nach fünf Gläsern Bier testen. In diesem Fall wiederholen wir den Test; wenn die Probanden in beiden Zuständen teilnehmen, sprechen wir von einem Messwiederholungsdesign. Beide Verfahren haben offensichtlich jeweils einen speziellen Nachteil. Die beiden unabhängigen Gruppen sind möglicherweise von vorneherein nicht völlig gleich gut im Slalomfahren, und die Gruppe mit der wiederholten Messung hat den Parcours ja schon nüchtern geübt, wenn sie ihn betrunken fährt. Wenn von der Anlage des Experiments her beide Möglichkeiten bestehen, muss man sich überlegen, welcher der beiden Effekte das Ergebnis stärker verfälschen würde, und dann das andere Verfahren wählen. Der Aufwand, der mit einem Experiment verbunden ist, verbietet es normalerweise, beide Möglichkeiten auszuprobieren. 1 In beiden Fällen vergleichen wir zwei Zustände derselben Variable („Menge von Alkohol“). Wir können natürlich mehr verschiedene Zustände (Ebenen) einführen, beispielsweise Versuchsteilnehmer mit null Gläsern Bier, mit fünf und mit zehn Gläsern. In diesem Fall sagen wir, dass die unabhängige Variable drei Ebenen hat. Das ist vor allem wichtig, wenn wir die Ergebnisse interpretieren möchten - in jedem dieser drei Fälle (abhängige 1 Eine Möglichkeit, diesen Effekt einigermaßen auszugleichen, wäre, die Hälfte der Teilnehmer an einem Tag im betrunkenen Zustand, die andere Hälfte im nüchternen Zustand fahren zu lassen, und dies einige Tage später umgekehrt machen zu lassen. Welches Design? n n 84 6 Das Experiment Gruppen, unabhängige Gruppen oder drei Ebenen der unabhängigen Variable ) würden wir einen anderen statistischen Test verwenden, wie wir im Ka pitel 10 besprechen. Um ein Beispiel aus dem Bereich der linguistischen Forschung zu bringen, nehmen wir an, dass wir herausfinden möchten, ob Alkohol einen positiven oder einen negativen Effekt auf die Aussprache hat. Vielleicht haben wir sogar eine Hypothese darüber. So empfinden es beispielsweise einige Leute als „komisch“, die richtige Intonation im Englischen anzuwenden, weil die Anwendung der gesamten Reichweite der britisch-englischen Intonation auf sie recht übertrieben wirkt. 2 Man könnte also behaupten, dass mit ein bisschen Alkohol, sagen wir ein oder zwei Gläsern, die Personen ihre Hemmungen verlieren und sich trauen, freier zu sprechen, und deshalb eine bessere Intonation haben. Wenn man jedoch zu viele Gläser getrunken hat, neigt die Aussprache dazu, undeutlich zu werden, was zu einer weniger akzeptablen Intonation führt. 3 Ein Einfluss der unabhängigen Variable auf die abhängige muss also nicht linear sein, muss nicht die Form von „je mehr X, desto mehr/ weniger Y“ haben. Um unsere Theorie zu überprüfen, führen wir ein Experiment durch, in dem die unabhängige Variable (mit 6 Ebenen, d.h., die unabhängige Variable ist operationalisiert als eine variierende Anzahl von 2-cl-Gläsern Sherry, nämlich 0 - 1 - 2 - 3 - 4 - 5) „Alkoholmenge“ ist. Die abhängige Variable ist „Intonation“, operationalisiert als eine Note, die von einer Anzahl erfahrener Sprachtester nach dem Vorlesen eines englischen Textes vergeben wird. 4 Wir suchen uns also zehn Studierende im ersten Studienjahr aus und bitten sie, einen Text vorzulesen (in nüchternem Zustand, die Forscherin muss also sicherstellen, dass sie wirklich nichts getrunken haben), und nehmen sie beim Vorlesen auf. Dann geben wir ihnen ein Glas Sherry und lassen sie wieder einen Text vorlesen, den wir wieder aufnehmen. Und so fahren wir fort, bis wir sie nach dem fünften Glas Sherry und dem sechsten Vorlesen nach Hause gehen lassen (oder sie vielleicht besser nach Hause bringen). Am Schluss haben wir sechzig Aufnahmen gesammelt, die wir zwei oder drei erfahrenen „Intonationsrichtern“ vorlegen mit der Bitte, diese auf einer 10- Punkte-Skala zu bewerten, wobei 10 exzellent und 1 sehr schlecht ist. Wir nehmen dann den Mittelwert der Noten, die von den zwei oder drei „Intonationsrichtern“ für jedes Vorlesen jedes einzelnen Probanden gegeben wurden, und stellen die Ergebnisse in einer Tabelle (Tabelle 2) dar oder plotten die Beispielsweise ist die Differenz zwischen „hoher“ und „niedriger“ Intonation im Niederländischen eine halbe Oktave, im britischen Englischen jedoch eine ganze. Deshalb finden niederländische Schüler es häufig „komisch“ und ein wenig peinlich, die „Höhen“ und „Tiefen“ zu sprechen, und haben daher eine recht flache Intonation. Auch in der Muttersprache, vgl. für genauere Aufschlüsse darüber die Arbeiten von Angelika Braun in H. J. Künzel, A. Braun und U. Eysholdt, 1992. Einfluß von Alkohol auf Sprache und Stimme. Heidelberg: Kriminalistik-Verlag. Selbstverständlich wissen diese Sprachtester nicht, welche Texte von nüchternen und welche von betrunkenen Vorlesern stammen. nicht-lineare Effekte n n 85 6.2 Der Entwurf des Forschungsvorhabens Mittelwerte in einem Graphen (Abb. 1). Wir sehen, mehr als ein Glas Sherry ist der Intonation nicht zuträglich. (Wie man weiter mit diesen Daten umgeht, lesen Sie in den Kapiteln 8 und 10.) Tabelle 2: Noten für die Intonation nach 0 bis 5 Gläsern Sherry Gläser 0 1 2 3 4 5 John 70 75 70 65 65 40 Peter 65 65 65 60 60 40 Ellis 60 60 60 55 55 35 Sara 70 75 60 50 50 40 Martin 65 70 55 45 45 40 Matty 50 65 50 40 45 35 Eve 60 60 45 40 40 20 Nancy 90 90 80 80 60 50 Adam 85 85 75 75 55 45 Mike 80 90 85 50 60 40 Mittelwert 7,0 7,4 6,5 5,6 5,4 3,9 Abb. 1: Mittelwerte der Intonationsbewertung In der linguistischen Forschung gibt es verschiedene Arten von Experimenten; insbesondere in der Psycholinguistik wird üblicherweise mit Experimenten gearbeitet. Die Sprachlehrforschung führt vornehmlich Experimente zum Lernverhalten durch, z.B. im Rahmen der Wirksamkeitsforschung (ist Methode X oder Methode Y besser? ). Wir erläutern die methodischen Probleme im Folgenden anhand von Fragestellungen aus der Sprachlehrforschung und 86 6 Das Experiment geben im Anschluss einen kurzen Überblick über einige häufig benutzte Experimentformen in der Psycholinguistik. Die meisten Forschungsstrategien tragen in irgendeiner Weise Züge des Experimentellen. Daher ist es schwierig, eindeutig zu bestimmen, wann von einem Experiment gesprochen werden kann. Im Experiment werden eine oder mehrere unabhängige Variablen unter kontrollierten Bedingungen so verändert, dass sich dadurch die Möglichkeit ergibt, die Hypothese, die der Durchführung des Experiments bzw. dem Experiment zugrunde liegt und die einen Kausalzusammenhang zwischen Phänomenen behauptet, in unterschiedlichen Situationen zu überprüfen. Ein gutes Experiment ist wiederholbar, d.h. wenn jemand anderes mit anderen Versuchsteilnehmern (in der Psycholinguistik meist auch: anderem Testmaterial, anderen Sprachen usw.) versucht, dasselbe Ergebnis zu erzielen, gelingt dies (es ist also zuverlässig, s. Kapitel 2). Wenn die Wiederholung eines Experiments nicht dieselben Ergebnisse erbringt, muss man annehmen, dass die Hypothese, die das Experiment stützen wollte, zumindest nicht für alle möglichen Bedingungen gilt. Das Besondere an einem Experiment besteht darin, dass man versucht, alle Faktoren zu kontrollieren, die auf die Daten, die man erheben will, einen Einfluss haben könnten. Das Experiment weist gegenüber der Beobachtung und der Befragung drei entscheidende Vorteile auf: 1. Ein Experiment bietet die Möglichkeit, Versuchsteilnehmer und Materialien in einen künstlich gestalteten Prozess einzufügen und damit viele Einzelheiten zu kontrollieren. 2. In einem Experiment kann man auch extreme Situationen konstruieren, die die zu prüfende Hypothese und deren Voraussagen unter schwierigsten Bedingungen testen. 3. Das Experiment benutzt naturwissenschaftliche Methoden, um Kausalbeziehungen festzustellen. In der Linguistik sind es zum Beispiel Messungen von Reaktionszeiten, die die naturwissenschaftliche Basis bieten, in der Sprachlehrforschung sind es meist Resultate in Fertigkeitstests. Wenn es bei einer Untersuchung nicht gelingt, die notwendigen strengen methodischen Vorgaben (s.u.) zu erfüllen, weil man etwa nicht alle Einflussfaktoren kontrollieren kann (bei natürlichen Gesprächen, im normalen Unterricht u.ä. ist das oft nicht möglich), die Untersuchung jedoch ansonsten wie ein Experiment angelegt ist, hat es sich eingebürgert, von einer „Fallstudie“ zu sprechen. 5 Eine Fallstudie ist also kein Experiment, aber auch sie kann helfen, neue Erkenntnisse über eine Fragestellung zu gewinnen, und für eine Magister- oder Examensarbeit ist eine gut gemachte Fallstudie durchaus akzeptabel. Oft beginnt man in der Sprachlehrforschung mit einer Fallstudie, in der das Verhalten von wenigen Personen untersucht wird. Das hat den Vor- 5 Daneben gibt es andere Arten von Fallstudien, gerade in der qualitativ vorgehenden Forschung, auf die wir aus den im einleitenden Kapitel genannten Gründen nicht eingehen. Definition Vorteile des Experiments Fallstudien 87 6.2 Der Entwurf des Forschungsvorhabens teil, dass man viel detaillierter auf einzelne Lernende eingehen kann und somit Lernprozesse und -ergebnisse aufdecken, die bei der Betrachtung einer größeren Gruppe von Menschen nicht zugänglich wären. Auf der Basis der Ergebnisse der Fallstudie kann man dann sein Experiment planen. 6 66 6.2.1 .2.1 .2.1 .2.1 Vorbereitungen für ein Experiment Vorbereitungen für ein Experiment Vorbereitungen für ein Experiment Vorbereitungen für ein Experiment Bevor man überhaupt mit einem Experiment beginnen kann, müssen folgende Voraussetzungen erfüllt sein: 1. Die dem Forschungsproblem entsprechenden Variablen müssen identifiziert sein. 2. Es muss eine Hypothese über eine Kausalbeziehung aufgestellt werden. Diese Kausalbeziehung soll einen Zusammenhang zwischen verursachenden Faktoren - unabhängigen Variablen - und bewirkten Faktoren - abhängigen Variablen - zeigen. 3. Die zu betrachtenden Variablen müssen von anderen Variablen isolierbar sein. 4. Die jeweils zu untersuchende unabhängige Variable muss variierbar sein. 5. Es muss gewährleistet sein, dass solche Manipulationen - Variationen der unabhängigen zu beobachtenden Variablen - wiederholt werden können. Die betrachteten Faktoren können so variiert werden, dass sie entweder vorhanden oder abwesend sind (die Fahrer sind nüchtern oder nicht), oder dass sie in unterschiedlich großem Maße vorhanden sind (die Fahrer haben ein, zwei, drei, vier, fünf usw. Glas Bier getrunken). Dies klingt zunächst einmal sehr theoretisch; wir wollen es daher anhand eines Beispiels illustrieren. Angenommen, in unserem Experiment ginge es um die beste Methode für das Lernen unbekannter Vokabeln. Dann kommen außer der Lehrmethode auch andere Faktoren infrage, die ebenfalls einen Einfluss auf das Lernergebnis haben könnten, z.B. der Schwierigkeitsgrad der zu lernenden Vokabeln und die Intelligenz der Lerner, denen wir die Vokabeln beibringen, oder selbst Dinge wie die Tageszeit der entsprechenden Schulstunde (liegt die Stunde so spät, dass die Schüler kaum noch aufnahmefähig sind? ). Diese Störvariablen (s. Kapitel 2) müssten dann im Experiment kontrolliert werden. Wir würden die Hypothese aufstellen, dass es eine Kausalbeziehung gibt zwischen der Lehrmethode und dem Lernerfolg bei den Schülern. Diese Hypothese könnte z.B. so aussehen, dass wir sagen, Vokabeln werden am besten in Wortfeldern gelernt und erheblich schlechter in alphabetischen Listen. Unsere beiden betrachteten Variablen sind dann also Lehrmethode (unabhängige Variable) und Lernerfolg (abhängige Variable). Alle anderen unabhängigen Variablen müssen wir konstant halten. Das kann man in diesem Fall z.B. folgendermaßen gewährleisten: Man lässt dieselbe Schülergruppe unter Anleitung derselben Experimentatorin zur selben Tageszeit jeweils mit den beiden Lehrmethoden die einzelnen Vokabeln lernen. Man sorgt dafür, dass die Vokabeln gleich schwer sind, indem man als „Vokabeln“ Beispiel 88 6 Das Experiment sinnlose Buchstabenfolgen jeweils gleicher Länge präsentiert (z.B. soka = Klavier, tifu = Zelt). Auch die Zusammensetzung der Buchstabenfolgen muss dann in jeder der Bedingungen gleich sein (z.B. Konsonant-Vokal-Konso nant-Vokal). Es wird nicht schwer fallen, die unabhängige Variable zu variieren, wir verwenden einfach die zwei verschiedenen Lehrmethoden. Die Vermittlung geschieht nicht in normalem Unterricht, sondern die Schüler üben in Einzelarbeit anhand von Lernmaterial, das man ihnen schriftlich präsentiert, jeweils gleich lange jeweils die gleiche Anzahl ihrer „Vokabeln“. Auch die Wiederholbarkeit ist in diesem Fall kein Problem. Man kann dasselbe problemlos mit anderen Schülergruppen noch einmal durchführen. Den Lernerfolg operationalisieren wir als die Anzahl der nach drei Tagen noch wiedererkannten Vokabeln in einem Übersetzungstest. Der Lernerfolg wird nicht einfach nur anwesend oder abwesend sein, sondern wir nehmen an, dass je nach verwendeter Lehrmethode ein gewisser Prozentsatz der gelernten Vokabeln behalten wurde, wobei wir vorhergesagt haben, dass die in Wortfeldern gelernten Vokabeln den höchsten Prozentsatz erreichen werden. Unsere Hypothese wäre also widerlegt, wenn bei der anderen Lernmethode mehr „Vokabeln“ behalten werden, aber auch wenn es keine signifikanten Unterschiede in der Erfolgsrate zwischen den beiden Methoden gibt. 6 66 6.2.2 .2.2 .2.2 .2.2 Labor Labor Labor Labor- -- v vv v s. Feldexperiment s. Feldexperiment s. Feldexperiment s. Feldexperiment Dieses Beispiel war ein Fall für ein Laborexperiment, denn wir haben den Sachverhalt bzw. Vorgang systematisch vereinfacht, damit wir reine Bedingungen erhalten. Die Situation ist künstlich, um sicherzustellen, dass kein anderer als der zu untersuchende Faktor sich auswirkt. Die Schüler können die Vokabeln nicht zufällig in den drei Tagen bis zum Behaltenstest noch einmal aufschnappen, denn sie sind frei erfunden. Sie können auch nicht motiviert sein, bestimmte Vokabeln besser zu lernen als andere, denn sie wissen ja, dass sie alle diese „Vokabeln“ niemals außerhalb des Experiments benutzen werden. Solche Verfahren werden von vielen Sprachlehrforscherinnen abgelehnt, denn es ist nicht erwiesen, dass sich Lerner in einer für sie so ungewöhnlichen Situation gleich verhalten wie in ihrer normalen Lernsituation, d.h. die Aussagefähigkeit der Ergebnisse solcher Experimente für die normale Unterrichtspraxis wird angezweifelt. Man spricht dagegen von Feldexperimenten, wenn der zu untersuchende Gegenstand nicht aus seiner natürlichen Umgebung herausgelöst wird. Dies zu erreichen stellt allerdings eine erhebliche Schwierigkeit dar. Bezogen auf unser Beispiel müsste man seine Experimente in echten Unterrichtssituationen durchführen. Dabei gibt es normalerweise eine große Anzahl von sogenannten intervenierenden Variablen. Damit sind Störfaktoren gemeint, die die Ergebnisse des Experiments verfälschen können. Wenn wir in realen Unterrichtssituationen das Fremdsprachen-Lernverhalten von Schülern untersuchen, dann können wir keine Unterrichtssituation für eine Kunstsprache Laborexperiment Feldexperiment 89 6.2 Der Entwurf des Forschungsvorhabens mit für unser Experiment „idealen“ (d.h. gleichartigen, niemandem vorher bekannten, keine etymologischen (o.ä.) Zusammenhänge aufweisenden etc.) Vokabeln herbeiführen, sondern wir müssen zwangsläufig den Unterricht in einer natürlichen Sprache studieren. Allein dadurch ergibt sich jedoch schon eine Reihe intervenierender Variablen, die das Ergebnis des Experiments verzerren: Manche Schüler kennen schon einige der Vokabeln, andere assoziieren Bedeutungen anhand von ähnlichen Wörtern, die sie schon kennen, wieder andere lernen - unbeeinflussbar von der Experimentatorin - während des Experiments Vokabeln durch den Umgang mit anderen Schülern (z.B. Brieffreunden) oder durch das Lesen zusätzlicher Lehrbücher oder Lexika, Hören von Pop-Songs u.ä. Auch die Reproduzierbarkeit des Experiments leidet, da bei denselben Schülern der Vorrat an gleichartigen Vokabeln aus dem in der Unterrichtsprogression jeweils anstehenden Lernstoff ausgeht, bzw. wenn man dieselben Vokabeln von anderen Schülern lernen lässt, kommen neue Personen mit anderen sprachlichen und sozialen Hintergründen als Störfaktoren dazu usw. Aber nicht nur Verhaltensweisen der Schüler beeinflussen das Experiment „im Feld“. Wenn „normaler Unterricht“ beobachtet werden soll, gibt es auch immer die Lehrperson als möglichen Störfaktor. Die Lehrperson wird sich sicher bemühen, so nach den zu untersuchenden Methoden zu unterrichten, wie man es von ihr erbittet, aber sie unterrichtet begreiflicherweise schlechter mit Methoden, die sie nicht kennt oder die ihr nicht liegen. 6 66 6.2.3 .2.3 .2.3 .2.3 Kontrollgruppen Kontrollgruppen Kontrollgruppen Kontrollgruppen Wenn man Feldexperimente durchführt, arbeitet man daher üblicherweise mit sogenannten Kontrollgruppen. Man findet in der didaktischen Literatur häufig Berichte von Lehrpersonen, die mit einer neuen Lehrmethode bei ihren Schülern hervorragende Lernerfolge erzielt haben. In solchen Fällen ist wissenschaftlich nicht überprüfbar, ob tatsächlich besondere Lernerfolge erreicht werden und ob diese tatsächlich auf die neue Methode und nicht etwa auf die neue Lehrperson, oder auf eine bessere Motivation durch einen Methodenwechsel oder gar durch einen Wechsel der Räumlichkeiten o.ä. zurückzuführen sind. Es ist ja außerdem keineswegs so, dass nur mit dieser Lehrmethode irgendwelche Erfolge erzielt werden oder dass Schüler, die nach anderen Lehrmethoden unterrichtet werden, niemals so gut die entsprechende Fremdsprache lernen wie die mit dieser speziellen Methode unterrichteten. Um die These, eine bestimmte Methode sei erfolgreicher als andere, in einem Feldexperiment wissenschaftlich zu überprüfen (d.h. zu validieren oder zu falsifizieren), geht man normalerweise so vor, dass man zwei möglichst gleich starke Gruppen von Lernenden gleichzeitig mit vergleichbaren Lehrpersonen einen vergleichbaren Stoff lernen lässt (also ein „unabhängige Kontrollgruppen 90 6 Das Experiment Gruppen-Design“). 6 Selbstverständlich müssen auch beide Gruppen vor Beginn der Untersuchung auf demselben Sprachstand gewesen sein. Die eine Gruppe wird dann mit der neuen Methode unterrichtet, die andere Gruppe mit der herkömmlichen und fungiert so als Kontrollgruppe. Am Ende der Untersuchung werden die Lernerfolge der beiden Gruppen verglichen. Die Hypothese wird durch das Experiment gestützt (d.h. die neue Methode ist besser), wenn die Ergebnisse der Experimentalgruppe erheblich besser sind als die der Kontrollgruppe. Selbstverständlich muss so etwas im Prinzip wiederholt werden, um Zufälligkeiten ausschließen zu können. Bedauerlicherweise ist es in der didaktischen Literatur allerdings schon selten, dass überhaupt mit Kontrollgruppen gearbeitet wird. Ein empfehlenswertes Design für ein solches Experiment sieht so aus: Methode 1 Methode 2 Gruppe A Vokabelset X Vokabelset Y Gruppe B Vokabelset Y Vokabelset X Dieses Design, das man latin square oder lateinisches Quadrat nennt, ermöglicht es recht gut, die Effekte eines eventuell leichter zu lernenden Vokabelsets oder einer begabteren/ motivierteren Gruppe von denen der Lehrme thode zu trennen. Es kommt auch vor, dass man nicht zwei unterschiedliche Methoden vergleichen will, dass man aber beweisen will, dass eine Maßnahme überhaupt einen Effekt hat. Auch in diesem Fall muss man mit Kontrollgruppen arbeiten. Angenommen, es sollte untersucht werden, ob die Lernergruppe Angst vor dem Sprechen in der Fremdsprache abbaut, wenn man vor Beginn jeder Unterrichtsstunde 5 Minuten Entspannungsübungen macht, so wäre es höchst angreifbar, wenn man die Sprechangst der Lerner (z.B. mit Fragebögen) misst, dann drei Wochen lang Entspannungsübungen vor dem Unterricht durchführt und danach wieder die Sprechangst mit dem Fragebogen misst. Selbst wenn die meisten Sprachkursteilnehmer nach den drei Wochen angeben, weniger Sprechangst zu haben, kann der Effekt ja einfach darauf beruhen, dass man sich an die anderen Mitglieder des Sprachkurses und an das Sprechen in der Fremdsprache gewöhnt hat, dass man Fortschritte in der Sprechfertigkeit gemacht hat, die das Sprechen erleichtern, usw. Es wäre also zu beweisen, dass die Experimentalgruppe, in der die Entspannungsübungen gemacht wurden, im Vergleich zu einer Kontrollgruppe, die nur den normalen Unterricht hatte, aber ansonsten alles gleich, statistisch signifikant weniger Sprechangst aufweist. Dazu muss man natürlich eine andere Gruppe mit ! Das „Messwiederholungsdesign“ ist auch möglich, aber in der Realsituation des Unterrichts meist schwieriger durchzuführen. Man kann die Schüler nicht dasselbe noch einmal mit einer anderen Methode lernen lassen; gleich schwierigen neuen Lernstoff zu finden, ist nicht so einfach, und zudem ändert sich in der Zeit, die zwischen den beiden Messungen vergeht, die Jahreszeit und damit die Motivation für den Unterricht, das allgemeine Sprachwissen, die allgemeine Sprachlernfähigkeit usw. Lateinisches Quadrat Prätest/ Posttest 91 6.2 Der Entwurf des Forschungsvorhabens ähnlichem Niveau und ähnlich großer Sprechangst als Kontrollgruppe finden. In Laborexperimenten hat man bessere Möglichkeiten, seine Gruppen einwandfrei zusammenzustellen. Wenn man ohnehin nicht im realen Unterricht mit den tatsächlich existierenden Unterrichtsgruppen arbeitet, kann man seine Versuchspersonen so in die Experiment- und Kontrollgruppe einteilen, dass von Paaren von in allen relevanten Merkmalen möglichst ähnlichen Personen jeweils eine Person in die Experiment- und eine in die Kontrollgruppe kommt. 6.2.4 6.2.4 6.2.4 6.2.4 Probleme Probleme Probleme Probleme Bei Feldexperimenten ist die Kontrollierbarkeit oft außerdem schlecht, weil Effekte der „self-fulfilling prophecy“ (vgl. dazu Kapitel 2.6.1) die Situation beeinflussen. Um hierfür ein Beispiel zu geben, können wir wieder auf unsere exemplarische Untersuchung einer neuen Lehrmethode zurückkommen: Die Experimentalgruppe weiß, dass sie nach einer neuen Methode unterrichtet wird. Auch die Lehrperson weiß das. Das kann die Motivation der Gruppe und der Lehrperson so erhöhen, dass bessere Ergebnisse erzielt werden als bei der Kontrollgruppe, ohne dass dies tatsächlich auf die Methode an sich zurückzuführen wäre. Jedes Sich-Einstellen der Versuchspersonen auf ihre Situation im Experiment kann ihr Handeln beeinflussen. Ein zweites Argument, das oft gegen Experimente angeführt wird, ist das der Selektivität. Damit ist gemeint, dass das Experiment die unterschiedlichen Faktoren, die alle in der Wirklichkeit eine Rolle spielen, unvollkommen berücksichtigt. Das Experiment betrachtet einen bestimmten Bereich des menschlichen Handelns isoliert, aber die in dieser isolierten Situation bewiesene Hypothese ist u.U. keine richtige Hypothese für die Realsituation, in der mehr Faktoren wirksam sind, als das Experiment berücksichtigen konnte. Nehmen wir als Beispiel noch einmal den bereits erwähnten Fall, dass wir die Effektivität von Vokabel-Lehrmethoden testen wollen. Um nur und wirklich nur die Methode als beeinflussenden Faktor zu isolieren, lassen wir bezahlte Versuchspersonen nach unterschiedlichen Methoden jeweils 20 Kunstwörter lernen. So etwas wurde durchaus unternommen, und es kam dabei heraus, dass eine bestimmte Art des Lernens der Vokabeln, die Schlüsselwort- Methode, bei der die Versuchspersonen zu jedem zu lernenden Wort ein Bild assoziierten, das einen Zusammenhang zur Lautform hat, die besten Lernerfolge verzeichnen konnte. Überraschenderweise war dieser Effekt der Schlüsselwortmethode aber im normalen Unterricht nicht nachzuweisen. 7 S. Ott, Eric C. et al. 1973. The effect of interactive-image elaboration on the acquisition of foreign language vocabulary. Language Learning - A Journal of Applied Linguistics, 23-2, 199; Levin, J. R. et al. 1979. Assessing the classroom potential of the keyword method. Journal of Educational Psychology 71, 583-594; Fuentes, E. J. 1976. An investigation into the use selbsterfüllende Prophezeiung Aussagefähigkeit 92 6 Das Experiment Das kann viele Gründe haben. Vielleicht lernt man Wörter einer existierenden Sprache doch ein bisschen anders als Kunstwörter, weil man beim Lernen von Wörtern einer existierenden Sprache meist Lernstrategien benutzen kann, die auf der Ähnlichkeit des zu lernenden Wortes mit bereits gelernten aus derselben oder einer anderen Sprache beruhen. Es kann auch sein, dass bei einer bezahlten Versuchsperson und dem Lernen von ohnehin sinnlosen Silben nur externe Motivation eine Rolle spielt (man will sein Versuchspersonen-Honorar erhalten, und deshalb erfüllt man die als sinnlos angesehene Aufgabe), während es in der echten Sprachlernsituation eine große Rolle spielt, ob die Methode motivierend ist, ob sie sich gut in den Gesamtprozess des Unterrichts einfügt, ob man sie konsequent einsetzt oder (weil als zu aufwändig empfunden) nur sehr gelegentlich usw. Oder vielleicht gibt es ganz andere Gründe für dieses Ergebnis, die wir hier nicht bedacht haben. Es kann also durchaus sein, dass wir bei von Experimenten validierten Hypothesen nicht ohne weiteres behaupten können, dass sie für die Realsituation gültig sind. 6 66 6 .3 .3 .3 .3 Mehrfaktorielle Fragestellungen Mehrfaktorielle Fragestellungen Mehrfaktorielle Fragestellungen Mehrfaktorielle Fragestellungen Bis jetzt haben wir uns vor allem nur mit einer unabhängigen Variable beschäftigt. Aber es kann auch vorkommen, dass wir ein Forschungsprojekt haben, in dem wir zwei oder mehr unabhängige Variablen benutzen müssen, jede mit einer oder mehreren Ebenen. Nehmen wir als Beispiel wieder die Frage, wie man das Vokabular einer Fremdsprache lehren sollte. Soll man die Übersetzung der unbekannten Wörter in einem Text angeben, oder soll man eine Definition der Bedeutung der unbekannten Wörter in der Fremdsprache bereitstellen? Wenn man nun ein Forschungsprojekt zur Beantwortung dieser Frage durchführen möchte, wäre die unabhängige Variable „Vokabellehrmethode“, welche als „eine Übersetzung geben“ oder als „eine Beschrei bung in der Fremdsprache geben“ operationalisiert werden könnte. Wenn man sich nun überlegt, wie das Ergebnis wahrscheinlich aussehen wird, könnte man zu der Schlussfolgerung gelangen, dass die Antwort zur Forschungsfrage auch davon abhängt, um welche Art von Wörtern es sich handelt, d.h., ob es sich um konkrete oder abstrakte Wörter handelt. Eine Beschreibung in der Fremdsprache könnte bei abstrakten Wörtern weniger effektiv sein als bei konkreten. In diesem Fall entscheidet man sich womöglich für zwei unabhängige Variablen, wobei die zweite „Konkretheit“ wäre, die dann als „Konkreta“ und „Abstrakta“ operationalisiert würde. Wir hätten dann zwei Variablen („Vokabellehrmethode“ und „Konkretheit“), jede mit zwei Ebenen. Wenn man mehr als eine unabhängige Variable hat, braucht man eine Methode, um die statistische Analyse mit mehreren unabhängigen of imagery and generativity in learning foreign language vocabulary. Dissertation Abstracts International 37/ 5, 2694A. mehrere Faktoren 93 6.3 Mehrfaktorielle Fragestellungen Variablen und mit einer oder mehreren abhängigen möglich zu machen. Die Anwendung dieser Verfahren setzt jedoch eine eingehende Beschäftigung mit statistischen Grundlagen voraus, und hier sollte nur ein Überblick gegeben werden. Ein Beispiel für unsere Analyse nach mehreren Faktoren finden wir schematisch in Abbildung 3. "# $% &% ' # Abb. 3: Mehrfaktorielles Design Man kann versuchen, die Forschungsfrage zu beantworten, indem man je 20 konkrete und abstrakte Wörter auf zwei verschiedene Arten lehrt: Einmal, indem man eine Übersetzung gibt, und einmal, indem man eine Definition gibt. Damit haben wir dann 2 x 2 = 4 Zellen in unserer Matrix. In der Praxis kann dies dann auf verschiedene Weisen ausgeführt werden: 1. Wir können vier Schülergruppen haben, und jede Gruppe bekommt eine der vier Varianten. 2. Wir können zwei Schülergruppen haben, wobei jede Gruppe mit der Übersetzung und mit der Definition der zu lernenden Wörter konfrontiert wird. 3. Wir können eine Schülergruppe nehmen, in der alle Schüler alle vier Varianten erhalten. Alle drei Möglichkeiten haben ihre Vor- und Nachteile. Bei Möglichkeit 1 benötigen wir nur 40 Wörter, 8 was eine ganze Reihe von Vorteilen hat, aber wir müssten sicherstellen, dass die Gruppen vergleichbar sind. Bei Methode 2 brauchen wir schon 80 gleich schwer zu lernende Wörter. 9 Nehmen wir aber Möglichkeit 3, so müssten wir 160 verschiedene Wörter haben und bei diesen ( Gruppe 1 bekommt 20 konkrete Wörter mit Übersetzung, Gruppe 2 dieselben konkreten Wörter mit Definition, Gruppe 3 20 abstrakte Wörter mit Übersetzung, und Gruppe 4 dieselben abstrakten Wörter mit Definition. ) Gruppe 1 lernt 20 konkrete Wörter mit Übersetzung und 20 andere konkrete Wörter mit Definition, Gruppe 2 lernt 20 abstrakte Wörter mit Übersetzung und 20 andere abstrakte Wörter mit Definition. praktische Umsetzung 94 6 Das Experiment sicherstellen, dass sie vom Schwierigkeitsgrad her gleichwertig sind. Dafür haben wir mit der Vergleichbarkeit der Schülergruppe hier keine Probleme. Welcher Möglichkeit die Forscherin den Vorzug gibt, muss sie von Fall zu Fall unter Berücksichtigung der Vor- und Nachteile bei der konkreten Aufgabenstellung neu entscheiden. Wie auch immer man sich entscheidet, ein mögliches Ergebnis wird in Tabelle 3 dargestellt. Diese gibt die Mittelwerte von jeder Ebene jeder Variable sowie die Mittelwerte für jede Variable an. Abbildung 4 zeigt eine grafische Darstellung derselben Ergebnisse. Tabelle 3: Ergebnisse aus einer mehrfaktoriellen Fragestellung Konkreta Abstrakta Mittelwert Übersetzung 20 10 15 Definition 15 5 10 Mittelwert 17,5 7,5 Wenn wir uns die Ergebnisse ansehen, scheint es so, dass der Lerneffekt am besten ist, wenn man eine Übersetzung gibt, und zwar sowohl für konkrete wie auch für abstrakte Wörter. Dabei spielt es für die Auswertung keine Rolle, dass die Abstrakta generell schlechter gelernt wurden. Abb. 4: Ergebnisse aus einer mehrfaktoriellen Fragestellung Man könnte natürlich auch andere Ergebnisse erhalten, zum Beispiel die, die in Abb. 5 gezeigt werden. Sollte ein solches Ergebnis entstehen, müssten wir sagen, dass eine Übersetzung bei konkreten und abstrakten Wörtern besser funktioniert, obwohl der Unterschied bei konkreten Wörtern nicht besonders groß ist, dafür aber bei den abstrakten. Weil die Linien nicht parallel verlaufen, sagen wir, dass es eine Interaktion zwischen „Vokabellehrmethode“ und „Art der Wörter“ gibt. Interaktion bedeutet, dass der Effekt der einen Va ri able abhängig ist vom Effekt der anderen. In diesem Fall würden wir sagen, n 95 6.4 Verbreitete Experimentformen in der Psycholinguistik dass es kaum einen Unterschied zwischen den beiden verschiedenen Vokabellehrmethoden gibt, außer bei abstrakten Wörtern. Abb. 5: Alternative Ergebnisse aus einer mehrfaktoriellen Fragestellung Ob die Ergebnisse, die wir ermittelt haben, signifikant sind, also wahrscheinlich nicht durch Zufall entstanden sind, müssen wir mit Hilfe der inferentiellen Statistik herausfinden. In einem Fall wie diesem würden wir eine Varianzanalyse (s. Kapitel 10.1) benutzen. 6 66 6 .4 .4 .4 .4 Verbreitete Experimentformen in der Psycholinguistik Verbreitete Experimentformen in der Psycholinguistik Verbreitete Experimentformen in der Psycholinguistik Verbreitete Experimentformen in der Psycholinguistik Bei psycholinguistischen Experimenten werden üblicherweise Reaktionszeiten und Fehlerquoten verglichen. Die zu prüfenden Hypothesen sind also immer der Art, dass gesagt wird, Faktor A sorge für längere Reaktionszeiten (und/ oder mehr Fehler) als Faktor B oder umgekehrt. Bei psycholinguistischen Experimenten gibt es zwar auch eine Vielzahl von möglicherweise intervenierenden Variablen, aber sie sind doch relativ leicht zu kontrollieren, indem man mögliche einflussnehmende Faktoren jeweils unter der „A“- und der „B“-Bedingung gleich hält. Ein ganz einfaches Beispiel für ein solches Experiment wäre, dass wir annehmen, bei der Sprachverarbeitung werde auf Morpheme zurückgegriffen. Diese Hypothese würde die Voraussage machen, dass das Erkennen mehrmorphemiger Wörter länger dauert als das Erkennen von Simplicia. 10 Eine Möglichkeit des Überprüfens dieser Hypothese wäre, dass wir Reaktionszeiten messen beim Erkennen von Wörtern, die aus mehreren Morphemen bestehen, und beim Erkennen von gleich langen Wörtern * Das Erkennen von Wörtern misst man meist in einer Experimentform, die „lexical decision“ bzw. „lexikalische Entscheidungsaufgabe“ genannt wird. Dabei sitzen die Versuchsteilnehmer vor einem Bildschirm, auf dem in zufälliger Abfolge tatsächliche Wörter und bedeutungslose Buchstabenfolgen, die von der phonologischen Form her Wörter der betreffenden Sprache sein könnten (glompf z.B. für das Deutsche), erscheinen. Sie müssen dann immer so schnell wie möglich auf eine Taste für „ja“ und eine andere für „nein“ drücken, wenn sie etwas als Wort oder Nichtwort erkannt haben. 96 6 Das Experiment derselben Buchstaben- und Silbenanzahl, die nur aus einem Morphem bestehen (z.B. Eisbär/ Gibbon). Nach unserer Hypothese müsste also die Reaktionszeit bei Eisbär länger sein, denn beim Erkennen müsste man auf zwei Morpheme zurückgreifen, als die bei Gibbon, denn das besteht nur aus einem Morphem. Dies gilt natürlich nur für den Fall, dass alle anderen Bedingungen, die die Reaktionszeit beeinflussen können, konstant gehalten werden. In diesem Fall wäre zwar die Länge in Buchstaben und die Silbenzahl gleich, jedoch ist Eisbär das häufiger gebrauchte Wort, das deswegen schneller erkannt werden müsste. Weil es nie gelingen wird, die zu kontrastierenden Elemente in jeder Hinsicht gleich zu halten, müssten diese Effekte im Experiment mit ca. 40 Wörtern in jeder der Gruppen so ausgeglichen werden, dass manchmal das einmorphemige und manchmal das mehrmorphemige Wort das häufiger gebrauchte ist und dass für die beiden Gruppen jeweils die durchschnittliche Frequenz konstant gehalten wird. Um also den Unterschied zwischen Eisbär und Gibbon auszugleichen, wird man z.B. auch ein Paar wie Schwein und Seehund, bei dem das einmorphemige Wort frequenter ist, aufnehmen. Die Häufigkeit von Wörtern ermittelt man über Häufigkeitswörterbücher oder -datenbanken; die gebräuchlichste dieser Datenbanken ist CELEX. 11 Es ist kaum möglich, in einer Einführung alle Arten von linguistischen Experimenten vorzustellen. Immerhin wollen wir einen kurzen Überblick über einige verbreitete Techniken geben. 6 66 6. .. .4 44 4.1 .1 .1 .1 Experimente zur Sprachproduktion Experimente zur Sprachproduktion Experimente zur Sprachproduktion Experimente zur Sprachproduktion Wenn es um Sprachproduktion geht, sind u.a. folgende Verfahren möglich: Texte/ Sätze laut lesen lassen: Dieses Verfahren hat nur Sinn, wenn kaum mehr als die Aussprache, Satzintonation u.ä. interessiert. Man kann Texte vorgeben, in denen die Aussprachephänomene enthalten sind, die einen interessieren, man muss jedoch bedenken, dass keineswegs sicher ist, dass die Sprecher beim freien Sprechen genauso artikulieren würden. Beim Vorlesen gibt es allerhand hyperkorrekte Aussprachen, die beim freien Sprechen nicht vorkommen. Einzelwörter vom Computerbildschirm ablesen lassen: Hier besteht die Möglichkeit, Reaktionszeiten zu messen, d.h. für verschiedene Gruppen von Wörtern zu überprüfen, wie lange es dauert, bis die Versuchsteilnehmer anfangen, das Wort auszusprechen. Zum psycholinguistischen Experimentieren brauchen Sie neben den an Ihrer Universität zugänglichen Möglichkeiten zur Frequenzermittlung der benutzten Wörter auch meist ein Programm, das am Computer das Stimulusmaterial präsentiert und gleichzeitig die Reaktionszeiten misst, etwa NESU oder ERTS. Dabei sind Sie auf das Programm angewiesen, das an Ihrer Universität vorhanden ist, und für die vorhandenen Programme wird es wohl Anleitungen geben. Insofern haben wir darauf verzichtet, hier eine genauere Einführung zu geben. Sprachproduktion 97 6.4 Verbreitete Experimentformen in der Psycholinguistik Sätze/ Äußerungen vervollständigen lassen: Bei diesem Verfahren bekommt man eine einigermaßen freie Sprachproduktion, aber man kann trotzdem bis zu einem gewissen Grad durch die Vorgabe steuern, was produziert wird. Die Möglichkeiten sind sehr variabel. Man kann Äußerungen so vorgeben, dass nur noch eine einzige Antwort möglich ist, z.B. Fritz bringt mich mit seinen dummen Witzen auf die ............., aber auch so, dass völlig verschiedene Reaktionen möglich sind, z.B. Wenn meine Eltern anderer Meinung sind als ich, dann .............. Häufig wird das Verfahren eingesetzt, wenn man Fehler oder Reaktionszeiten bei bestimmten grammatischen Formen messen will. Das kann man z.B. so arrangieren, dass man einen Satz in Einzelwörtern auf dem Computerbildschirm zeigt und dann das letzte Wort in einer Zitierform vorgibt und bittet, es in der im Satz korrekten Form auszusprechen. Dabei wird die Zeit gemessen, die die Versuchsteilnehmer brauchen, bis sie ihre Reaktion beginnen, und eventuell auch die Anzahl der Fehler, die sie dabei machen. So kann man z.B. Unterschiede in der Reaktionszeit oder in der Fehleranzahl bei regelmäßiger im Vergleich zu unregelmäßiger Flexion feststellen. Bei dieser Experimentform kann man auch mit maskierten Primes arbeiten. Damit ist gemeint, dass man einen Reiz kürzer als 60 Millisekunden einblendet, sodass er nicht bewusst wahrgenommen, aber trotzdem verarbeitet wird. So kann man zum Beispiel die Einflüsse einer Sprache auf die andere bei Mehrsprachigen überprüfen. Unmittelbar bevor das Wort in der gewünschten Sprache ausgesprochen werden soll, wird ein ähnliches Wort aus der anderen Sprache eingeblendet. Dadurch wird sichergestellt, dass dieses Wort aus der anderen Sprache auch aktiviert ist. Sein Einfluss muss sich dann in Reaktionszeiten oder Fehleranzahlen nachweisen lassen. Imitieren lassen: Man kann ganz verschiedene Imitationsaufgaben stellen; das geht von „einzelne Laute oder Wörter nachsprechen lassen“ bis „Sätze/ Texte reproduzieren“. Meist wird dieses Verfahren angewendet, wenn es darum geht, festzustellen, welche (oft auch unerwarteten) Merkmale der zu reproduzierenden Einheiten die Versuchsteilnehmer bemerken, ob sie also z.B. einen Laut korrekt nachsprechen oder ihn an einen Laut ihrer Muttersprache angleichen. Eine besondere Form dieser gelenkten Sprachproduktion nennt man shadowing. Dabei werden die Versuchsteilnehmer gebeten, alles, was sie hören, so schnell wie möglich nachzusprechen. Dabei kann man überprüfen, inwieweit sie fehlerhaft präsentierte Äußerungen „reparieren“, d.h. also z.B. nachsprechen: „Ich begrüße Sie“, obwohl ihnen „Ich beglüße Sie“ vorgesprochen wurde. Man kann dabei beobachten, dass die Versuchsteilnehmer ganz offensichtlich nicht papageienhaft reproduzieren, was ihnen vorgesprochen wurde, sondern ihr Sprachverarbeitungssystem dabei benutzen. Als unabhängige Variable kann man z.B. die Position des Fehlers im Wort/ in der Äußerung variieren und überprüfen, wie sich das auf die Anzahl der Reparaturen auswirkt. 98 6 Das Experiment Wortassoziationen nennen oder aufschreiben: Dabei werden Versuchsteilnehmer gebeten, so schnell wie möglich und ohne Reflexion die Wörter zu nennen/ aufzuschreiben, die ihnen zu einem Stimuluswort einfallen. Dabei wird Zeitdruck erzeugt, um ein bewusstes Aussuchen der genannten Wörter möglichst auszuschließen. Von diesem Verfahren hat man zunächst sogar angenommen, es könne dazu dienen, die Struktur des mentalen Lexikons wiederzugeben. 12 Es zeigt sich tatsächlich bei dieser Art von Experimenten, dass bei vielen Wörtern eine hohe Übereinstimmung zwischen Sprechern besteht in Bezug darauf, was sie als erste Assoziation nennen (z.B. zu Tisch Stuhl). Die als erste Assoziation genannten Wörter stehen oft in einer Oberbegriff/ Unterbegriff- oder Schwesterbegriff-Relation zu dem Stimulusbegriff. Gelegentlich werden auch typische Fortsetzungen (Hund - bellen) oder Kollokationen (Maßnahmen - ergreifen) genannt. Bei späteren Assoziationen werden sehr häufig Elemente von vorgestellten Situationen genannt (König - Königin - Schloss - Schlosscafé - Erdbeereis mit Sahne). Spätestens bei der letzten genannten Assoziation muss man bezweifeln, dass tatsächlich die Struktur des mentalen Lexikons durch diese Assoziationen gezeigt wird. Assoziationsexperimente wurden auch häufig mit Mehrsprachigen vorgenommen, teils um herauszufinden, welche Einflüsse vorgegebene Sprachwechsel haben oder bei welchen Gelegenheiten spontane Sprachwechsel auftreten, teils um herauszufinden, ob übersetzungsäquivalente Wörter auch übersetzungsäquivalente Assoziationen hervorrufen. Man hat die Tatsache, dass die Assoziationen recht stark übereinstimmen, auch benutzt, um für einzelne Sprachen sogenannte „Assoziationsnormen“ zusammenzustellen; darin kann man nachschlagen, welche Wörter besonders häufig zusammen genannt wurden (u.a. in: Hasselhorn/ Hager 1994. Handbuch deutschsprachiger Wortnormen. Göttingen: Hogrefe). Diese Listen von Assoziationsnormen werden bei Experimenten benutzt, bei denen „assoziierte Begriffe“ in Kontrast zu anderen, z.B. phonologisch oder semantisch ähnlichen, gesetzt werden. Bilder benennen: Das Benennen von Zeichnungen oder Fotos ist eine klassische Sprachproduktionsaufgabe, die man am Computer durchführen lassen muss, wenn man die Reaktionszeiten messen will, die man aber auch einfach anhand von vorgelegten Bildern durchführen kann, wenn es darum geht, überhaupt eine Äußerung zu produzieren. Der Nachteil des Verfahrens ist, dass man nur Dinge verwenden kann, die eindeutig zu zeichnen oder zu fotografieren sind, und das sind im wesentlichen konkrete Substantive. Bilder beschreiben / Geschichten erzählen anhand von Bildern / Unterschiede zwischen zwei Bildern nennen: Mit diesen Aufgaben kann man auch längere Texte erzeugen, allerdings per Computer nur die Reaktionszeit bis 12 Taylor, I. 1971. How are words from two languages organized in bilinguals´ memory? Canadian Journal of Psychology 25, 228-240. 99 6.4 Verbreitete Experimentformen in der Psycholinguistik zur Produktion des ersten Wortes messen. Gerade das Benennen von Unterschieden zwischen zwei Bildern ist aber geeignet, auch bestimmte grammatische Formen zu elizitieren. Wenn man z.B. bei zwei geeigneten Bildern fragt „Was ist zwischendurch passiert? “, kann man Partizipien II elizitieren („Das Haus ist eingestürzt“). Nacherzählungen (anhand von gehörten/ gelesenen Erzählungen, Videos u.a.): Auch hier kann man seine Vorgaben so wählen, dass bestimmte Wörter, bestimmte grammatische Phänomene vorkommen müssten, die man in der freien Sprachproduktion erhalten will. Bei derartigen Vorgaben ist es ganz besonders wichtig, mit mehreren Personen aus dem Bekanntenkreis auszuprobieren, ob die gewünschten Phänomene tatsächlich elizitiert werden. Man kann sich gar nicht vorstellen, wie viele Möglichkeiten Versuchsteilnehmer finden, um die gewünschten sprachlichen Phänomene zu vermeiden. Rollenspiele: Rollenspiele werden recht häufig eingesetzt zur Erhebung von kommunikativen Strategien, wenn die Beobachtung in der realen Situation fast unmöglich ist (z.B. bei Geschäftsverhandlungen u.ä.). Man muss dabei allerdings bedenken, dass Personen sich üblicherweise in Rollenspielen nicht wie in realen Situationen verhalten. 13 Meist gelingen mit dieser Methode eher Fallstudien als Experimente, weil es kaum möglich ist, in einer so komplexen Kommunikationssituation wirklich alle möglicherweise intervenierenden Variablen zu kontrollieren. Stroop-Tests: Dieses Verfahren gibt über die Sprache eine andere Information als über ein gleichzeitig gegebenes Bild, damit untersucht werden kann, wie sich die damit verbundene Störung auf die Reaktionszeiten und/ oder die Fehleranzahl auswirkt. In der einfachsten Form des Tests werden die Versuchsteilnehmer z.B. aufgefordert, Tintenfarben zu benennen von geschriebenen, damit nicht übereinstimmenden Farbbezeichnungen, also z.B. steht dort rot mit grüner Tinte geschrieben. Dabei kann man z.B. die Sprachen variieren und feststellen, dass die inkongruenten Farbbezeichnungen um so mehr stören, je präsenter die Sprache dem Versuchsteilnehmer ist. Ein anderes gebräuchliches Stroop-Verfahren blendet in zu benennende Bilder Wörter als Schrift ein, wobei man z.B. variieren kann, ob die eingeblendeten Wörter dem Zielwort semantisch oder phonologisch ähnlich sind. Kunstwörter morphologisch verändern: Hierzu gehört das bereits erwähnte wug, mit dem die Pluralformen erhoben wurden. Den Versuchsteilnehmern wird eine Zeichnung dieses Tiers vorgelegt und gesagt: „Hier ist ein wug.“ Dann kommt ein zweites Kärtchen mit noch einem solchen Tier, und es wird gesagt: „Und da kommt noch eins. Jetzt haben wir hier zwei ......“. 13 S.a. Bliesener, Thomas und Ruth Brons-Albert 1994. Rollenspiele in Kommunikations- und Verhaltenstrainings. Opladen: Westdeutscher Verlag. 100 6 Das Experiment 6 66 6.4 .4 .4 .4.2 .2 .2 .2 Experimente zur Sprachrezeption Experimente zur Sprachrezeption Experimente zur Sprachrezeption Experimente zur Sprachrezeption Wenn es um Sprachrezeption geht, ist die Anzahl der Experimentformen noch größer. Lexikalische Entscheidungstests: Am verbreitetsten sind die bereits erwähnten lexikalischen Entscheidungsaufgaben, wobei ein wichtiges Verfahren das sogenannte Priming (dt. Bahnung; meist wird aber der englische Terminus verwendet) ist. Das Verfahren misst Einflüsse eines vorher gezeigten Reizes auf die Reaktionszeit für den gemessenen Reiz und schließt daraus auf Verbindungen in unserer mentalen Repräsentation der Sprache. Z.B. wird die Reaktionszeit für das Erkennen von König als einem Wort des Deutschen verkürzt, wenn vorher Krone (ein assoziativ verbundenes Wort), Königin (ein morphologisch verbundenes Wort) oder king (ein über ein gemeinsames Konzept verbundenes Wort aus einer anderen Sprache) gezeigt wird. So kann man mit dem Priming-Verfahren Hypothesen über bestehende Verbindungen testen. Phonemmonitoring: Ein weiteres verbreitetes Verfahren ist, dass man den Versuchsteilnehmern die Aufgabe stellt, jedes Mal einen Knopf zu drücken, wenn sie einen bestimmten Laut hören (phoneme monitoring). Abhängig davon, wie komplex das vorher Präsentierte war, oder von der Umgebung, in der dieser Laut präsentiert wurde, verändert sich die Reaktionszeit. Für dieses Verfahren gibt es auch eine Papier- und Bleistift-Variante, die unkompliziert zu handhaben ist und sich also auch für linguistische Hausarbeiten eignet: Man lässt seine Versuchsteilnehmer unter Zeitdruck jeweils einen bestimmten Buchstaben in einem schriftlich präsentierten Text markieren. Dabei wird nicht die Reaktionszeit gemessen, sondern die Zahl der Fehler, d.h. der nicht markierten Buchstaben. In bestimmten syntaktischen oder morphologischen Umgebungen werden nämlich mehr Fehler dieser Art gemacht als in anderen, d.h. man schließt aus der Zahl der gemachten Fehler auf die Schwierigkeit der Verarbeitung der jeweiligen Textstelle. Gating: Ein anderes Verfahren präsentiert unterschiedlich lange Segmente von zu erkennendem Sprachmaterial und überprüft, ab wann es richtig ergänzt wird, also eindeutig erkannt wurde. So wird zum Beispiel das Wort Elefant auditiv wie folgt in Teilen präsentiert, wobei die Versuchspersonen nach jedem Teil angeben müssen, welches Wort gemeint ist: E El Ele Elef Elefa Elefan Elefant Sprachrezeption 101 6.5 Auswertung der Experimentergebnisse Dieses Verfahren ist zum Beispiel benutzt worden, um festzustellen, wo der „Erkennungspunkt“ eines Wortes liegt, d.h. wann das Wort als „Elefant“ erkannt wird. Das wäre hier wohl, wenn man das „f“ gehört hat, denn bis dahin wäre auch noch die Fortsetzung „Element“ möglich. Wenn das Wort „Elefant“ ganz präsentiert ist, sind natürlich noch (längere) flektierte oder abgeleitete Wörter mit Elefant als Bestandteil möglich, z.B. „Elefanten“, „elefantös“. Segmentverschiebung: Wenn es um komplexe Wörter geht, wird häufig mit einem Verfahren gearbeitet, bei dem einzelne Elemente aus einem Wort in ein anderes verschoben werden sollen (segment shifting), also soll etwa zu einem auf dem Computerbildschirm mit Markierung der ersten Silbe präsentierten GEBURT ein Wort gebildet werden, das das ebenfalls auf dem Bildschirm präsentierte BET enthält, wobei die markierte Silbe zu verschieben ist (die Versuchsteilnehmer sollen also Gebet sagen). Man kann dabei z.B. überprüfen, ob Reaktionszeiten verschieden sind, wenn es sich bei dem zu verschiebenden Element um ein Morphem oder eine in diesem Kontext nicht bedeutungstragende Silbe handelt. Fehlererkennung: Weitere Verfahren messen das Erkennen von Fehlern (die Zeit, die dazu benötigt wird, oder - auch das ist wieder ohne komplizierte Computerprogramme möglich - die Anzahl der übersehenen Fehler in zu variierenden Kontexten), wobei verschiedene Möglichkeiten vorgegeben werden können, unter denen die richtige auszusuchen ist, oder wobei einfach fehlerhafte und fehlerlose Sätze präsentiert werden und die Versuchsteilnehmer unter Zeitdruck die Fehler finden müssen. 14 6 66 6 .5 .5 .5 .5 Auswertung der Ex Auswertung der Ex Auswertung der Ex Auswertung der Experimentergebnisse perimentergebnisse perimentergebnisse perimentergebnisse Wenn wir unser Experiment durchgeführt haben, stehen wir vor dem Problem, was wir mit den gesammelten Daten anfangen. Zunächst einmal geht es darum, welche Daten wir überhaupt verwenden können. Versuchsteilnehmer, für die wir nicht für jede der Bedingungen Ergebnisse haben, nehmen wir aus der Auswertung heraus. Das geschieht recht häufig, wenn wir im realen Unterricht experimentieren. Dann kann es sein, dass manche Schüler z.B. nur bei der einen erprobten Methode da waren, aber bei der anderen gefehlt haben. Deren Daten nimmt man ganz heraus aus der Auswertung, wenn man ein Messwiederholungsdesign hatte. Bei vielen psycholinguistischen Experimenten ist es üblich, die Reaktionszeiten von Personen ganz aus der Auswertung herauszunehmen, die mehr als 10% Fehler gemacht haben, das hängt jedoch auch von der Art des Experi- Der Zeitdruck, der in den o.a. Experimentbeschreibungen fast immer auftaucht, dient dazu, die für die Sprachverarbeitung schwierigen Aufgaben von den für die Sprachverarbeitung leichteren Aufgaben zu trennen. Mit genügend Zeit werden natürlich alle Fehler gefunden, aber dann hätte man keine auswertbaren Daten mehr. auszusondernde Datensätze 102 6 Das Experiment ments ab. Auf jeden Fall nimmt man die Reaktionszeiten für fehlerhafte Reaktionen aus der Auswertung heraus. Für einen Teil der Reaktionen kann man das den Computer mit einem Befehl für alle Datensätze machen lassen, wenn nämlich die Reaktionszeiten so kurz sind, dass es sich gar nicht um die echte Reaktion handeln kann. Wenn z.B. der Computer für eine Aufgabe, in der die Versuchspersonen ein Bild benennen sollten, Reaktionszeiten unter 500 ms aufgezeichnet hat, dann hat er auf ein Husten, Räuspern o.ä. reagiert, jedenfalls hat die Versuchsperson bestimmt nicht in dieser Zeit die gestellte Aufgabe erfüllt. Die echten Fehler (z.B. das Bild wird mit etwas Falschem benannt wie Hundenapf statt Cremetopf oder die Versuchsperson beginnt ihre Äußerung mit äh, sodass der Computer die Reaktionszeit bis zum äh und nicht bis zur Produktion des gesuchten Wortes gemessen hat) müssen mühsam „per Hand“ aus den Auswertungsdaten herausgenommen werden. Die übrig gebliebenen Daten werden dann mit den in den nächsten Kapiteln beschriebenen statistischen Verfahren aufbereitet. Aufgaben Aufgaben Aufgaben Aufgaben 1. Stellen Sie sich vor, Sie wollen experimentell überprüfen, ob die Verarbeitung der deutschen Plurale von Substantiven auf -s (sie gelten nach manchen Abhandlungen als die regelmäßige Pluralbildung) schneller geht als die Verarbeitung anderer Plurale. Sie haben sich dazu ein Experiment ausgedacht, in dem Versuchspersonen so schnell wie möglich die Singularform eines Substantivs nennen müssen, wenn der Computer das entsprechende Wort im Plural zeigt (also bei „Autos“ müssen sie „Auto“ sagen, bei „Mütter“ „Mutter“ usw.). Der Computer misst die Reaktionszeiten. Mit welchen intervenierenden Variablen müssen Sie rechnen, und wie können Sie sie ausschalten? 2. Sie möchten wissen, ob Lerner des Deutschen als Fremdsprache bessere Ergebnisse beim Markieren des Unterschieds zwischen Nominativ und Akkusativ haben, wenn ihr Grammatikunterricht auf der traditionellen Grammatik beruht, sie also Subjekte und Akkusativobjekte zu unterscheiden lernen, als wenn ihr Grammatikunterricht auf dem Valenz- Dependenzmodell beruht, sie also Nominativ- und Akkusativergänzungen zu unterscheiden lernen. Halten Sie es für möglich, diese Frage experimentell zu beantworten? Passen Sie die Fragestellung gegebenenfalls so an, dass sie experimentell bearbeitbar ist und entwickeln Sie einen Plan für ein passendes Experiment! 3. Sie möchten wissen, ob es für das Lernen von Vokabeln eine Rolle spielt, ob die zu lernenden Wörter in der Mutter- und in der Zielsprache verschiedenes oder gleiches Genus haben. Denken Sie sich ein Experiment dazu aus. Schritt 3 Schritt 3 Schritt 3 Schritt 3: : : : Daten Daten Daten Datenauswertung/ Datenanalyse auswertung/ Datenanalyse auswertung/ Datenanalyse auswertung/ Datenanalyse 7 77 7 Skalenniveaus Skalenniveaus Skalenniveaus Skalenniveaus Bevor wir anfangen können, Daten zu analysieren (oder auch zu erheben), müssen wir zunächst einmal wissen, mit welcher Art von Daten wir es zu tun haben. Es gibt in der Linguistik und Sprachlehrforschung drei gängige Arten von Daten, mit denen wir arbeiten. Das möchten wir im Kapitel 7 anhand von Beispielen erklären. Wenn man annimmt, dass man einer kleinen Gruppe von Schülern einen Vokabeltest von 20 Wörtern gegeben hat, die ins Englische übersetzt werden sollten, kann man davon ausgehen, dass einige Schüler alle oder die meisten Wörter richtig haben, andere werden schlechter abschneiden. Es gibt nun verschiedene Arten, das Resultat des Tests zu beschreiben. Die folgende Tabelle zeigt einige der Möglichkeiten. Tabelle 1: Darstellung von Testergebnissen Name richtige Vokabeln korrekt (%) Rang bestanden? Note John 20 100 1 ja 1 Peter 19 95 2 ja 2+ Ellis 15 75 3 ja 3 Sara 14 70 4 ja 3 Martin 13 65 5 ja 3- Matty 12 60 6,5 ja 4 Eve 12 60 6,5 ja 4 Nancy 10 50 8 nein 5 Adam 9 45 9 nein 5 Mike 4 20 10 nein 6 Die erste Spalte enthält die Namen der zehn Schüler, die den Vokabeltest gemacht haben. Die zweite Spalte enthält das Resultat, das jeder Schüler erzielt hat, also die Anzahl der Wörter, die der Schüler korrekt übersetzt hat. In der dritten Spalte finden wir die Ergebnisse in Prozent. Spalte vier teilt die Schüler in eine Rangliste ein: John, der beste Schüler, erhält Platz eins. Peter ist der zweitbeste und erreicht so Platz zwei usw. In der fünften Spalte steht „bestanden“ oder „durchgefallen“ hinter jedem Namen. Ob ein Schüler bestanden hat oder durchgefallen ist, liegt an einer zufällig festgelegten Grenze. In unserem Fall liegt die Grenze für das Bestehen bei elf korrekt übersetzten Wörtern von 20. Man muss also mehr als 50% richtig übersetzen, um den Test zu bestehen. Man hätte natürlich auch eine größere Anzahl von korrekt übersetzten Wörtern verlangen können, beispielsweise 70%, dann hätten in unserem Fall nur vier Schüler bestanden. Was ist ein Skalenniveau ? 106 7 Skalenniveaus Für die richtige Anwendung statistischer Verfahren ist es ausgesprochen wichtig zu wissen, dass die verschiedenen Spalten unterschiedliche Messskalen verwenden: Intervall-, Ordinal- und Nominalskala. Spalte zwei in Tabelle 1 präsentiert die Resultate auf einer Intervallskala. So haben wir nicht nur die Information, wer der Beste und wer der Schlechteste ist, sondern wir sehen auch die genaue Distanz (Intervall) zwischen den einzelnen Ergebnissen der Schüler und können somit sagen, wie weit ihre Leistungen voneinander entfernt sind. So liegen die Ergebnisse von Peter und Ellis genauso weit auseinander wie die Ergebnisse von Sara und Nancy; ebenso können wir sagen, dass John zweimal so viele Vokabeln richtig übersetzt hat wie Nancy. Die meisten Tests benutzen Intervallskalen, wie beispielsweise Wörter pro Minute in einem Lesetest, die Anzahl der Fehler in einem Grammatiktest usw. Andere Beispiele von Daten, die üblicherweise auf einer Intervallskala dargestellt werden, sind die Anzahl von Jahren, die man eine Fremdsprache gelernt hat, oder das Alter. Eine Intervallskala nimmt also an, dass die Messeinheiten in gleiche Intervalle unterteilt sind, wie beispielsweise Jahre. Diese Daten können in Punktzahlen, wie in Spalte zwei, oder in Prozent, wie in Spalte drei, dargestellt werden. In der Ranglistenspalte in Tabelle 1 haben wir dagegen eine Ordinalskala. John ist besser als Peter, der wiederum besser ist als Ellis - aber wir können nicht sagen, um wie viel genau John besser ist, und es wäre auch unsinnig, einen Durchschnittsplatz zu berechnen. (Bei Matty und Eve haben wir den Fall, dass sie beide das gleiche Ergebnis erreicht haben. Um bei zehn Ergebnissen die Ränge eins bis zehn verteilen zu können und die beiden Schülerinnen trotzdem auf dem gleichen Platz zu halten, nehmen wir den Mittelwert der Ranglisten sechs und sieben und geben beiden Schülerinnen den Rang 6,5. Das sagt jedoch nichts über einen Durchschnitt aus.) Wir haben bei Ordinalskalen also nur eine Rangliste von „am besten“ bis „am schlechtesten“ oder „am meisten“ bis „am wenigsten“ ohne eine klar gegliederte Einteilung zwischen den einzelnen Maßeinheiten. Der Abstand zwischen den Plätzen auf der Skala ist nicht gleich, sie geben nur einen Rang an. Ein weiteres Beispiel für eine Ordinal- (oder Rang-) Skala sind die Noten in der letzten Spalte (reguläre Schulnoten sind ebenso ordinalskaliert). Der Abstand zwischen einer Zwei und einer Drei muss nicht derselbe sein wie der zwischen einer Eins und einer Zwei. 1 Ebenso sind Daten, die mit Likert-Skalen erhoben werden, ordinalskaliert und nicht - wie häufig fälschlich angenommen - inter- Wenn man statistische Verfahren korrekt anwendet, muss man darauf Rücksicht nehmen, dass Schulnoten keine intervallskalierten Daten sind. Üblicherweise wird jedoch in der Sprachlehrforschung mit Schulnoten so umgegangen, als wären es intervallskalierte Daten, weil so erheblich mehr Möglichkeiten der statistischen Aufbereitung bestehen. Wenn Sie so etwas für Ihre eigene Arbeit vorhaben, weisen Sie zumindest darauf hin, dass es nicht ganz korrekt ist, sonst könnten die Beurteiler Ihrer Arbeit denken, Sie wüssten nicht über Skalenniveaus Bescheid. Intervallskala Ordinalskala 107 vallskaliert. 2 Im Übrigen kann man Intervalldaten immer in Ordinaldaten konvertieren, niemals aber umgekehrt. (Überlegen Sie sich an dieser Stelle ruhig einmal, warum das so ist.) Die „bestanden/ durchgefallen“-Spalte präsentiert die Daten auf einer Nominalskala. Jedes Resultat fällt in eine Kategorie, entweder gut genug - „bestanden“ - oder nicht gut genug - „durchgefallen“. Ein bestimmtes Resultat kann nur in eine Kategorie eingeordnet werden. Nominal skalierte Daten sind deutlich seltener in der Linguistik und Sprachlehrforschung und werden nur dafür verwendet, um Zugehörigkeit zu bestimmten Kategorien anzugeben. Besonders häufig auftauchende Beispiele von Nominaldaten sind Geschlecht und Muttersprache. Eine Person fällt entweder in die Kategorie „männlich“ oder „weiblich“, aber mehr kann man mit diesen Daten nicht anfangen. Es ist zwar durchaus üblich, bei der Kodierung der Daten auch Geschlecht und Muttersprache mit Zahlen zu versehen, also z.B. 1 für weiblich und 2 für männlich, aber ein Durchschnittsgeschlecht oder eine Durchschnittsnationalität zu errechnen ist unmöglich, während ein Durchschnittsergebnis bei einem Sprachtest uns meist ein aufschlussreiches Ergebnis liefert. Bei Sportwettkämpfen wie Kurzstreckenlauf oder Eisschnelllauf betrachten wir sowohl Daten auf Intervallskalenals auch auf Ordinalskalenniveau. Die ersten geben die benötigte Zeit an, meist in Hundertstelsekunden, die zweiten den Rangplatz im Feld der Teilnehmer. Man kann z.B. Erster werden mit einer Zeit von 9,36 Sekunden, Zweiter mit 9,55 und Dritter mit 9,56 Sekunden usw. Abbildung 1, die zeigt, wie hoch jeweils der Prozentsatz der Einwohner der 15 EU-Länder ist, die in der Lage sind, ein Gespräch in einer anderen Sprache als ihrer Muttersprache zu führen, gibt auch gleichzeitig Informationen auf zwei Skalenniveaus. Die Prozentzahlen sind intervallskaliert, die Ordnung der Säulen von links nach rechts gibt den Rangplatz an (Ordinalskala) und zeigt, dass in Luxemburg die meisten Einwohner mehr als eine Sprache sprechen, in England die wenigsten (Quelle: Eurobarometer, Report 50, Brüssel: Directorate General X, S. 108). 2 Likert-Skalen gibt es häufig bei Befragungen. Die Befragten benutzen eine Skala zwischen „stimme voll zu“ und „stimme überhaupt nicht zu“, der Zahlenwerte zugeordnet sind, z.B. von 1 bis 5. Da nicht sicher ist, dass die Abstände zwischen den einzelnen Antwortmöglichkeiten von den Befragten als gleich groß empfunden werden, ist auch bei solchen Skalen das Berechnen von Mittelwerten und andere Verfahren, die Intervallskalenniveau verlangen, nicht korrekt, wenn auch gebräuchlich. Nominalskala 7 Skalenniveaus 108 7 Skalenniveaus )( (! ( ( ! ) ( * ! * * * ! * (* ** * + ,+ " - $ , ./ 01 . 2 1+ / " I Abb. 1: Prozentzahl der Einwohner, die in einer anderen als ihrer Muttersprache ein Gespräch führen können Eine Intervallskala gibt die präziseste Information und lässt uns gleichzeitig die Möglichkeit, die in ihr enthaltenen Daten jederzeit in Daten einer Ordinal- oder Nominalskala zu konvertieren, während dies umgekehrt nicht möglich ist. Eine solche Konvertierung hat allerdings nur in bestimmten Situationen Sinn, da schließlich viele Informationen verloren gehen. Angenommen, wir hätten die Daten über das Alter einer Gruppe von Kindern und Jugendlichen exakt erhoben, dann könnten wir z.B. einen Mittelwert berechnen und dabei herausfinden, dass sie im Durchschnitt zwölf Jahre alt sind. Aber vielleicht ist es interessanter zu wissen, wie viele Befragte jeweils in die einzelnen Altersgruppen (Vorschule, Grundschule, Sekundarstufe, Oberstufe) fallen, weil wir wissen wollen, ob sie wohl noch nicht eingeschult worden sind, oder ob sie in der Grundschule, in der Sekundarstufe I oder bereits darüber sind. In diesem Fall würden wir die Altersangaben auf Intervallskalenniveau in eine Gruppierung mit vier Kategorien auf Nominalskalenniveau umsetzen. 109 Aufgaben Aufgabe Aufgabe Aufgabe Aufgaben nn n 1. Welche Art von Skala (1: Intervallskala, 2: Ordinalskala, 3: Nominalskala) würden Sie für folgende Daten annehmen? a) Schulbildung der Befragten b) Akzeptabilität von 20 unterschiedlichen (mehr oder weniger grammatisch korrekten) Sätzen; diese sollen von Versuchsteilnehmern innerhalb einer Liste von „ganz korrekt“ bis zu „ganz falsch“ sortiert werden. c) Dialekt der Befragten d) Benotung von Aufsätzen durch verschiedene Dozenten e) Reaktionszeit bei der Erkennung von nicht-existenten Wörtern in einer gemischten Wortliste mit existenten und nicht-existenten Wörtern f) Verschiedene Arten von Relativsätzen im Englischen (wobei in zwei verschiedenen Korpora die Anzahl der restriktiven im Vergleich zu den appositiven erhoben werden soll) g) Beurteilung der didaktischen Fähigkeiten von Dozenten durch Studenten auf einer Likert-Skala h) Länge der Schlagzeilen über den Artikeln in der Frankfurter Allgemeinen Zeitung und in der Bild-Zeitung 2. Sie sehen im Folgenden einen Teil aus einem Fragebogen, in dem Daten zur Einschätzung von Sprachkenntnissen des Deutschen in verschiedenen europäischen Ländern erhoben werden. Geben Sie an, wie Sie die erhaltenen Antworten kategorisieren würden und was für ein Skalenniveau Sie damit erhalten! 1. Nationalität 2. Muttersprache 3. Alter 4. Ausbildung 5. Beruf 6. Bedeutung des Deutschen in Europa jetzt: sehr wichtig 1 2 3 4 5 sehr unwichtig 7. Bedeutung des Deutschen in Europa in 20 Jahren: sehr wichtig 1 2 3 4 5 sehr unwichtig 8. Bedeutung von Lesefertigkeit im Deutschen: ........................ 9. Bedeutung von Sprechfertigkeit im Deutschen: ........................ 8 88 8 Beschreibende Statistik Beschreibende Statistik Beschreibende Statistik Beschreibende Statistik In diesem Teil behandeln wir die beschreibende Statistik, die Art von Statistik, die man benutzt, um die Daten von beispielsweise Sprachtests einfach zu beschreiben. Das Gebiet der Statistik wird normalerweise eingeteilt in beschreibende und prüfende (inferentielle) Statistik. Beschreibende Statistik gibt einem nur die Ergebnisse an, während inferentielle Statistik überprüft, ob ein Zusammenhang oder Unterschied zwischen vorliegenden Daten dem Zufall zuzuschreiben ist oder nicht. 8.1 8.1 8.1 8.1 Häufigkeit Häufigkeit Häufigkeit Häufigkeit Wenn wir die Testergebnisse einer Gruppe Studenten haben, sehen wir häufig, dass mehrere Studenten das gleiche Ergebnis haben. Dies gibt uns die Möglichkeit, eine Häufigkeitsverteilung für die Testergebnisse zu erstellen. Die Häufigkeit ist wohl die einfachste Art und Weise, die Verteilung von Daten zu beschreiben, und wird meist verwendet, wenn es darum geht, wie oft ein bestimmtes Phänomen oder ein bestimmtes Verhalten vorkommt. Gehen wir zurück zu unserem Beispiel des Vokabeltests vom letzten Kapitel. Nehmen wir an, wir haben nicht nur die zehn genannten Schüler getestet, sondern insgesamt 50. Tabelle 1 (unten) zeigt uns in der ersten Spalte, welche Punkte erreicht werden konnten, und in der zweiten Spalte eine Häufigkeitsverteilung der 50 Ergebnisse. Diese Tabelle zeigt, dass von den 50 Schülern, die teilgenommen haben, niemand ein Ergebnis von 0, 1, 2 oder 3 hatte; ein Schüler (das war Mike) hatte ein Ergebnis von 4, zwei Schüler 5, drei Schüler 6, usw. Die dritte Spalte zeigt die relative Häufigkeit jedes Ergebnisses. Diese relative Häufigkeit erhalten wir, indem wir die Häufigkeit dieses speziellen Ergebnisses durch die Anzahl der Ergebnisse (hier: 50) teilen. Das Ergebnis 10 wurde von 5 der 50 Schüler erreicht, die relative Häufigkeit dieses Ergebnisses ist also 5 : 50 = 0,1 - anders ausgedrückt, 10% aller Schüler haben dieses Ergebnis erreicht. (Sie sehen: Wenn sämtliche Schüler klug genug gewesen wären, alle Fragen richtig zu beantworten, dann hätte das Ergebnis 20 eine relative Häufigkeit von 1,0 - anders ausgedrückt, 100% der Schüler hätten alle Fragen richtig beantwortet.) Häufigkeitsverteilung relative Häufigkeit 112 8 Beschreibende Statistik Tabelle 1: Verteilung der erreichten Punkte Punkte Häufigkeit relative Häufigkeit 0 0 0,00 1 0 0,00 2 0 0,00 3 0 0,00 4 1 0,02 5 2 0,04 6 3 0,06 7 3 0,06 8 4 0,08 9 4 0,08 10 5 0,10 11 7 0,14 12 7 0,14 13 5 0,10 14 4 0,08 15 0 0,00 16 2 0,04 17 2 0,04 18 1 0,02 19 0 0,00 20 0 0,00 N = 50 Häufigkeitsberechnungen sind in der Sprachlehrforschung oft hilfreich, wenn man eine knappe und gut verständliche Präsentation der Daten darstellen möchte. Auch ist es manchmal wichtig, die relative Häufigkeit der Ergebnisse zu wissen. Es kann z.B. sein, dass in einer Prüfung Schüler einen Durchschnittswert von 50% erreichen; wenn aber die Hälfte davon 100% erreicht und die Hälfte davon 0% erreicht, sagt die Prüfung wenig über die Kompetenzen der Schüler aus. Wir müssten dann Gründe für diese sehr eigenartige Verteilung anderswo suchen. Zusätzlich zur relativen Häufigkeit gibt es auch noch die kumulative Häufigkeit, diese wird aber hauptsächlich dazu benutzt, um Perzentile zu errechnen. Da dies aber in der Linguistik und Sprachlehrforschung kaum gemacht wird und nur bei recht großen Teilnehmerzahlen (mehr als 100) sinnvoll ist, gehen wir hier nicht weiter darauf ein. Häufigkeitsberechnungen 113 8.2 Maße der zentralen Tendenz: Modalwert, Median, Mittelwert 8.2 8.2 8.2 8.2 Maße Maße Maße Maße der zentralen Tendenz: der zentralen Tendenz: der zentralen Tendenz: der zentralen Tendenz: Modalwert, Median, Modalwert, Median, Modalwert, Median, Modalwert, Median, Mittelwert Mittelwert Mittelwert Mittelwert Obwohl Häufigkeitsberechnungen für Überblicke sorgen können, ist es meist notwendig, nähere Informationen über die Daten herauszufinden. In der Linguistik und Sprachlehrforschung, wie in anderen Disziplinen der Sozialwissenschaften auch, errechnet man oft eins von drei Maßen der zentralen Tendenz: Den Modalwert, der einfach der häufigste Wert ist, den Median (Zentralwert), der den mittleren Wert darstellt (wenn man alle Werte von z.B. klein bis groß aneinanderreiht und den in die Mitte fallenden nimmt), und den Mittelwert ( 3 ), der das bekannteste Maß der zentralen Tendenz ist. Den Mittelwert wollen wir im Folgenden berechnen. Wir kommen wieder einmal zu den Ergebnissen der zehn Schüler zurück, die einen 20-Wort-Vokabeltest gemacht haben. Sie finden im Kapitel 7, Tabelle 1 in der Spalte „richtige Vokabeln“ relativ schnell den Modalwert (das am häufigsten anfallende Ergebnis), hier zwölf. Auch der Median lässt sich einfach bestimmen (weil wir es hier mit einer geraden Anzahl an Ergebnissen zu tun haben, nehmen wir den Durchschnitt des fünften und des sechsten Ergebnisses, also 12,5). Der Mittelwert ist dann die Summe aller Ergebnisse (128), geteilt durch die Anzahl der Ergebnisse (10), also 12,8. Wenn wir das als Formel aufschreiben, sieht es wie folgt aus: wobei „Σ“ für „Summe“ steht, „x“ für das jeweilige Ergebnis, und „N“ für die Anzahl der Ergebnisse. Also der Mittelwert ist die Summe aller Ergebnisse, geteilt durch die Anzahl der Ergebnisse. Bei längeren Ergebnissätzen kann man übrigens den Mittelwert sehr bequem vom Computer berechnen lassen, zum Beispiel, wenn man ein Programm wie Excel benutzt - Excel kann man leicht für fast sämtliche statistischen Berechnungen verwenden, die man in der Sprachlehrforschung machen muss, und das Programm bekommt man mit dem gängigen Software- Paket, das man beim Kauf eines Rechners erhält. Schauen Sie in der Hilfsfunktion von Excel oder in einem Handbuch für nähere Informationen dazu nach. Noch ein Hinweis: Normalerweise berichten wir über den Mittelwert, seltener über den Median. Allerdings hat der Median den Vorteil, dass er gut zu verwenden ist, wenn einige sehr untypische Ergebnisse (Ausreißer) vorkommen - so zum Beispiel ein Ergebnissatz wie der folgende: 2 - 50 - 50 - 51 - 51. Der Mittelwert wäre hier 44,8; repräsentativer für die Ergebnisse wäre allerdings der Median 50. Der Mittelwert ist daher anfällig für sogenannte Ausreißer, der Median nicht. Auch sollte man bedenken, dass der Mittelwert erst bei einer Intervallskala einsetzbar ist, der Median aber schon bei einer Ordinalskala. Mittelwert Ausreißer 114 8 Beschreibende Statistik 8.3 8.3 8.3 8.3 Standardabweichung Standardabweichung Standardabweichung Standardabweichung Messungen der zentralen Tendenz sind hilfreich, wenn wir aus den Daten das typische Verhalten einer Gruppe von Menschen ersehen möchten. Allerdings erfahren wir dabei wenig darüber, wie sich die Personen individuell verhalten. Um uns davon ein Bild zu machen, können wir weitere nützliche Informationen errechnen, vor allem die Standardabweichung. Der nach dem Mittelwert wichtigste Wert der beschreibenden Statistik ist die Standardabweichung (S). Man kann sie als Maß der durchschnittlichen Abweichung vom Mittelwert definieren. Aus diesem Wert können wir ablesen, wie sich die Ergebnisse um den Mittelwert herum verteilen. An der als Standardabweichung errechneten Zahl können wir ablesen, ob die einzelnen Messwerte relativ eng beim Mittelwert liegen oder recht weit streuen. Die Standardabweichung berechnet man nach folgender Formel: wobei S Standardabweichung N Anzahl der Ergebnisse X jedes Ergebnis X- 3 jede Abweichung vom Mittelwert Σ(X- 3 ) 2 Summe aller quadrierten Differenzen Tabelle 2: Hypothetische Ergebnistabelle Punkte X - 3 ( 3 = 3,5) (X - 3 ) 2 2 -1,5 2,25 3 -0,5 0,25 4 +0,5 0,25 5 +1,5 2,25 Summe 5,00 Wir berechnen jetzt zur Übung die Standardabweichung der in Tabelle 2 aufgeführten hypothetischen Ergebnisse. 1 Diese haben einen Mittelwert von 3,5. Die Summe der quadrierten Abweichungen ist 5. Wenn wir dies durch (N-1), also 3 teilen, erhalten wir 1,666. Nun ziehen wir noch die Quadratwurzel aus 1,666 und erhalten unsere Standardabweichung von 1,29. Noch einfacher ist es - vor allem, wenn wir mit mehr als nur vier Ergebnissen zu tun haben - die Berechnung von einem Kalkulationsprogramm machen zu lassen. Nachdem wir die Daten (oben z.B. aus der Spalte „Punkte“) eingegeben haben, klicken wir einfach in Excel auf eine leere Zeile. Dann geben wir die Formel zur Kalkulation der Standardabweichung ein: Es gibt zwei Formeln für die Berechnung der Standardabweichung, eine für eine Stichprobe der Grundgesamtheit und eine für die Grundgesamtheit. Die oben benutzte Formel ist die erste. Standardabweichung 4 5 115 8.3 Standardabweichung „=STABW“ und benennen die Datenreihe (s. Marginalie rechts). Wir erhalten dann ganz einfach den Wert 1,29. Die Standardabweichung sagt uns also etwas über die Verteilung der Ergebnisse um den Mittelwert herum. Ein hoher Wert für die Standardabweichung (wenn, zum Beispiel, alle Ergebnisse zwischen 0 und 10 liegen, der Mittelwert der Ergebnisse 6 ist und S=4) bedeutet, dass die einzelnen Ergebnisse weit voneinander entfernt liegen, ein kleiner Wert für S, dass alle Ergebnisse dicht um den Mittelwert herum liegen. Wenn wir bei einzelnen Daten wissen wollen, ob sie über oder unter dem Mittelwert liegen und wie viel, berechnen wir einen sogenannten z-Wert. Diesen Wert (standard score) können wir auch später dafür verwenden, Werte mit einer unterschiedlichen Skalierung zu vergleichen (wenn zwei Sprachtests geschrieben wurden, wobei bei einem insgesamt 100 Punkte erreicht werden konnten und bei dem anderen insgesamt 70, zum Beispiel). Der z- Wert sagt uns genau, um wie viele Standardabweichungen ein Ergebnis vom Mittel entfernt liegt. Die Formel hierfür ist recht einfach; und im Beispiel von oben wäre z.B. der z-Wert von dem Ergebnis 2: Das Ergebnis „2“ liegt daher 1,16 Standardabweichungen unter dem Mittelwert für die getestete Gruppe. Um ein zweites Beispiel zu nehmen: Stellen wir uns vor, wir möchten herausfinden, wie viele Rechtschreibfehler pro 100 geschriebene Wörter in den Texten von vier kleinen Fördergruppen von jeweils sechs Schülern vorkommen. In Tabelle 3 sehen wir die Ergebnisse mit Mittelwert und Standardabweichung für jede Zahlenreihe. Tabelle 3: Rechtschreibfehler pro 100 Wörter Gruppe A Gruppe B Gruppe C Gruppe D 3 2 5 1 4 3 5 1 5 5 5 1 5 5 5 9 6 7 5 9 7 8 5 9 3 5 5 5 5 S 1,41 2,28 0,00 4,38 Wenn wir nur den Mittelwert berechnen, sehen wir nur, dass alle Gruppen durchschnittlich gleich viele Fehler machen. Bei einer Berechnung der Standardabweichung wird aber deutlich, dass die Schüler sich deutlich unterschiedlich verhalten: Während die Ergebnisse der Gruppe C offenbar sehr z-Wert ! 6 ) 6 6 116 8 Beschreibende Statistik dicht beieinander liegen, haben die Schüler in Gruppe D sehr unterschiedliche Ergebnisse. Die Standardabweichung ist daher nützlich, weil sie einen gewissen Überblick über die Reichweite gibt, in die die Ergebnisse fallen. Theoretisch gehen wir davon aus, dass die Hälfte aller Ergebnisse über dem Mittelwert liegt, und die Hälfte unter dem Mittelwert. Der Anteil der Ergebnisse, die innerhalb einer Standardabweichung liegen, bleibt immer gleich, egal, welche Daten wir verwenden: In einer Normalverteilung liegen 34,1% aller Ergebnisse zwischen dem Mittelwert und einer Standardabweichung über dem Mittelwert, 34,1% liegen dann zwischen dem Mittelwert und einer Standardabweichung darunter. Wir können auch sagen, dass 95,4% aller Ergebnisse zwischen „Mittelwert ± doppelte Standardabweichung“ liegen. (Der Wert 68,2% ergibt sich rein mathematisch aus der Gaußschen Normalverteilung und gilt grundsätzlich für die Standardabweichung; ebenso der danach eingeführte Wert 95,4%.) Wir wollen das anhand eines Diagramms veranschaulichen (Abb. 1): Abb. 1: Die Gaußsche Normalverteilung Nehmen wir Gruppe B als Beispiel: Ein Mittelwert von 5 und eine Standardabweichung von 2,28 zeigen uns, dass die Mehrzahl aller Ergebnisse (68,2%) normalerweise zwischen (5 - 2,28 =) 2,72 und (5 + 2,28 =) 7,28 liegt. Die Werte 3, 5 und 7 liegen also alle innerhalb einer Standardabweichung vom Mittelwert. Wenn wir also irgendwo lesen, dass bei einer Untersuchung der Mittelwert der Ergebnisse 60 ist und die Standardabweichung 15, können wir erwarten, dass 68% aller Ergebnisse zwischen 75 und 45 fallen. Wir können dann weiter berechnen, dass, wenn 95% aller Ergebnisse zwischen „Mittelwert ± doppelte Standardabweichung“ fallen, fast alle Ergebnisse in diesem Beispiel zwischen 90 und 30 liegen. Man muss jedoch mit der Standardabweichung ein wenig aufpassen. Wir haben sie hier aus Übungsgründen an sehr kleinen Gruppen angewandt. Es gibt aber Situationen, wo eine Berechnung der Standardabweichung wenig Normalverteilung ungewöhnliche Verteilungen 117 hilfreich ist; meistens sollte man Gruppengrößen von mindestens 30 haben, wenn man die Standardabweichung berechnet. Ebenso ist dieser Wert nicht gerade hilfreich, wenn die Ergebnisse nicht normalverteilt sind, also wenn sie so verteilt um einen Mittelwert liegen, dass kaum Werte nah beim Mittelwert liegen, sondern sie bestehen zum Beispiel aus vielen sehr niedrigen Werten und vielen sehr hohen Werten - oder wenn sie alle den Mittelwert betragen. Dann ergibt die Berechnung wenig Information über das tatsächliche Verhalten unserer Teilnehmer. Bei den Gruppen C und D, oben, zum Beispiel, hilft es uns wenig zu wissen, dass in beiden Fällen 100% der Teilnehmer innerhalb einer Standardabweichung von dem Mittelwert liegen. Wir können wenig darüber sagen, wer deutlich besser oder deutlich schlechter ist als die anderen Teilnehmer. Das sehen wir auch einfach, wenn wir die Ergebnisse in einer Grafik darstellen; (Abbildung 2; Gruppe C wird mit einer gestrichelten Linie dargestellt, Gruppe D mit einer durchgezogenen): Abb. 2: Gruppen C (gestrichelte Linie) und D (durchzogene Linie) 8.4 8.4 8.4 8.4 Die Darstellung der Daten Die Darstellung der Daten Die Darstellung der Daten Die Darstellung der Daten Seitdem Softwareprogramme wie Excel überall vorhanden sind, kann praktisch jeder seine Daten auf ansprechende Art und Weise darstellen. Die am häufigsten benutzte Darstellungsweise ist immer noch die Tabellenform, von der wir oben schon einige Beispiele hatten. 2 Andere Arten sind Grafiken, wovon die üblichsten Histogramme oder Polygone sind. Wenn wir zum Beispiel die Ergebnisse aus Tabelle 1 verbildlichen möchten, könnten wir die Grafik in Abbildung 3 erstellen: Beschriftungen werden in wissenschaftlichen Veröffentlichungen über Tabellen und unter Abbildungen (Grafiken) angebracht. 8.4 Die Darstellung der Daten 118 8 Beschreibende Statistik Abb. 3: Histogramm (Häufigkeitsverteilung) Wenn wir aber Ergebnisse präsentieren, die nicht (wie bei den Vokabeltestdaten) punktuell erhoben wurden, sondern einen Verlauf darstellen (wie es z.B. der Fall ist, wenn wir über einige Zeit die Ergebnisse von einer Person oder einer Gruppe von Personen erheben), dann können wir die Daten in einem Polygon (Liniendiagramm) verbildlichen. Dabei ist der Erhebungszeitpunkt immer auf der x-Achse zu finden, wie in Abbildung 4. Abb. 4: Polygon Daten, die Häufigkeiten darstellen, können auch in Kuchen- oder Balkendiagrammen dargestellt werden. Balkendiagramme sind im Prinzip Histogramme, nur dass die Darstellung horizontal ist. Man sollte allerdings nicht der Versuchung erliegen und die Ergebnisse eines ernsthaften Forschungsprojekts in jeder Menge spezieller Grafiken untergehen lassen - das sieht dann am Ende eher unseriös aus. 119 Aufgaben Aufgaben Aufgaben Aufgaben Aufgaben 1. Sehen Sie sich die folgenden Ergebnisse einer Gruppe von Studenten bei einem Aussprachetest (Ergebnisse auf einer 10-Punkte-Skala) an, und berechnen Sie den Median, den Mittelwert und die Standardabweichung. Berechnen Sie auch die Standardabweichung, die vorläge, wenn William nicht am Test teilgenommen hätte. Machen Sie diese Berechnungen zunächst per Hand, und überprüfen Sie sie mit den jeweiligen Funktionen in Excel (oder einem anderen Kalkulationsprogramm). Berechnen Sie anschließend den jeweiligen z-Wert für die Ergebnisse. Adrian 6 Jay 6 Judith 5 Lydia 7 Nancy 7 Nan 6 Margaret 8 Frank 7 David 9 William 1 2. Erstellen Sie eine Häufigkeitstabelle der Ergebnisse in Aufgabe 2. 3. Erweitern Sie die Tabelle aus Aufgabe 2 um eine neue Spalte. Geben Sie das Geschlecht der Personen an, indem Sie 1 für Männer und 2 für Frauen gebrauchen (beachten Sie, dass Jay männlich und Nan weiblich ist). Wie lautet der Durchschnitt für Männer und Frauen? Und wie lautet der Durchschnitt für Männer und Frauen, wenn William ausgelassen wird? 9 99 9 Inferentielle Statistik I: Beziehungen zwischen Inferentielle Statistik I: Beziehungen zwischen Inferentielle Statistik I: Beziehungen zwischen Inferentielle Statistik I: Beziehungen zwischen Daten Daten Daten Daten Im letzten Kapitel haben wir uns mit Verfahren befasst, die versuchen, Tendenzen zu beschreiben. Jedoch kommt es häufig vor, dass wir nicht nur das Verhalten einer bestimmten Gruppe beschreiben möchten, sondern über die in einer einzigen Studie erhobenen Daten hinausgehen und auf andere Situationen generalisieren möchten. Man möchte nämlich inferieren, also aus einer bestimmten Stichprobe auf die Gesamtpopulation folgern. Man stellt eine Hypothese auf, wie sich die Population verhalten wird, und prüft sie an einer Stichprobe. Aus diesem Grund wird die inferentielle Statistik manchmal auch Prüfstatistik genannt. Ein kleiner Hinweis zu den folgenden Kapiteln: Es gibt natürlich mehr statistische Tests als die, die wir hier behandeln. Wir haben eine Auswahl aus den in der Linguistik am häufigsten verwendeteten getroffen, um Ihnen ein Minimalhandwerkszeug bereitzustellen. Bevor Sie Ihre Daten erheben, sollten Sie das statistische Verfahren immer mit jemandem, der sich auskennt, besprechen. 9.1 9.1 9.1 9.1 Korrelationen Korrelationen Korrelationen Korrelationen In diesem Kapitel sehen wir uns die Resultate von mehreren Tests und/ oder mehreren Teilnehmergruppen an und fragen uns, ob es einen Zusammenhang (d. h. eine Korrelation) zwischen den Testergebnissen gibt. Eine Korrelation ist nichts weiter als eine Zahl zwischen -1 und +1, die eine Beziehung (Achtung: keine kausale Beziehung, sondern nur einen Zusammenhang! ) zwischen zwei Datenreihen beschreibt. Der Wert für diese Korrelation (auch „Pearsons Korrelationskoeffizient“ genannt) wird mit dem Buchstaben r angegeben. Sie ist einer der meistgenutzten statistischen Ansätze und kann unterschiedliche Beziehungen aufzeigen, z.B.: Im Allgemeinen neigen große Menschen dazu, schwerer zu sein als kleine Menschen. In anderen Worten: Je größer Menschen sind, desto mehr neigen sie dazu, schwerer zu sein. Im Allgemeinen ist es so: Wer viel liest, schaut weniger Fernsehen. Im Allgemeinen neigen intelligentere Eltern dazu, intelligentere Kinder zu haben. Im Allgemeinen ist es so: Wenn alle anderen Bedingungen gleich sind, schneidet man umso besser bei den Klassenarbeiten ab, je mehr Zeit man mit Hausaufgaben für die Schule verbringt. inferentielle Statistik (Prüfstatistik) Zusammenhang zwischen Daten 122 9 Inferentielle Statistik I: Beziehungen zwischen Daten Im Allgemeinen ist man umso besser beim Übersetzen vom Englischen ins Deutsche, je besser man beim Übersetzen vom Deutschen ins Englische ist. Im Allgemeinen ist das Leseverständnis umso besser, je mehr Wörter man in einer Fremdsprache kennt. Korrelationen sind aber auch sehr nützlich, wenn wir uns vergewissern möchten, dass Ergebnisse zuverlässig sind (Kapitel 2.4.1). Mit Korrelationen können wir sowohl die Bewerterzuverlässigkeit als auch die Testzuverlässigkeit testen: Im Allgemeinen würden wir eine hohe Übereinstimmung zwischen den Noten erwarten, wenn wir zwei erfahrene Lehrer bitten, die Aufsätze einer Gruppe von Studenten zu benoten, in dem Sinne, dass, wenn Lehrer A eine gute Note vergibt, Lehrer B ebenso eine gute Note gibt und umgekehrt (Bestimmung der Inter-Bewerterzuverlässigkeit). Wenn es keine Korrelation oder gar eine negative Korrelation zwischen den Noten gibt, könnte man daraus schließen, dass die Lehrer ihre Arbeit nicht richtig erledigt haben, oder man könnte vermuten, dass die Noten von den beiden fünf Jahre alten Töchtern der Lehrer vergeben wurden, wobei jede eine Note nach dem Zufallsprinzip unter die Aufsätze geschrieben hat (das wäre dann eine Nullkorrelation - also keine Korrelation). Im Allgemeinen erwartet man vergleichbare Ergebnisse, wenn man eine Studentengruppe einen bestimmten Test zweimal mit einer einwöchigen Pause dazwischen schreiben lässt (Testwiederholung zur Bestimmung der Testzuverlässigkeit). Diese Beziehungen sind ziemlich offensichtlich und stimmen mit der intuitiven Auffassung überein, die die meisten Menschen über die Beziehung zwischen Dingen haben. Gleichzeitig wissen wir natürlich, dass diese Beziehungen „im Allgemeinen“ stimmen, dass es aber Ausnahmen geben könnte. Es gibt kleine Menschen, die schwerer sind als einige große Menschen, und intelligente Eltern können recht dumme Kinder haben. Und nicht jeder, der gut vom Deutschen ins Englische übersetzen kann, kann es auch umgekehrt gut. Manchmal existiert eine Beziehung, die absolut ist - in dem Sinne, dass eine Eigenschaft sich genau abhängig von einer anderen verändert. Zum Beispiel geht umso mehr Benzin in den Tank, je größer dieser ist. Natürlich kann es auch zwischen zwei Dingen überhaupt keine Korrelation geben. Es gibt beispielsweise wahrscheinlich überhaupt keine Beziehung zwischen der Schuhgröße eines Menschen und seinen Ergebnissen in einem Sprachtest, oder zwischen der Menge des Regenniederschlags in einem Bundesland und der Höhe der dortigen Gewerbesteuern. Eine Korrelation kann man sich am besten vorstellen, wenn man die Ergebnisse in einem Streudiagramm darstellt. Nehmen wir an, wir untersuchen Überprüfung der Zuverlässigkeit 123 9.1 Korrelationen die Ergebnisse von sechs Studenten in zwei Tests, einem Vokabeltest und einem Grammatiktest, beide mit zehn Aufgaben (siehe Tabelle 1). Tabelle 1: Vergleich der Noten in zwei Tests Vokabeln Grammatik John 1 3 Peter 2 4 Eva 3 5 Ralph 4 6 Mike 5 7 Jane 6 8 Wenn wir die Ergebnisse in einer Grafik abbilden (Abb. 1), sehen wir, dass alle Punkte auf einer geraden Linie liegen. Die gestrichelten Linien in Abb. 1 zeigen, wo die Punkte für Jane und Eva liegen. 0 * ! ( ) * ! 7# % .8 9 Abb. 1: Streudiagramm der Noten aus Tabelle 1 Die Punkte liegen auf einer geraden Linie, weil es in diesem erfundenen Beispiel eine perfekte Korrelation zwischen den Noten für Vokabeln und Grammatik gibt, die uns zeigt, dass gute Noten im Vokabeltest mit guten Noten in der Grammatik zusammenhängen (wir schreiben dies als r=1, kommen aber auf die Notation später zurück). Die Linie in Abb. 1 hat eine positive Steigung, die darauf hindeutet, dass eine positive Korrelation besteht. Eine positive Korrelation bedeutet, dass wir sagen können: Je mehr x, desto mehr y, also hier: Je besser die Ergebnisse beim Vokabeltest, desto besser die Ergebnisse beim Grammatiktest. Eine solche Linie kann auch eine negative Steigung haben, die dann eine negative Korrelation zeigt. In unserem Beispiel vom Kapitelanfang zum Leseverhalten und Fernsehkonsum Streudiagramme positive Korrelation negative Korrelation 124 9 Inferentielle Statistik I: Beziehungen zwischen Daten kann man sagen: Je mehr man liest, desto weniger schaut man fern. Die Beziehung ist dann eine von Je mehr x, desto weniger y. In diesem Fall läuft die Linie in umgekehrter Richtung, vgl. Abb. 2 (der Einfachheit halber gehen wir auch hier von einer perfekten negativen Korrelation, also r= -1, aus): Abb. 2: Streudiagramm einer perfekten negativen Korrelation Normalerweise ist eine Korrelation natürlich nicht perfekt. Ein Streudiagramm wie in Abbildung 3 (Kapitel 9.1.1) wäre viel normaler. Die Beziehung zwischen zwei Aspekten kann mit Hilfe der Korrelation dargestellt werden, die, wie erwähnt, als Zahl zwischen -1 (perfekte negative Korrelation) und +1 (perfekte positive Korrelation) angegeben wird. Wenn die Korrelation sich um Null bewegt, gibt es keine Beziehung zwischen den Ergebnissen (wie zum Beispiel zwischen Schuhgröße und IQ eines Erwachsenen). Bevor wir aber zu den einzelnen statistischen Tests übergehen, müssen wir einige wichtige Konzepte kurz erläutern, die wir bei der Ergebnisbesprechung brauchen werden. Diese sind Freiheitsgrade und kritische Werte. Freiheitsgrade (df) helfen bei der Berechnung der Signifikanzwerte, worauf wir im Kapitel 9.1.2 genauer eingehen. Die Freiheitsgrade (engl. degrees of freedom) zeigen, wie viele der Testwerte nicht feststehend sind. Das kann man sich wie folgt vorstellen: Bei einer Prüfung haben fünf Studenten mitgeschrieben. Die Summe ihrer Ergebnisse ist 80. Sobald wir wissen, was vier der Ergebnisse sind (sagen wir: 20, 15, 5, 20), steht das fünfte Ergebnis fest: Es muss 20 sein. Die Anzahl „4“ repräsentiert daher unsere Freiheitsgrade. Für jeden Test müssen Sie wissen, wie man die Freiheitsgrade berechnet (Sie sehen diese aber auch in der Datenausgabe, wenn Sie ein Statistikprogramm verwenden). Freiheitsgrade werden in der Darstellung von Ergebnissen immer (in Klammern) mitangegeben. Kritische Werte findet man in einer Tabelle, wenn man die statistische Signifikanz eines Ergebnisses nachschlagen Freiheitsgrade 125 9.1 Korrelationen möchte; sie gibt an, ob ein bestimmter Wert das Minimalniveau (den kritischen Wert) erreicht hat, um zu einem gewissen Grade sicher zu sein, dass die Ergebnisse nicht dem Zufall zuzuschreiben sind. 9.1.1 9.1.1 9.1.1 9.1.1 Korrelationen bei intervallskalierten Daten berechnen Korrelationen bei intervallskalierten Daten berechnen Korrelationen bei intervallskalierten Daten berechnen Korrelationen bei intervallskalierten Daten berechnen Eine Korrelation zu berechnen ist recht einfach. Wir beschäftigen uns hier mit der Art der Korrelation, die product-moment correlation (Pearson product-moment correlation oder einfach PM-Korrelation) genannt wird. Dieses Verfahren wird benutzt, wenn wir mit Daten einer Intervallskala (s. Kapitel 7) zu tun haben - wie in Tabelle 2. Dort finden wir die Ergebnisse bei zwei Vokabeltests, die zehn Studenten geschrieben haben. 1 Die Tests bestanden aus jeweils 10 Fragen. Abbildung 3 stellt die Noten in einem Streudiagramm dar. Tabelle 2: Daten für eine Korrelationsberechnung Student Test A Test B 1 6 7 2 5 7 3 3 4 4 5 5 5 8 9 6 8 8 7 4 5 8 7 7 9 9 7 10 7 8 Die einfachste Möglichkeit, den Korrelationskoeffizienten (die Zahl zwischen -1 und +1) für diese Ergebnisse zu berechnen, ist ein Kalkulationsprogramm wie Excel zu benutzen (man kann die Korrelation auch per Hand berechnen, dies ist aber aufwändiger und eigentlich nicht nötig. Wer sich aber dafür interessiert, wie genau man auf diese Zahl kommt, kann auf der Studienbuch- Da dies kein Kurs im Rechnen, sondern in der Nutzung statistischer Verfahren ist, haben wir ein Beispiel mit einer kleinen Datenanzahl genommen. Im Allgemeinen gilt allerdings, dass es nicht sinnvoll ist, eine Korrelation zwischen zwei Testergebnissen mit weniger als 25 Teilnehmern zu berechnen (für kleinere Gruppen kann man andere Tests anwenden). Ebenso sollte man einen anderen Test für ordinalskalierte Daten verwenden, hier wird meist der Spearman Rho verwendet. Da Korrelationen aber meist zwischen intervallskalierten Daten errechnet werden, besprechen wir hier den Spearman Rho nicht weiter. Übrigens wird trotzdem häufig das Pearson-Verfahren für Noten verwendet, auch wenn diese streng genommen ordinalskaliert sind. Das hat sich im Umgang mit Schulnoten eingebürgert. Eine gute Zusammenfassung der möglichen Verfahren für die Berechnung von Ko elationskoeffizienten finden Sie in Bachman (2004, 92). Rechenverfahren r r 126 9 Inferentielle Statistik I: Beziehungen zwischen Daten Webseite nachsehen: Dort finden Sie immer die Formeln für die Berechnung sämtlicher Ergebnisse in diesem Buch). In einer Excel-Arbeitsmappe (s. Rand links) tippen Sie die Daten von oben ein (Spalte A enthält dann die Ergebnisse von Test A, Spalte B von Test B, wie Sie hier am Seitenrand sehen). In einer leeren Zeile verwenden Sie dann die Formel für die Berechnung von Korrelationen, =KORREL(Matrix1; Matrix2) (Die Matrix ist der gesamte Satz von Ergebnissen eines Tests, also: „A1: A10“ bedeutet „alle Zeilen von A1 bis A10“). Hier wäre das: =KORREL(A1: A10; B1: B10) Sie erhalten dann in der gleichen Tabellenzelle das Ergebnis: r=0,82935919, was wir für die Präsentation der Ergebnisse im Normalfall aufrunden würden zu: r=0,83. Der Korrelationskoeffizient beantwortet die Frage, ob es eine Beziehung zwischen zwei Variablen gibt oder nicht gibt, dahingehend, dass eine Variable dazu neigt, sich in einer zur anderen Variablen ähnlichen Art zu erhöhen oder zu verringern (allerdings sagt das nichts über die Ursache! ). In unserem Beispiel wollten wir also herausfinden, ob ein Student, der bei Test A ein gutes Testergebnis erzielt, bei Test B ein ebenso gutes Testergebnis erzielt (Paralleltest), und ob dies auch bei den mittelmäßigen und schlechten Ergebnissen der Fall ist. Eine Korrelation von 0,83 in dieser Art von Vergleich (Vergleich zweier Testsätze) ist akzeptabel, obwohl man eigentlich erwarten würde, dass der Korrelationskoeffizient in diesem Fall etwas höher liegt. Dass die Korrelation nicht perfekt ist (d.h. nicht 1), kann man im Streudiagramm in Abb. 3 sehen. Zur gleichen Zeit zeigt uns das Diagramm, dass die meisten Punkte dicht an einer (fiktiven) aufsteigenden Linie liegen, dass also „im Allgemeinen“ die Testergebnisse miteinander korrespondieren. Abb. 3: Streudiagramm der Daten aus Tabelle 2 (r=0,83) * ! ( ) * * ! ( ) : $ : - * 127 9.1 Korrelationen Eine kleine Warnung: Pearsons r ist für Ausreißer extrem anfällig - ein Wert, der deutlich außerhalb der sonstigen Tendenz liegt, kann zu verzerrten Ergebnissen führen. Daher ist es immer sinnvoll, ein Streudiagramm zu erstellen und eventuell die Berechnung ohne die sehr weit entfernten Ergebnisse noch einmal durchzuführen. Das wäre im obigen Beispiel der Fall, wenn z.B. ein Student in Test A das Ergebnis „9“ und im Test B das Ergebnis „1“ hätte. Für solche Korrekturen gibt es unterschiedliche Richtlinien, auf die wir hier nicht weiter eingehen können. 9.1.2 9.1.2 9.1.2 9.1.2 Wann ist eine Korrelation hoch genug? Wann ist eine Korrelation hoch genug? Wann ist eine Korrelation hoch genug? Wann ist eine Korrelation hoch genug? Wie oben besprochen, bewegt sich der Wert des Korrelationskoeffizienten zwischen -1 und +1. Beträgt der Wert 0 oder bewegt er sich um 0, dann gibt es keine Korrelation, keine Beziehung, wie in unserem Beispiel von Schuhgröße und IQ. Aber wann ist die Korrelation hoch genug, um sagen zu können, dass es eine Beziehung zwischen zwei Variablen gibt? Ab welchem Punkt können wir z.B. behaupten, es gibt eine positive Korrelation zwischen zwei Ergebnissätzen - ab einem r-Wert von 0,6? oder erst ab einem von 0,9? oder bereits ab r=0,3? Und woher wissen wir, dass diese Ergebnisse nicht einfach dem Zufall zuzuschreiben sein könnten? Wir werden diesen Fragen auf zwei Arten begegnen, zuerst in technischer Hinsicht, indem wir die Signifikanz besprechen, und dann in inhaltlicher Hinsicht, indem wir sehen, wie hoch die Korrelationen sind, die für bestimmte Arten von Forschungsaussagen erwartbar sind. Wir können den Korrelationskoeffizienten in einer Tabelle nachschlagen, die uns sagt, ob diese Korrelation in statistischer Hinsicht signifikant ist oder nicht. Wir werden später noch auf den Begriff Signifikanz zurückkommen; für den Moment reicht es uns, dass die Tabelle uns zu sagen erlaubt, ob man von einer tatsächlich existierenden Beziehung (die also nicht dem Zufall zugeschrieben werden kann) sprechen kann. Um bestimmen zu können, ob eine Korrelation zwischen zwei Variablen signifikant ist, müssen wir die folgenden Schritte durchführen. 1. Wir nehmen die Anzahl der gepaarten Daten, 2 die in der Kalkulation des Korrelationskoeffizienten benutzt wurden, und subtrahieren davon die Anzahl der Gruppen, also 2. In unserem Fall hatten wir 10 gepaarte Daten (s. Tabelle 2: Wir hatten 10 Ergebnisse von Test A und 10 von Test B, was 10 gepaarte Daten ergibt.). Wir ziehen 2 ab. Dies ergibt 8. Wir nennen diese Zahl df. 3 2 In unserem Beispiel sind die Paare jeweils die beiden Ergebnisse derselben Person in den beiden Tests. df: steht für degrees of freedom (Freiheitsgrade). Das bereits im Kapitel 9.1 eingeführte Konzept der Freiheitsgrade ist recht schwierig und wird hier nicht in allen Details besprochen. In der Praxis braucht man es nur, um einen bestimmten Wert in einer Tabelle zu Signifikanzniveaus nachzusehen. Für die hier besprochenen Tests geben wir jeweils an, wie die Freiheitsgrade ermittelt werden. Ausreißer statistische Signifikanz 128 9 Inferentielle Statistik I: Beziehungen zwischen Daten 2. Wir sehen uns eine Tabelle zu Signifikanzniveaus beim Korrelationskoeffizienten an (diese finden Sie u.a. auf den Webseiten zum Buch). Wir sehen zuerst in der Spalte, die mit df markiert ist, den df, den wir ausgerechnet haben, nach (in unserem Beispiel 8). In dieser Zeile finden wir 3 Zahlen: 0,632, 0,765 und 0,872. Diese sind die Korrelationskoeffizienten, die man für 10 gepaarte Ergebnisse (oder df=8) mindestens haben sollte. Unser Korrelationskoeffizient (r=0,83) liegt zwischen der zweiten und der dritten Zahl. Wenn wir uns nun die kleinere Zahl (0,765) ansehen, sehen wir, dass diese Spalte mit 0,01 beschriftet ist. Das bedeutet, dass hier sehr wahrscheinlich eine Beziehung existiert. Unsere Korrelation ist „signifikant auf der 0,01- Ebene“. Wir bezeichnen Signifikanz mit „p“ und schreiben dann (p<0,01), also p ist kleiner als 0,01. Eine (statistische) Signifikanz wird angenommen, wenn ein p-Wert von kleiner als 0,05 berechnet wird. Wenn wir sagen, dass etwas auf der 0,05- Ebene signifikant ist, meinen wir, dass die Wahrscheinlichkeit, dass unser Ergebnis zufällig entstanden ist, d.h. nicht signifikant ist, 1 aus 20 ist oder 5% (0,05=5%). Wenn ein Ergebnis auf der 0,01-Ebene signifikant ist, bedeutet dies, dass die Wahrscheinlichkeit, dass unser Ergebnis zufällig ist (d.h. nicht signifikant ist), 1 aus 100 beträgt oder 1% (0,01=1%). Ein p-Wert von 0,001 bedeutet allerdings nicht, dass die Ergebnisse bedeutsamer sind als bei einem p-Wert von 0,01 oder 0,05 - er bedeutet nur, dass die Wahrscheinlichkeit, dass die Ergebnisse zufällig sind, niedriger ist als bei höheren p-Werten. (Dies gilt für alle weiteren statistischen Tests, die wir in diesem Buch besprechen.) Wäre unsere Korrelation 0,43 gewesen, hätten wir sagen müssen, dass unsere Korrelation nicht signifikant ist, weil sie einen niedrigeren als den minimal benötigten Wert (0,632, für die 0,05-Ebene) gehabt hätte, d.h. es hätte keinen ausreichenden Grund gegeben anzunehmen, dass eine Beziehung zwischen zwei Variablen existiert. Wäre die Korrelation dagegen 0,65 gewesen, wäre sie höher gewesen als die am weitesten links stehende der drei Zahlen in der Tabelle, aber sie wäre kleiner als die zweite gewesen. In diesem Fall würden wir sagen, dass die Korrelation signifikant auf der 0,05-Ebene ist (0,05 ist die Beschriftung der Spalte, die den Minimalwert 0,632 enthält). Die Signifikanzebene eines Korrelationskoeffizienten zu bestimmen ist eins, man muss aber andererseits auch fragen, ob eine Korrelation als hoch, mittel oder niedrig zu sehen ist. Dabei sollte man wissen, dass in einigen Forschungsfeldern eine wesentlich höhere Korrelation erwartet wird als in anderen. Die Übereinstimmung zwischen den Ergebnissen zu zwei Testzeiten würde typischerweise bei 0,90 erwartet. Korrelationen zwischen den Noten für Englisch am Ende der Grundschule und nach dem ersten Jahr der Oberstufe wären wahrscheinlich wesentlich niedriger, etwa um 0,50 herum. Und bei einer Korrelation zwischen Schulnoten für Deutsch und sozialer Angepasstheit (angenommen, es wäre möglich, soziale Angepasstheit ordentlich zu Stärke der Korrelation 129 9.2 Assoziationen und Häufigkeit: Der Chi-Quadrat-Test testen)? Wenn wir hier eine Korrelation von 0,30 bekämen, sähen wir dies als ein überaus interessantes Ergebnis an. Eine allgemeine Faustregel für die Interpretation des Wertes des Korrelationskoeffizienten im Hinblick auf die Stärke der Beziehung zwischen zwei Variablen ist folgende: 4 Wert Interpretation 0,90-1 sehr hohe Korrelation, sehr starke Beziehung 0,70-0,89 hohe Korrelation, ausgeprägte Beziehung 0,40-0,69 mäßige Korrelation, substantielle Beziehung 0,20-0,39 schwache Korrelation, definitive, aber geringe Beziehung 0-0,19 keine oder leichte Korrelation, Beziehung zu vernachlässigen In unserem Beispiel von vorhin könnten wir dann behaupten, dass der berechnete r-Wert von r=0,83 eine hohe Korrelation ist, es gibt also eine recht starke Beziehung zwischen den Ergebnissen bei Test A und Test B. (Vgl. hierzu Effektgröße, Kapitel 11). 9.1.3 9.1.3 9.1.3 9.1.3 Wie man Korrelationen präsentiert Wie man Korrelationen präsentiert Wie man Korrelationen präsentiert Wie man Korrelationen präsentiert Es gibt mehr oder minder allgemein akzeptierte Arten und Weisen, wie man die Resultate von Korrelationsanalysen präsentiert. Im Folgenden geben wir ein Beispiel, wie man eine Korrelation präsentieren kann. Wir nehmen an, dass es sich bei dem zu präsentierenden Ergebnis um einen Teil eines größeren Forschungsvorhabens handelt, in dem wir die Zuverlässigkeit des Tests überprüfen möchten. Um die Zuverlässigkeit des Tests zu überprüfen, haben wir einen Paralleltest durchgeführt. Die erreichten Durchschnittsnoten waren 6,2 bei Test A und 6,7 bei Test B, und die Korrelation zwischen den Ergebnissen war r=0,83 (p < 0,01). Es hat sich daher gezeigt, dass die Testzuverlässigkeit bei der Durchführung eines Paralleltests recht hoch ist. 9.2 9.2 9.2 9.2 Assoziationen und Häufigkeit: Der Chi Assoziationen und Häufigkeit: Der Chi Assoziationen und Häufigkeit: Der Chi Assoziationen und Häufigkeit: Der Chi- -- -Quadrat Quadrat Quadrat Quadrat- -- -Test Test Test Test Der Chi-Quadrat-Test wird verwendet, wenn wir es mit Häufigkeitsdaten zu tun haben, z.B. wenn wir gezählt haben, wie oft etwas vorkommt oder wie viele Personen eine bestimmte Ansicht vertreten. Chi ist der kleine griechische Buchstabe ; Chi zum Quadrat wird dann also 2 geschrieben. Weil Geisteswissenschaftlerinnen häufig mit nominalskalierten Daten zu tun haben und der Test zudem recht einfach ist, behandeln wir ihn ausführlich. Achtung: Das Gleiche gilt natürlich für negative Korrelationen, also ein r-Wert zwischen -0,90 und -1 bezeichnet eine sehr hohe negative Korrelation, einer zwischen -0,70 und -0,89 eine hohe negative Korrelation usw. 130 9 Inferentielle Statistik I: Beziehungen zwischen Daten 9.2.1 9.2.1 9.2.1 9.2.1 Chi Chi Chi Chi- -- -Quadrat bei Befragungen Quadrat bei Befragungen Quadrat bei Befragungen Quadrat bei Befragungen Der Chi-Quadrat-Test wird sehr oft gebraucht, um aus Befragungen gewonnene Daten zu analysieren. Auf diese Weise stellt man zum Beispiel fest, ob es eine Beziehung zwischen der politischen Partei, die die Leute wählen, und ihrer Einstellung zur Euthanasie oder der Drogenpolitik der Regierung gibt. Man kann so zu Aussagen wie „SPD-Wähler befürworten die Legalisierung weicher Drogen eher als CDU-Wähler“ gelangen. Man kann natürlich einfach die Anzahl von Leuten zählen, die eine bestimmte politische Partei wählen, und dann herausfinden, wie ihre Einstellung zur Drogenlegalisierung ist, um zu berichten, dass 55% der SPD-Wähler für eine Legalisierung sind, aber nur 45% der CDU-Wähler. In diesem Fall könnte man aber nicht sicher sein, dass es eine signifikante Beziehung zwischen den zwei Variablen „Vorliebe für eine politische Partei“ und „Einstellung zur Drogenlegalisierung“ gibt. Der Chi-Quadrat-Test erlaubt uns zu sagen, ob eine solche Beziehung signifikant ist. Ein weiteres Beispiel für eine Forschungsfrage, bei der wir den Chi-Quadrat-Test anwenden, ist die Frage, ob es eine Beziehung zwischen dem sprachlichen Hintergrund der Eltern (beide deutschsprachig, beide anderssprachig, einer deutschsprachig und einer anderssprachig) und der Schulart, die ihre Kinder nach der Grundschule besuchen (Hauptschule, Realschule, Gesamtschule, Gymnasium), gibt. Auch unsere Frage aus dem Anfangskapitel wäre ein Beispiel für den Chi-Quadrat-Test. Angenommen, wir hätten in je 1000 vergangenheitsbezogenen Sätzen von Evangelischen 653 Perfektformen gefunden und nur in 597 Sätzen von Katholiken, dann könnte uns der Chi-Quadrat-Test darüber Aufschluss geben, ob das wahrscheinlich auf den Zufall zurückzuführen ist, oder ob Katholiken tatsächlich weniger Perfektformen benutzen als Protestanten. Aus den oben genannten Beispielen können wir ersehen, dass wir den Chi-Quadrat-Test verwenden, um eine Beziehung zwischen zwei (oder mehr) Variablen auf Nominalskalenniveau (s. Kapitel 7) zu untersuchen, für die wir die Häufigkeit des Vorkommens gezählt haben. Bei intervallskalierten Daten verwenden wir normalerweise Korrelationen. Versuchen wir uns nun an einem Beispiel. Sie vermuten, dass in Ihrem Deutschunterricht Lerner aus Fernost mehr Vokabellernstrategien verwenden, die auf Memorieren zurückgreifen, als Lerner aus südamerikanischen oder europäischen Ländern. Sie kündigen einen Vokabeltest für die nächste Woche an, lassen ihn schreiben und geben danach einen Fragebogen an die Lernenden. Diese sollen alle Strategien ankreuzen, die sie verwendet haben, als sie für die Prüfung gelernt haben (es gab in der Befragung auch Distraktoren, die Sie nicht berücksichtigen, Sie interessieren sich hier nur für die 5 Memorierungsstrategien). In jeder Herkunftsgruppe gibt es 10 Lerner. Sie zählen dann die angekreuzten Arten von Memorierungsstrategien zusammen und erhalten folgende Häufigkeitstabelle: 131 9.2 Assoziationen und Häufigkeit: Der Chi-Quadrat-Test Fernost Südamerika Europa Häufigkeit der Verwendung von Memorierungsstrategien 41 23 35 Wenn die Herkunft überhaupt keinen Einfluss auf die Art der Strategie hat, würden Sie erwarten, dass alle Zellen in der Tabelle oben die Zahl 33 enthielten (das ist die durchschnittliche Häufigkeit der Nennungen von Memorierungsstrategien bei allen Gruppen). Das ist offensichtlich nicht der Fall. Woher wissen Sie aber, ob die beobachtete Häufigkeit der Memorierungsstrategien sich von der zu erwartenden Häufigkeit (33) signifikant unterscheidet? Wir berechnen den Test hier per Hand, da dies in der Tat recht einfach ist. Die Formel für den Chi-Quadrat-Test lautet: 2 5% #% 4 Setzen wir unsere Werte in die Formel ein, erhalten wir für die Lerner aus Fernost 4 5 1,939 für die Lerner aus Südamerika 4 5 3,030 für die Lerner aus Europa )4 5 1,091 2 = Summe 6,06 Wir müssen jetzt in einer Tabelle zur Signifikanz beim Chi-Quadrat-Test (z.B. auf den Webseiten zum Buch) nachsehen, ob der Wert signifikant ist. Wir benötigen hierzu wieder die Freiheitsgrade. Die berechnen wir, indem wir 1 von der Anzahl der Gruppen (hier: nach Herkunft der Lerner) subtrahieren: df =3 - 1=2. Nun sehen wir in der Tabelle nach, gehen dort zu „df=2“ und stellen fest, dass unser Wert 6,06 etwas größer ist als der Wert für p<0,05, aber kleiner als der benötigte Wert für p<0,01. Somit ist unser Ergebnis signifikant auf dem Niveau p<0,05. Mit anderen Worten: Die Verwendung der Memorierungsstrategien ist tatsächlich bei den verschiedenen Gruppen unterschiedlich stark ausgeprägt, der Zufall ist mit hinreichender Wahrscheinlichkeit als Ursache ausgeschlossen. Natürlich brauchen Sie Chi-Quadrat nicht mit dem Taschenrechner auszurechnen, es gibt im Internet Chi-Quadrat-Rechner, in die Sie nur Ihre Daten einfügen müssen, und wir stellen später in diesem Kapitel noch einen vor. Wichtig hierbei ist, dass man nur sagen kann, ob ein signifikanter Unterschied zwischen den Gruppen besteht. Der Test sagt uns (noch) nicht, 132 9 Inferentielle Statistik I: Beziehungen zwischen Daten wo der Unterschied zu finden ist. Um dies herauszufinden, verwenden wir paarweise Post-hoc -Vergleiche. 5 Übrigens ändert sich die Berechnung etwas, wenn wir nur einen Freiheitsgrad (df=1) haben. Dies wäre der Fall, wenn wir nur eine Reihe mit zwei Zellen haben - beispielsweise wenn wir Menschen befragen, ob sie für oder gegen etwas sind -, oder wenn wir zwei Reihen und zwei Spalten haben. Wir benutzen in so einem Fall die Yates-Korrektur. Da dies auch in den Online-Kalkulationsprogrammen meist berücksichtigt ist, müssen wir uns hier keine Sorgen darüber machen. Wichtig ist, dass beim Chi-Quadrat-Test die tatsächlich beobachteten Häufigkeiten verwendet werden müssen, nicht etwa Prozentzahlen. Sie können es ausprobieren: Wenn Sie das Ganze in Prozentzahlen umsetzen und dann den Test mit Prozentzahlen rechnen, bekommen Sie einen anderen Wert für Chi-Quadrat. Der Chi-Quadrat-Test wird oft benutzt, um bei Korpusanalysen die Häufigkeit des Vorkommens von Erscheinungen zu vergleichen. Wir betrachten ein Beispiel aus dem Englischen: Das Adjektiv pretty kann als adjektivisches Attribut zu Substantiven gebraucht werden (a pretty flower), als intensivierender Modifikator in Nominalgruppen (pretty horrible weather) oder als intensivierender Modifikator von Adverbien (pretty clearly seen). Unsere Frage ist jetzt: Kommt das Wort in allen diesen Funktionen gleich häufig vor? Wir betrachten das anhand eines Korpus. Das Wort pretty kommt im London-Lund-Korpus 120-mal vor, und zwar wie folgt: adjektivisch als Intensivierer in Nominalgruppen als Intensivierer vor Adverbien 5 95 20 Wenn die drei Funktionen gleichmäßig verteilt wären, dann wäre die zu erwartende Verteilung: adjektivisch als Intensivierer in Nominalgruppen als Intensivierer vor Adverbien 40 40 40 Wenn wir die Formeln anwenden, erhalten wir einen Chi-Quadrat-Wert von 116,25. Wenn wir im Anhang nachschlagen, sehen wir, dass dieser Wert höher ist als der am weitesten rechts stehende in der Reihe für 2 Freiheitsgrade. Das bedeutet, dass es einen signifikanten Unterschied in der Verteilung der drei Funktionen gibt (p<0,001). Chi-Quadrat kann man auch benutzen, um zwei (oder mehr) Korpora miteinander zu vergleichen. Wir vergleichen jetzt den Gebrauch von pretty in Diese besprechen wir hier aus Platzgründen nicht; ein solcher Test bedeutet, dass man paarweise Chi-Quadrat-Tests vollzieht mit Hilfe einer sogenannten Bonferroni-Korrektur. keine Prozentzahlen Korpusanalyse Vergleich zweier Korpora 133 9.2 Assoziationen und Häufigkeit: Der Chi-Quadrat-Test zwei Korpora, dem London-Lund-Korpus und dem LOB Korpus. 6 Die Daten sind wie folgt: adjektivisch als Intensivierer in Nominalgruppen als Intensivierer vor Adverbien LL 5 95 20 LOB 45 37 21 Daraus erhebt sich die Frage: Gibt es eine Beziehung zwischen dem Gebrauch von pretty und der Art des Korpus? Oder anders formuliert: Gibt es einen Unterschied im Gebrauch von pretty in den beiden Korpora? Oder noch einmal anders formuliert: Gibt es einen Unterschied in der Distribution der einzelnen Funktionen von pretty in den beiden Korpora? Die Berechnung des Chi-Quadrat-Werts ist bei mehr als einer Ebene immer noch nicht sehr komplex, sie involviert aber mehrere Schritte, weswegen wir sie nur im Internet-Zusatzmaterial ausführlich behandeln. Auch in Excel können Sie den Wert berechnen lassen, auch dies ist etwas komplizierter. Das Einfachste ist, Sie verwenden eine Online-Kalculation wie die von Georgetown Linguistics oder die von der University of Kansas (googeln Sie einfach „Chi square web calculator“). Wir verwenden hier ein Beispiel von der University of Kansas 7 , das uns erlaubt, bis zu zehn Reihen und zehn Spalten aufzunehmen. (Die folgende Abbildung 4 haben wir etwas gekürzt; auf der Webseite sehen Sie aber alle Reihen.) Da müssen Sie lediglich die Informationen aus Tabelle 5 eingeben und auf „Calculate“ klicken (wir haben aus Platzgründen die tatsächlich erscheinende Tabelle an der Stelle der durchgezogenen Linie etwas gekürzt): Abb. 4: Chi-Quadrat-Rechner Wir erhalten einen Chi-Quadrat-Wert von 56,5 mit 2 Freiheitsgraden. Auch der p-Wert wird hier direkt berechnet: p=0,000. Folglich können wir sagen, dass es eine Beziehung gibt zwischen der Art des Korpus und dem Gebrauch ! LOB steht für Lancaster, Oslo, Bergen Korpus von Texten in britischem Englisch. Quelle: http: / / people.ku.edu/ ~preacher/ chisq/ chisq.htm (27.02.2010) 134 9 Inferentielle Statistik I: Beziehungen zwischen Daten des Worts pretty. Anders gesagt, der Gebrauch des Wortes pretty ist verschieden in den beiden Korpora. Ein weiteres Beispiel aus einer Korpusuntersuchung: Jemand hat untersucht, wie Fragen in zwei verschiedenen Fernsehsendungen gestellt wurden, in der Talkshow „Oprah“ und in der politischen Diskussionssendung „On the Record“. Dabei fand sie heraus, dass von allen gestellten Fragen insgesamt 15,3% eine angehängte „tag-question“ hatten („You agree that this is wrong, don't you? “), 8 dass aber die Verteilung so war, dass von den gesamten Fragen sich nur 0,9% mit einer angehängten tag-question im Oprah-Korpus fanden, und 14,4% in „On the Record“ (OTR). Wenn wir mit einem Chi-Quadrat-Test ermitteln wollen, ob der Unterschied signifikant ist, müssen wir statt der Prozentzahlen die tatsächlichen Zahlen verwenden. Diese waren 4 beziehungsweise 67. adjektivisch Oprah OTR Fragen mit tag 4 67 Mit diesen Daten können wir aber wenig anfangen. Wir wissen nicht, ob 67 wirklich viel mehr als 4 ist, wenn wir nicht wissen, wieviele Fragen denn in den beiden Programmen betrachtet wurden. Unterstellen wir einmal, dass in „On the Record“ (OTR) 16-mal so viele Fragen untersucht wurden wie in „Oprah“. Dann wäre die Differenz zwischen 4 und 67 nicht sonderlich beeindruckend. Wir müssen also die Korpusgrößen in irgendeiner Weise vergleichbar machen in Bezug auf die Anzahl der Fragen. Das geht z.B. so, dass wir die Anzahl der Fragen mit und ohne tag question in Betracht ziehen. Dabei stellte sich heraus, dass die Rohdaten wie folgt lauteten: Oprah OTR Fragen mit tag 4 67 Fragen ohne tag 234 160 Wir könnten übrigens die Spalten und Reihen auch austauschen, so wie in der Tabelle unten. Das spielt für die Chi-Quadrat-Berechnung keinerlei Rolle. Fragen mit tag Fragen ohne tag Oprah 4 234 OTR 67 160 Wenn wir den Chi-Quadrat-Test auf diese Daten anwenden (mit der sogenannten Yates-Korrektur, da es nur 1 Freiheitsgrad gibt), dann ergibt die Rechnung ein Chi-Quadrat von 67,44 (p<0,001). Mit anderen Worten, es gibt tatsächlich einen Unterschied im Gebrauch der tag-questions, der nicht auf den Zufall zurückzuführen ist. ( Die deutsche Entsprechung „Frageanhängsel“ (nicht wahr? , ne? , woll? ) ist nicht exakt dasselbe; deshalb bleiben wir beim englischen Terminus. Vergleich der Textsorten 135 9.3 Assoziation bedeutet keine Kausalität Zusammenfassend noch einmal die Dinge, die man beachten muss, wenn man einen Chi-Quadrat-Test benutzt. Erstens: Die beobachteten Häufigkeiten in den verschiedenen Zellen müssen tatsächlich Häufigkeiten und dürfen keine Prozentwerte sein. Zweitens: Die Häufigkeiten müssen unabhängig sein, d.h., „Erscheinungen“ oder „Personen“ oder „Antworten“ müssen genau einer Zelle zugeordnet werden (und nicht mehreren). Drittens: Die Größe der erwarteten Häufigkeit (nicht beobachteten Häufigkeit) für jede Zelle darf nicht kleiner als fünf sein. Und viertens: Der Test sagt nur aus, ob eine Beziehung zwischen Daten auf den Zufall zurückzuführen ist oder nicht, aber nicht, wo bzw. was die Beziehung ist. 9.3 9.3 9.3 9.3 Assoziation bedeutet keine Kausalität Assoziation bedeutet keine Kausalität Assoziation bedeutet keine Kausalität Assoziation bedeutet keine Kausalität Man ist leicht versucht, eine kausale Beziehung zwischen zwei Variablen anzunehmen, für die man eine signifikante Korrelation gefunden hat. Wir sehen uns noch einmal einige der Beispiele vom Anfang dieses Kapitels an. Im Allgemeinen ist es so: Je mehr man liest, desto weniger Fernsehen schaut man. Es gibt tatsächlich eine hohe negative Korrelation zwischen den zwei Variablen „Zeit, die man mit Lesen verbringt“ und „Zeit, die man mit Fernsehen verbringt“. Es ist verlockend, jetzt zu behaupten, dass die eine Variable (Lesen) eine direkte Auswirkung auf die andere (Fernsehen) hat, also dass mehr Lesen zum Umstand führt, dass man weniger Fernsehen schaut. Gleichermaßen ist es verlockend, in der folgenden Aussage eine kausale Beziehung zu sehen: Im Allgemeinen ist es so: Wenn alle anderen Bedingungen gleich sind, schneidet man desto besser bei den Klassenarbeiten ab, je mehr Zeit man mit Hausaufgaben für die Schule verbringt. Einmal angenommen, dass wir eine signifikante Korrelation zwischen den zwei Variablen (Zeit, die man mit Hausaufgaben verbringt, und Klausurergebnissen) finden, so scheint es offensichtlich zu sein, dass die erste die letzte kausal bedingt. Trotz dieser scheinbaren Kausalbeziehung ist es nicht erlaubt, auf der Basis einer Korrelationsanalyse zu behaupten, dass eine Variable durch die andere kausal bedingt ist. 9 Wir können die Tatsache, dass eine Korrelation nichts über eine Kausalbeziehung aussagt, anhand von zwei Beispielen illustrieren. Beispiel eins: Es gibt eine Korrelation zwischen der Abnahme der Störche in den letzten 30 Jahren (die Anzahl der Störche ist in ganz Europa gesunken) und der Anzahl von Geburten (die auch gesunken ist). Damit ist die Rolle des Klapperstorchs ) Um Kausalaussagen machen zu können, muss man andere Techniken anwenden wie beispielsweise die Pfadanalyse, auf die wir hier nicht eingehen. Die einfachste Möglichkeit, Kausalität nachzuweisen, ist, ein experimentelles Verfahren (Kapitel 6) anzuwenden. Interpretation Begründungen 136 9 Inferentielle Statistik I: Beziehungen zwischen Daten für die Geburt von Kindern aber keineswegs bewiesen, offensichtlich kann man nicht sagen, dass das eine Phänomen das andere verursacht hat. Ein zweites Beispiel ist die Beziehung zwischen dem Konsumieren von Fernsehsendungen und dem Maß der Aggressivität bei Kindern. Es gibt eine Korrelation zwischen diesen zwei Phänomenen, aber das bedeutet nicht notwendigerweise, dass das Fernsehen Aggression bei Kindern verursacht. Man könnte sogar mit einiger Berechtigung sagen, dass aggressive Kinder dazu neigen, die Gewalt, die im Fernsehen gezeigt wird, zu mögen, und daher mehr fernsehen als friedlicher veranlagte Kinder. Es gibt aber noch viele andere Möglichkeiten, die Korrelation zu interpretieren. Um nur noch eine zu nennen: Es könnte sein, dass Kinder, die wenig Zuwendung bekommen, aggressiv werden und dass diese Kinder auch - mangels sonstiger Ansprache - viel fernsehen. 10 Das bringt uns zu einer weiteren Überlegung. Manchmal gibt es eine Korrelation zwischen zwei Erscheinungen, weil diese beiden Erscheinungen mit einer dritten Erscheinung korreliert sind. Nehmen wir zum Beispiel das folgende Phänomen. Es gibt eine positive Korrelation zwischen der Anzahl von Feuerwehrmännern bei einem Feuer und dem Schaden an dem brennenden Eigentum. Im Allgemeinen ist es also so, dass je mehr Feuerwehrmänner involviert sind, desto mehr Schaden entsteht. Diese positive Korrelation könnte eine kausale Beziehung zwischen den beiden dahingehend vorgaukeln, dass Feuerwehrmänner Schaden anrichten. Dies ist jedoch nicht (oder nicht notwendigerweise) der Fall. Tatsächlich gibt es nämlich einen weiteren verborgenen Faktor, nämlich die Größe des Feuers. Je größer das Feuer ist, desto mehr Feuerwehrleute sind notwendig. Ebenso gilt, dass je größer das Feuer ist, desto größer der Schaden ist, den es anrichtet. Daher: Je mehr Feuerwehrleute, desto mehr Schaden. Wenn die Größe des Feuers eine Konstante ist, d.h., wenn wir uns nur mit kleinen Feuern oder nur mit großen Feuern beschäftigen, dann gibt es keine Korrelation zwischen der Anzahl der Feuerwehrleute beim Feuer und dem Schaden am in Brand geratenen Eigentum. Die Korrelation ist dann praktisch 0. Wir nennen eine solche Korrelation, die nicht „real“ ist, sondern von einem dritten, verborgenen Faktor abhängt, eine „irreführende Korrelation“ (spurious correlation). Besonders in der Sprachlehrforschung sollte man sich davor hüten, kausale Beziehungen aus Korrelationsdaten zu folgern. Wir können zum Beispiel belegen, dass Kinder, die einen niedrigen sozioökonomischen Hintergrund haben, bei Studien wie PISA deutlich schlechtere Ergebnisse erzielen; das bedeutet aber nicht, dass wenn die Eltern von einem dieser Kinder im Lotto fünf Millionen Euro gewinnen würden, das Kind bei einer Testwiederholung bessere Ergebnisse erzielen würde. * Dass in der Tat ein kausaler Zusammenhang bestehen kann, ist bereits 1963 von Bandura gezeigt worden - hier durch ein experimentelles Verfahren. Korrelation über Dritte irreführende Korrelation 137 Aufgaben Aufgaben Aufgaben Aufgaben Aufgaben 1. Es gibt eine positive Korrelation zwischen dem Taillenumfang von Menschen und ihrem Einkommen. Erklären Sie dieses Phänomen, ausgehend von der Annahme, dass es sich wahrscheinlich um eine irreführende Korrelation handelt. 2. Ist eine Korrelation zwischen zwei Dingen von -0,65 größer oder kleiner als eine Korrelation von +0,45 im Sinne einer „Stärke“ der Korrelation? 3. Es gibt eine positive Korrelation zwischen der Anzahl Zigaretten, die man raucht, und dem Auftreten von Herzkrankheiten. Können wir deshalb sagen, dass Rauchen schlecht für die Gesundheit ist? 4. Sehen Sie sich die folgenden Ergebnisreihen an, die sich auf die Übersetzung in die und aus der Muttersprache beziehen. Die Bewertungen liegen auf einer Zehn-Punkte-Skala mit 10 als der besten Note. aus Muttersprache in Muttersprache John 7 7 Peter 4 7 Ellis 7 8 Sara 6 7 Martin 8 8 Matty 10 3 Eve 5 7 Nancy 5 9 Adam 8 8 Mike 7 8 a) Berechnen Sie die Korrelation zwischen den zwei Ergebnisreihen mit Hilfe von Excel (oder einem weiteren Statistikprogramm). b) Ist die Korrelation positiv? Ist sie hoch? Ist sie signifikant? Berechnen Sie die Korrelation zwischen den zwei Ergebnisreihen ohne das Ergebnis von Matty, die hier als „Ausreißer“ erscheint! c) Haben Sie eine Erklärung für die merkwürdigen Resultate von Matty? d) Zeichnen Sie ein Streudiagramm der Daten. e) Schreiben Sie die Ergebnisse in einem Text zusammen! 5. Angenommen es gibt eine positive Beziehung zwischen den Testresultaten von Schulkindern und der Anzahl von Büchern in den Häusern, in denen sie wohnen. Was sagt Ihnen das? 6. Wir nehmen an einem Abendessen bei einem Familientreffen teil, und der erste Gang besteht aus Suppe mit Fleischklößchen. Die Mutter schöpft die Suppe aus, und ihre drei Söhne vergleichen die Anzahl von Fleischklößchen, die sie in ihrer Suppe finden. Der älteste Sohn hat zwei 138 9 Inferentielle Statistik I: Beziehungen zwischen Daten Fleischklößchen, der mittlere hat eines und der jüngste sechs. Die zwei älteren Söhne beschweren sich über diese Ungerechtigkeit. Sie sollten genauso viele Klößchen wie ihr kleiner Bruder bekommen. Die ungleiche Anzahl der Klößchen legt nahe, dass die Mutter sie mit Absicht so verteilt hat, zum Beispiel, wie der älteste Sohn behauptet, weil sie den jüngsten Sohn schon immer am liebsten mochte. Die Mutter sagt natürlich, dass die Kinder ungefähr die gleiche Anzahl von Klößchen bekommen sollten und dass die Ungleichheit ein Unfall ist. Sie behauptet, dass sie all ihre Söhne gleich lieb hat, und besteht darauf, dass sie die Klößchen nicht gezählt hat, als sie die Suppe austeilte. Ihr könne also keine Schuld zugewiesen werden, der Unterschied sei zufällig entstanden. Kann die Mutter Recht haben? 10 10 10 10 Inferentielle Statistik II: Experimentelle Daten Inferentielle Statistik II: Experimentelle Daten Inferentielle Statistik II: Experimentelle Daten Inferentielle Statistik II: Experimentelle Daten Im vorigen Kapitel haben wir uns zum ersten Mal mit der inferentiellen Statistik befasst. Inferentielle Statistik ermöglicht u.a., Ergebnisse zum Verhalten einer relativ kleinen Gruppe von Menschen auf Tendenzen in der Gesamtpopulation zu übertragen. Nötig ist dazu die Auswahl eines angemessenen experimentellen Verfahrens und die richtige Wahl des statistischen Prüfverfahrens. Dabei ist es extrem wichtig, schon vor der Datenerhebung zu wissen, mit welchem statistischen Verfahren man die Daten später auswertet; natürlich ist es auch extrem wichtig, dass man das passende experimentelle Verfahren auswählt. Deswegen behandeln wir in diesem Kapitel die häufigsten Tests, die in experimentellen Studien der Linguistik und Sprachlehrforschung verwendet werden. Wenn wir ein Experiment durchführen, vergleichen wir die Daten verschiedener Zustände oder Ausprägungen der abhängigen Variablen. Tabelle 1 ist ein Beispiel für eine Reihe von Daten, die aus verschiedenen Experimenten stammen können. Tabelle 1: Beispiele für Daten Forschungsfrage Zustand X Zustand Y (1) Beeinflusst Alkohol die Fahrtüchtigkeit? umgefahrene Verkehrshütchen in nüchternem Zustand umgefahrene Verkehrshütchen in „betrunkenem“ Zustand (2) Gibt es einen Unter- schied zwischen Vokabellehrmethode X und Y? Ergebnisse bei einem Vokabeltest nach Lehrmethode X Ergebnisse bei einem Vokabeltest nach Lehrmethode Y Testpersonen X Y Ellis 4 5 Sara 4 8 Martin 2 7 Matty 2 6 Eve 7 8 Nancy 5 8 Mittelwert 4 7 S 1,90 1,27 Leider sagt uns eine einfache Berechnung des Mittelwerts und der Standardabweichung jeder Gruppe wenig darüber, ob in der Tat bedeutsame Unterschiede zwischen den Gruppen bestehen. Auch die Erstellung einer Grafik mit den erhobenen Ergebnissen hilft uns wenig, genau zu wissen, ob wirklich Unterschiede zwischen den Mittelwerten der Gruppen bestehen (Abbildung 1): Prüfstatistik 140 10 Inferentielle Statistik II: Experimentelle Daten Abb. 1: Mittelwerte der untersuchten Gruppen Wenn wir etwas mehr über die Bedeutsamkeit des Verhaltens unserer Versuchsteilnehmer wissen wollen (und das wollen wir natürlich), müssen wir uns für ein weiteres statistisches Verfahren entscheiden. Welches wir verwenden, hängt von unterschiedlichen Faktoren ab: Geht es um eine Gruppe, die zwei- oder mehrmals in den unterschiedlichen Zuständen untersucht wird (Abhängige-Gruppen- Design bzw. Messwiederholungsdesign) oder um zwei unterschiedliche Gruppen, die mit einander verglichen werden (Unabhängige- Gruppen-Design)? Mit was für Daten (abhängige Variable) haben wir es zu tun? Sind sie nominal-, ordinal- oder intervallskaliert? Wie groß sind die Gruppen? (Kleinere Gruppen brauchen besondere Prüfverfahren.) 1 Die Daten aus Tabelle 1 legen ein Messwiederholungsdesign nahe, weil jeder der Testpersonen zwei Ergebnisse zugeordnet werden (weil jede Person in beiden Zuständen getestet wurde). Angenommen, diese Daten wären so entstanden, dass wir nicht eine Gruppe von 6 Personen zweimal, sondern zwei Gruppen von je 6 Personen, also 12 Personen, unabhängig voneinander die Aufgaben lösen lassen (also 6 nüchterne und 6 andere, betrunkene Personen fahren den Parcours mit den Verkehrshütchen im 1. Fall; oder 6 1 Eine vierte Frage, die häufig gestellt wird, ist: Sind die Ergebnisse normalverteilt? Eine Normalverteilung bedeutet, dass die Ergebnisse um den Mittelpunkt verteilt sind, wie Sie es von der Gaußschen Glocke kennen (vgl. Kapitel 8.3). Wir sollten daher niedrige und hohe Werte haben, und die meisten Werte sollten dazwischen liegen. Allerdings finden Sie in neueren Statistikbüchern oft den Hinweis, dass eine Normalverteilung für den t-Test sowie für die Varianzanalyse gar nicht notwendig ist; beide Tests sind robust genug, auch mit nicht normalverteilten Daten umzugehen (außer bei wirklich sehr kleinen Gruppengrößen). Wahl des Verfahrens 141 Personen absolvieren den Vokabeltest nach Lehrmethode X und 6 Personen nach Methode Y im zweiten Fall), dann hätten wir ein Unabhängige- Gruppen-Design. Des Weiteren nehmen wir hier für Übungszwecke an, dass die Daten in Tabelle 1 auf einer Intervallskala angeordnet sind (in unserem Beispiel auf einer Skala von 0 bis 10). Wenn wir uns die Durchschnittswerte für die zwei Zustände (4 und 7) ansehen, stellen wir einen Unterschied fest. Nun stellt sich die Frage, ob wir sagen können, dass sich der Mittelwert vom Zustand X wirklich vom Mittelwert des Zustands Y unterscheidet, denn wir finden natürlich immer Unterschiede, wenn wir die Ergebnisse von zwei Gruppen oder zwei Tests vergleichen: Ergebnisse sind praktisch nie exakt numerisch gleich. Wie wir im letzten Kapitel gesehen haben, gibt uns die inferentielle Statistik die Möglichkeit zu testen, ob die von uns gefundenen Unterschiede signifikant sind. Für die Auswahl des Tests gilt prinzipiell Folgendes: Bei intervallskalierten Daten von zwei Gruppen (oder von einer Gruppe, die zweimal getestet wird), die jeweils mindestens 20 Teilnehmer haben, verwenden wir den t-Test, bei kleineren Gruppengrößen entweder den Mann-Whitney-U-Test (bei zwei unterschiedlichen Gruppen) oder den Wilcoxon-Test (bei einer Gruppe, die man zweimal testet). Bei mehr als zwei Gruppen verwendet man dann eine ANOVA. Hat man es dagegen mit nominalskalierten Daten zu tun, nimmt man meist einen Chi-Quadrat-Test. Bei ordinalskalierten Daten (wie zum Beispiel Häufigkeitsdaten) werden häufig entweder ein Chi-Quadrat oder ein Mann-Whitney-U-Test bzw. ein Wilcoxon-Test verwendet. Wir beschreiben in diesem Kapitel die Vorgehensweisen bei jedem dieser Tests. Für dieses Kapitel brauchen wir wie beim vorigen die Konzepte der Freiheitsgrade (wenn Sie sich nicht mehr daran erinnern, schlagen Sie noch einmal in Kapitel 9.1 nach). Dazu müssen wir noch einseitige vs. zweiseitige Hypothesen erläutern. Hypothesen, die eine bestimmte Ergebnisrichtung voraussagen, sind einseitige Hypothesen. Diese behaupten also, dass der Unterschied nur in eine bestimmte Richtung gehen kann, dass z.B. eine bestimmte Gruppe bessere Ergebnisse haben muss als die andere. Prüfverfahren, die von zweiseitigen Hypothesen ausgehen, überprüfen Hypothesen, die nur einen Unterschied vorhersagen, aber nicht eine bestimmte Richtung. Beim zweiten Beispiel in Tabelle 1 wäre eine zweiseitige Hypothese also: „Es wird einen Unterschied geben zwischen der Gruppe, die nach Methode X unterrichtet wird, und der Gruppe, die nach Methode Y unterrichtet wird.“ Weil Prüfverfahren für zweiseitige Hypothesen konservativer sind, verwenden wir in diesem Buch nur diese. 2 2 Wenn wir zweiseitige Prüfverfahren verwenden, laufen wir weniger Gefahr, sogenannte „Fehler 1. Art“ bzw. „α-Fehler“ zu machen. Dies passiert, wenn eine Hypothese fälschlich für wahr gefunden wird, wenn man z.B. glaubt, dass eine Beziehung zwischen zwei Elementen besteht, die aber gar nicht vorhanden ist. Das Pendant dazu, der „β-Fehler“ oder „Fehler 2. einseitige vs. zweiseitige Hypothesen 10 Inferentielle Statistik II: Experimentelle Daten 142 10 Inferentielle Statistik II: Experimentelle Daten 10.1 10.1 10.1 10.1 Tests für intervallskalierte Daten Tests für intervallskalierte Daten Tests für intervallskalierte Daten Tests für intervallskalierte Daten 10.1.1 10.1.1 10.1.1 10.1.1 Annahmen, die Tests für intervallskalierte Daten voraussetzen Annahmen, die Tests für intervallskalierte Daten voraussetzen Annahmen, die Tests für intervallskalierte Daten voraussetzen Annahmen, die Tests für intervallskalierte Daten voraussetzen Mit Tests für intervallskalierte Daten können wir Unterschiede zwischen Datensätzen nachweisen, aber nur, wenn bestimmte Bedingungen erfüllt sind. Unter anderem sollen die Ergebnisse: intervallskaliert sein möglichst normalverteilt (dies ist aber nicht unbedingt notwendig, s.o.) mindestens eine Anzahl von 20 pro Datensatz erreichen. 3 Es gibt zwei Tests, die normalerweise für intervallskalierte Daten verwendet werden. Einen t-Test kann man benutzen, um zwei Datensätze zu vergleichen. Wenn man statt zwei Ergebnislisten drei oder mehr hat, kann man den t-Test nicht benutzen. Wir dürfen auch nicht so vorgehen, dass wir X mit Y vergleichen, und Y mit Z und X mit Z. Wenn es mehr als eine Variable gibt oder mehr als zwei Ebenen einer Variablen, müssen wir eine Varianzanalyse (ANOVA, analysis of variance) durchführen (s. Kapitel 10.1.4). 10.1.2 10.1.2 10.1.2 10.1.2 t tt t- -- -Test Test Test Test 4 44 4 für abhängige Gruppen für abhängige Gruppen für abhängige Gruppen für abhängige Gruppen Der am häufigsten gebrauchte - und am häufigsten missbrauchte - Test zur Überprüfung der Unterschiede zwischen zwei Datensätzen ist der t-Test. 5 Nehmen wir als Beispiel die Forschungsfrage 2 aus Tabelle 1: „Gibt es einen Unterschied zwischen Vokabellehrmethode X und Y? “ Wir haben es mit einem Messwiederholungsdesign mit intervallskalierten Daten (beispielsweise die Anzahl der richtig übersetzten Wörter) zu tun. In diesem Fall können wir einen t-Test für ein Messwiederholungsdesign verwenden, den t- Test für abhängige Stichproben. Dieser Test ergibt einen sogenannten t- Wert. Um den t-Wert zu ermitteln, können wir (wie bei den Korrelationen) entweder per Hand mehrere Formeln durchrechnen, oder wir machen es uns Art“, passiert, wenn man eine vorhandene Beziehung nicht findet, z.B. weil die Stichprobe zu klein ist, um statistische Signifikanz zu erreichen. 3 Bei größeren Stichproben geben wir meist die z-Werte an - wie weit ein einzelner Wert (das Ergebnis einer einzelnen Versuchsperson zum Beispiel) vom Mittelwert der Gesamtgruppe entfernt liegt (Standardabweichung). Da wir normalerweise mit kleineren Gruppen zu tun haben, ist für uns der t-Test interessanter. 4 Der t-Test wird manchmal auch „Student's t-test“ genannt nach dem Pseudonym des Mathematikers, der ihn entwickelt hat. 5 Wenn man sehr kleine Gruppen hat, verwendet man statt des t-Tests den Mann-Whitney- U-Test. Da es selten vorkommt, dass man so kleine Gruppen untersucht, gehen wir auf den Mann-Whitney-U-Test im Folgenden nicht ein, empfehlen ihn aber, falls Sie wirklich sehr kleine Gruppen untersucht haben. - Wir verwenden übrigens bei unseren Beispielen alleine der Anschaulichkeit halber immer nur eine kleinere Anzahl Ergebnisse. t-Test abhängige Stichproben 143 10.1 Tests für intervallskalierte Daten mit einem Statistikprogramm 6 einfacher. Wenn Sie dies mit Excel vollziehen, müssen Sie (nachdem Sie die Daten eingegeben haben) bei Daten / Analyse- Funktion/ Datenanalyse auf Zweistichproben t-Test bei abhängigen Stichproben klicken. Sie sehen dann einen Bildschirm, in den Sie einfügen sollen, was der „Bereich Variable A“ ist (das ist Ihre erste Spalte mit Zahlen und dem Titel: A1- A7) und was der „Bereich Variable B“ ist (das ist Ihre zweite Spalte mit Zahlen und dem Titel: B1-B7). Klicken Sie dann in den Kreis vor „Ausgabebereich“, setzen Sie den Cursor in diesen „Ausgabebereich“ und klicken Sie auf Zelle D1 in Ihrem Excel-Dokument. Dann wird $D$1 ausgefüllt. Sie bekommen dann einen Bildschirm wie in Abbildung 2 (wir haben hier die zwei für uns wichtigsten Werte der Einfachheit halber hervorgehoben): Abb. 2: Berechnung des t-Werts mit Excel Wir erhalten somit einen t-Wert (t-Statistik) von t=-4,39. Nun sagt uns der einfache t-Wert wenig darüber, ob es tatsächlich Unterschiede zwischen den Gruppen gibt. Um herauszufinden, ob dieser Wert auch (statistisch) signifikant ist, schauen wir in die Zeile 13 („P(T<=t) zweiseitig“). 7 Dieser Wert ist 0,0070776. Da wir im Normalfall mit p-Werten von p<0,05, p<0,01 und p<0,001 arbeiten, können wir hier zusammenfassen, dass unser p<0,01 ist. 8 Das bedeutet, dass unser t-Wert signifikant auf dem 0,01-Niveau ist. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist geringer als 0,01 bzw. 1%; die Differenz ist also mit 99%-iger Wahrscheinlichkeit nicht durch Zufall bedingt. 6 Bei Excel brauchen Sie für komplexere statistische Berechnungen das Excel Analysis Toolpack, was Sie aber online finden, herunterladen und installieren können. 7 Bei einseitigen Hypothesen, also wenn man sicher ist, dass eine Veränderung nur in eine Richtung möglich ist, kann man die einseitige Berechnung verwenden; wir raten aber, wie oben besprochen, davon ab. 8 Ein Rechnerprogramm gibt für p den exakten Wert an; in der Ausformulierung im Forschungsbericht gibt man aber meist an, ob der p-Wert kleiner ist als 0,001, 0,01 oder 0,05; hier also p<0,01. Dabei bedeutet „<0,01“ zwar kleiner als 0,01, aber größer als 0,001. 144 10 Inferentielle Statistik II: Experimentelle Daten In der Ergebnisdarstellung schreiben wir dann: (t(5)= -4,39, p<0,01), wobei „(5)“ die Freiheitsgrade wiedergibt (wie man dies als Text zusammenfasst, sehen Sie beim t-Test für unabhängige Gruppen). 10.1.3 10.1.3 10.1.3 10.1.3 t tt t- -- -Test für unabhängige Gruppen Test für unabhängige Gruppen Test für unabhängige Gruppen Test für unabhängige Gruppen Wenn wir zwei unterschiedliche Gruppen vergleichen wollen - also ein Unabhängige-Gruppen-Design vorliegt -, kann der t-Test ebenfalls verwendet werden, hat aber dann eine andere Form. Nehmen wir an, wir haben zwei (zufällig ausgewählte) Gruppen von Schülern und lehren das Leseverständnis auf zwei unterschiedliche Arten - zum Beispiel mit einer traditionellen Methode (Methode Y) und einer solchen Methode, die die Schüler anregt, die Bedeutung der unbekannten Wörter zu erraten (Methode X). Am Ende des Schuljahres lassen wir sie einen Test absolvieren; dessen Resultate finden sich in Tabelle 2. Obwohl wir mit jeweils zehn Schülern pro Gruppe anfingen, gehören den beiden Gruppen eine unterschiedliche Anzahl von Schülern an, da zwei Schüler aus Gruppe X und drei Schüler aus Gruppe Y im Laufe des Experiments absprangen. Das ist ärgerlich, aber hindert uns nicht daran, statische Berechnungen durchzuführen. 9 Um herauszufinden, ob die ermittelten Differenzen signifikant sind, führen wir einen t-Test für unabhängige Gruppen durch. Tab. 2: Ergebnisse bei einem Unabhängigen-Gruppen-Design 9 Viele Studierende denken, die untersuchten Gruppen müssten auf jeden Fall gleich groß sein und lassen am Ende in der Auswertung Daten aus der größeren Gruppe weg, damit sie auf gleich große Gruppen kommen. Natürlich ist es sinnvoll, sein Experiment mit ungefähr gleich großen Gruppen anzufangen, aber für die statistische Auswertung ist es nicht nötig. unabhängige Gruppen Experimentalgruppe Methode X Kontrollgruppe Methode Y Testpersonen Ergebnisse X Ergebnisse Y 1 8 5 2 7 6 3 7 6 4 9 4 5 8 6 6 8 5 7 9 3 8 8 Mittelwert X = 8 Y = 5 n n1 = 8 n2 = 7 145 10.1 Tests für intervallskalierte Daten Um den t-Wert zu ermitteln, geben Sie die Daten in ein Excel-Tabellenblatt ein und berechnen den t-Wert wie folgt: Klicken Sie bei Daten / Analyse- Funktion/ Datenanalyse auf Zweistichproben t-Test bei gleichen Varianzen. Sie sehen dann einen Bildschirm, in den Sie einfügen sollen, was der „Bereich Variable A“ ist und was der „Bereich Variable B“ ist. Klicken Sie dann in den Kreis vor „Ausgabebereich“, setzen Sie den Cursor in diesen „Ausgabebereich“ und klicken Sie auf Zelle D1 in Ihrem Excel-Dokument. Dann wird $D$1 ausgefüllt. Sie bekommen dann die Ergebnisse wie in Tabelle 3 abgebildet (wir haben hier wie im letzten Beispiel die zwei für uns wichtigsten Werte der Einfachheit halber hervorgehoben): Tabelle 3: Excel-Ausgabe eines Zweistichproben t-Tests Zweistichproben t-Test unter der Annahme gleicher Varianzen X Y Mittelwert 8 5 Varianz 0,571428571 1,333333333 Beobachtungen 8 7 Gepoolte Varianz 0,923076923 Hypothetische Differenz der Mittelwerte 0 Freiheitsgrade (df) 13 t-Statistik 6,033241252 P(T<=t) einseitig 2,10601E-05 Kritischer t-Wert bei einseitigem t-Test 1,770933383 P(T<=t) zweiseitig 4,21201E-05 Kritischer t-Wert bei zweiseitigem t-Test 2,160368652 Wir erhalten somit einen t-Wert (t-Statistik) von 6,03. Um die Signifikanz zu bestimmen, schauen wir in die Zeile 13 („P(T<=t) zweiseitig“). Dieser Wert ist 0,0004212. Wir runden dies zu einem Signifikanzniveau von 0,001 auf. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist geringer als 0,001 bzw. 0,1% - die Differenz ist also mit 99,9%-iger Wahrscheinlichkeit nicht durch Zufall bedingt. Wir können dieses Ergebnis nun wie folgt im Teil „Ergebnisse“ unseres Artikels oder unserer Arbeit präsentieren: Die Ergebnisse für die zwei experimentellen Bedingungen wiesen signifikante Differenzen auf. Schüler, die nach Methode X unterrichtet wurden, erreichten mit einem Mittelwert von 8,0 wesentlich höhere Ergebnisse als die nach Methode Y (Mittelwert: 5,0) unterrichteten (t(13)=6,03, p<0,001). Dies legt nahe, dass Methode X für Fremdsprachenlerner bevorzugt werden sollte, die die Anfangsphase des Sprachlernens schon hinter sich haben. Alternativ schreibt man die Ergebnisse auch so: (t=6,03, df=13, p<0,001). Formulierung im Forschungsbericht 146 10 Inferentielle Statistik II: Experimentelle Daten 10.1.4 10.1.4 10.1.4 10.1.4 Varianzanalyse (ANOVA: Varianzanalyse (ANOVA: Varianzanalyse (ANOVA: Varianzanalyse (ANOVA: analysis of varia analysis of varia analysis of varia analysis of varian nn nce ce ce ce ) )) ) Bisher haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder werden zwei unterschiedliche Ergebnisse einer Gruppe verglichen oder zwei Gruppen werden verglichen). Oftmals liegt jedoch mehr als eine unabhängige Variable vor oder mehr als zwei Gruppen werden verglichen, oder es gibt mehr als nur zwei Datensätze für eine Gruppe. In diesen Fällen muss eine ANOVA durchgeführt werden, eine Varianzanalyse. Auch eine ANOVA kann relativ leicht in Excel berechnet werden (auf Grund der vielen involvierten Berechnungen würde man dies nie per Hand machen, weswegen wir die Formeln auch nicht ins Online- Verzeichnis aufgenommen haben). Wir werden im Folgenden zwei Beispiele für die Verwendung einer ANOVA besprechen. 10.1.4.1 Einfache Varianzanalyse Nehmen wir an, wir wollen herausfinden, ob Studenten mit den Hauptfächern Geschichte, Politik und Medienwissenschaft die gleichen Englischkenntnisse besitzen. In unserem Beispiel messen wir „Englischkenntnisse“, indem wir drei Gruppen mit je zehn Studenten einen Vokabeltest mit 50 Fragen absolvieren lassen. Wir haben eine unabhängige Variable, nämlich „Hauptfach“, mit drei Ebenen: Geschichte, Politik und Medienwissenschaft. Die abhängige Variable ist das Ergebnis im Vokabeltest. Die Ergebnisse unserer fiktiven Forschung finden sich in Tabelle 4. Tabelle 4: Ergebnisse des Vokabeltests Testperson Geschichte Politik Medienwissenschaft 1 22 22 30 2 30 36 29 3 26 28 29 4 35 31 46 5 20 23 47 6 27 25 31 7 26 32 47 8 32 30 49 9 17 39 33 10 22 29 37 Mittelwert 25,7 29,5 37,8 Wenn wir uns nur die Mittelwerte der drei Gruppen ansehen, stellen wir fest, dass die Medienwissenschaftsgruppe den höchsten Mittelwert (37,8) und die Geschichtsgruppe den niedrigsten Mittelwert (25,7) hat, während die Politik- 147 10.1 Tests für intervallskalierte Daten gruppe in der Mitte liegt (Mittelwert: 29,5). Nun stellt sich wie immer die Frage: Sind diese Unterschiede signifikant? Anders ausgedrückt: Können wir behaupten, dass die Variable „Hauptfach“ einen Effekt hat? Weil wir mehr als zwei Gruppen haben, können wir keinen t-Test benutzen. Stattdessen müssen wir eine ANOVA durchführen, um diese Frage zu beantworten. Weil wir eine unabhängige Variable haben, ist dies eine einfache Varianzanalyse. (Hätten wir zwei unabhängige Variablen, würden wir eine zweifache Varianzanalyse durchführen, bei drei unabhängigen Variablen eine dreifache Varianzanalyse etc.) Auch eine einfache ANOVA können wir leicht mit Excel berechnen. Die wichtigsten Werte, die wir dabei erhalten, sind die, die wir in einer Zeile „Unterschiede zwischen den Gruppen“ erhalten; das sind der F-Wert sowie der p- Wert. Wenn Sie die drei Datenreihen in eine Excel-Mappe eingeben und bei „Datenanalyse“ - „Einfaktorielle Varianzanalyse“ im Eingabebereich alle Daten eingeben, erhalten Sie ein Ergebnis wie in Tabelle 5: Tabelle 5: Ergebnisse einer einfachen Varianzanalyse ! " Der Einfachheit halber haben wir hier wieder die zwei wichtigsten Werte hervorgehoben. Der F-Wert ist 8,67, und dieser ist signifikant, wie wir aus seinem zugeordneten p-Wert (hier 0,0012) entnehmen können. Das bedeutet, dass die Variable „Hauptfach“ in dem Sinne einen Effekt hat, dass die drei Gruppen nicht gleich sind. Vorerst sind die anderen Daten in der Tabelle für uns nicht relevant - bis auf zwei andere Werte, die in einer Forschungsstudie normalerweise erwähnt werden, nämlich die df-Werte (in der ersten Reihe der Tabelle finden wir dort die Zahl 2, nämlich die Anzahl unserer Gruppen minus 1, und in der zweiten Reihe die Zahl 27, die für die Anzahl der Testpersonen minus der Anzahl der Gruppen steht). 10 Die Tabelle wird im Forschungsbericht normalerweise nicht wiedergegeben, sondern wie folgt zusammengefasst: „F(2,27)=8,67, p=0,0012“, wo- 10 Bei einer ANOVA finden wir immer zwei Freiheitsgrad-Angaben, während wir zum Beispiel bei einem t-Test nur einen Wert für die Freiheitsgrade haben. Das liegt daran, dass wir bei einem t-Test wissen, dass wir nur zwei Gruppen haben; das müssen wir also nicht extra angeben. Bei Varianzanalysen hat man es mit mehr als zwei Gruppen zu tun; es muss angegeben werden, um wie viele Gruppen es sich handelt; die Anzahl der Freiheitsgrade ist dann die Anzahl der Gruppen minus eins (hier 3-1=2). Der zweite Wert ergibt sich wie beim t- Test aus der Zahl der Versuchsteilnehmer minus der Anzahl von Gruppen (hier 30-3=27). Übrigens ergibt eine ANOVA mit nur zwei Faktorstufen das gleiche Ergebnis wie ein t-Test. 148 10 Inferentielle Statistik II: Experimentelle Daten bei die zwei Zahlen in den Klammern die Freiheitsgrade (df) angeben. Statt p=0,0012 schreiben wir p<0,01. Ein signifikanter F-Wert sagt uns nur, dass unsere Gruppen nicht gleich sind. Er sagt uns sogar nur, dass die Gruppe mit dem höchsten Mittelwert von der Gruppe mit dem niedrigsten signifikant verschieden ist; der signifikante F-Wert kann uns nicht sagen, ob alle drei Gruppen voneinander signifikant verschieden sind. Um dies herauszufinden, müssen wir eine Folgeanalyse durchführen (die auch Post-hoc-Analyse genannt wird), wie beispielsweise den Tukey-Test, den Newman-Keuls-Test oder den Scheffé- Test. Wir werden diese Analysen aufgrund der Komplexität hier nicht behandeln, 11 sondern einfach annehmen, dass eine solche Analyse bei den oben genannten Daten durchgeführt wurde mit dem Ergebnis, dass die Medienwissenschaftsgruppe (die Gruppe mit dem höchsten Mittelwert) von der Politik- und Geschichtsgruppe verschieden ist, aber die Politikgruppe sich von der Geschichtsgruppe nicht signifikant unterscheidet. Diese Ergebnisse könnte man wie folgt präsentieren: Eine einfache ANOVA ergab, dass es einen Effekt von „Hauptfach“ (F(2,27)=8,67, p<0,01) gibt. Ein anschließend angewandter (post-hoc) Newman-Keuls-Test zeigte, dass die Medienwissenschaftsstudenten besser waren (p<0,01) als die Geschichtsstudenten und besser (p<0,01) als die Politikstudenten. Die Ergebnisse der beiden letztgenannten Gruppen waren jedoch nicht signifikant voneinander verschieden. Tabelle [Nr. X]: Ergebnisse des Englischkenntnis-Tests von Studenten verschiedener Hauptfächer (höchste erreichbare Punktzahl 50) #$ % & ' & 10.1.4.2 Zweifache Varianzanalyse mit Messwiederholung Nehmen wir an, wir haben die gleiche Situation wie in Beispiel 1, nur dass wir jetzt eine zweite Variable „Geschlecht“ mit zwei Ebenen (männlich und weiblich, also zwei unabhängige Variablen) haben. Dies bedeutet, dass wir nun sechs statt der ursprünglichen drei Gruppen haben, da jede Gruppe in weibliche und männliche Studenten geteilt wird. Die Ergebnisse sind beispielhaft in Tabelle 6 dargestellt. 11 Post-hoc-Tests kann man mit Hilfe von Statistikprogrammen wie R oder SPSS durchführen. Folgeanalyse / Post-hoc-Analyse 149 10.1 Tests für intervallskalierte Daten Tabelle 6: Ergebnisse eines Englisch-Vokabeltests von sechs Gruppen ( $ #$ % & ' ") ") ") ") ") ! ! ! ! ! Excel kann sogar eine zweifache ANOVA durchführen (zweifach, weil es nun zwei unabhängige Variablen gibt). Die Arbeitsschritte sind sogar recht einfach, da die Ergebnisse aber relativ viel Platz einnehmen, haben wir sie in den Anhang 2.4 aufgenommen. Die wichtigsten Ergebnisse geben wir in Tabelle 7 wieder (wir runden hier auf drei Dezimalzahlen ab, sodass die Tabelle besser lesbar wird): Tabelle 7: ANOVA-Ergebnistabelle * + *, ' + *, ' + - " Wir sehen uns nun mit 3 F-Werten konfrontiert, einem für die unabhängige Variable „Geschlecht“, einem für die unabhängige Variable „Hauptfach“ und einem für die Interaktion 12 zwischen „Geschlecht“ und „Hauptfach“. Der F- Wert für „Hauptfach“ ist signifikant (F=8,089, p=0,002), die anderen beiden F-Werte sind es nicht, denn hierfür sind die p-Werte größer als 0,05. Dies bedeutet, dass die Variable „Hauptfach“ einen Effekt hat, nicht jedoch „Geschlecht“ oder „Hauptfach nach Geschlecht“. Man kann also sagen, dass (wie im ersten Beispiel, Kapitel 10.1.4.1) es einen Unterschied zwischen den Gruppen gibt, wenn man sie sich nur unter dem Gesichtspunkt „Hauptfach“ ansieht. Wir wissen aber noch nicht, ob alle Gruppen wirklich voneinander verschieden sind, sondern nur, dass auf jeden Fall zwei Gruppen differieren. 12 Der Begriff „Interaktion“ wurde kurz beschrieben in Kapitel 6.3. Interpretation der Werte 150 10 Inferentielle Statistik II: Experimentelle Daten Der F-Wert für „Geschlecht“ ist nicht signifikant, was bedeutet, dass es im Großen und Ganzen keinen Unterschied zwischen männlichen und weiblichen Studenten gibt. Der F-Wert für die Interaktion schließlich ist auch nicht signifikant, obwohl wir nach Abb. 3 vermuten könnten, 13 dass es eine gewisse Interaktion gibt. (In diesem Fall sollte man sich bei einem Statistiker erkunden, ob Ausreißer eine Interaktion „verstecken“.) Weil man eine Post-hoc-Analyse nur durchführt, wenn der F-Wert signifikant ist, würden wir hier nur einen Folgetest für die Variable „Hauptfach“ vornehmen. Wir tun dies, wenn wir herausfinden möchten, ob die Geschichtsgruppen sich von den Politik- oder den Medienwissenschaftsgruppen unterscheiden (die Post-hoc-Analyse führen wir hier nicht durch, sondern gehen davon aus, dass sie gemacht wurde). Abb. 3: Graph der Mittelwerte von sechs Gruppen Unsere Ergebnisse können wie folgt für einen Forschungsbericht zusammengefasst werden: Tabelle [Nr. X]: Ergebnisse des Englischkenntnis-Tests von männlichen und weiblichen Studenten verschiedener Hauptfächer (höchste erreichbare Punktzahl 50) #$ % & ' & ") . ! . & Eine zweifache ANOVA ergab einen Effekt von „Hauptfach“ (F(2,24)=8,09, p<0,01); siehe Tabelle [Nr.]. Kein Effekt wurde für die Variable „Geschlecht“ oder für eine Interaktion zwischen „Hauptfach“ und „Geschlecht“ gefunden. Ein anschließend durchgeführter Newman-Keuls-Test zeigte, dass die Medienwissenschaftsstuden - 13 Das können wir daran sehen, dass die Linien nicht parallel verlaufen. 151 10.2 Test für nominalskalierte Daten: der Chi-Quadrat-Test ten besser waren (p<0,01) als die Geschichtsstudenten und besser (p<0,05) als die Politikstudenten. Die Ergebnisse der beiden letztgenannten Gruppen waren jedoch nicht signifikant voneinander verschieden. 10.2 10.2 10.2 10.2 Test für nominalskalierte Daten: der Chi Test für nominalskalierte Daten: der Chi Test für nominalskalierte Daten: der Chi Test für nominalskalierte Daten: der Chi- -- -Quadrat Quadrat Quadrat Quadrat- -- -Test Test Test Test Die oben beschriebenen Tests (t-Tests und Varianzanalysen) werden für intervallskalierte Daten verwendet. Bei nominalskalierten Daten (wie Geschlecht, Erstsprache, Haarfarbe, sozioökonomischer Status usw.) verwenden wir häufig den Chi-Quadrat-Test. Da wir diesen Test schon ausführlich im vorigen Kapitel behandelt haben, werden wir uns hier auf die Anwendung des Tests bei experimentellen Verfahren beschränken. Nehmen wir als Beispiel die Forschungsfrage, ob man lange Kommentare über die Fehler in Schulaufsätzen schreiben sollte oder lieber sehr kurze. Lehrer korrigieren Aufsätze häufig so, dass sie Kommentare an den Rand schreiben, wenn der Schüler einen Fehler gemacht hat. Diese Rückmeldung kann „kurz“ oder „ausführlich“ sein. Nehmen wir an, ein Schüler schreibt: Beide Maler produzierten Selbstportraits, aber es sah gar nicht nach ihm selbst aus. Ein „kurzer“ Kommentar wäre: „Falsch; 'es' ist unklar.“ Ein „ausführlicher“ Kommentar könnte ungefähr so lauten: „Inkorrekte Referenz von 'es' und 'ihm selbst'. Im ersten Teil des Satzes beziehst du dich auf zwei Maler; auf was beziehen sich also 'es' und 'ihm selbst'? “ Wir könnten die Aufsätze auch ohne jeden geschriebenen Kommentar zurückgeben und den Schülern sagen, dass in ihren Aufsätzen sehr viele Fehler sind und sie sie neu schreiben müssen. In diesem Fall haben wir zu den verschiedenen Fehlern gar keinen Kommentar gegeben. Die Frage ist nun, welcher der drei Ansätze der effektivste ist. Nachdem die Schüler ihre Aufsätze ohne Kommentare oder mit kurzen oder mit ausführlichen Kommentaren zurückerhalten haben, schreiben sie sie neu und geben sie wieder ab. Einige der überarbeiteten Sätze sind nun korrekt, andere nicht. Wir wollen nun herausfinden, ob „kein Kommentar“, „kurzer Kommentar“ oder „ausführlicher Kommentar“ zu mehr korrekten Sätzen geführt hat, d.h., wir wollen wissen, ob es eine Beziehung zwischen der Art der Rückmeldung und der Verbesserung gibt. Wir untersuchen alle Sätze in der überarbeiteten Version, die in der Originalfassung einen Fehler enthielten, stellen fest, wie viele jetzt korrekt sind und wie viele immer noch in korrekt, und erhalten (bei ungefähr 80 Aufsätzen) die Verteilung in Tabelle 8. χ 2 = Chi-Quadrat - 152 10 Inferentielle Statistik II: Experimentelle Daten Tabelle 8: Beobachtete Häufigkeiten neugeschriebener Satz kein Kommentar kurzer Kommentar ausführlicher Kommentar inkorrekt 18 13 29 korrekt 2 67 55 Aus Tabelle 8 entnehmen wir, dass kurze Kommentare zu mehr korrekten Sätzen führen als ausführlichere Kommentare und dass die Methode, Aufsätze ohne Kommentar zurückzugeben, nicht sehr erfolgreich ist. Wir möchten aber feststellen, ob dies wirklich stimmt, d.h., ob es tatsächlich eine Beziehung zwischen der Art der Rückmeldung und den Ergebnissen der Schulaufsätze gibt, also die gefundenen Unterschiede nicht auch durch Zufall zu erklären sein könnten. Da wir bereits im Kapitel 9 die Berechnung des Chi-Quadrat-Werts behandelt haben, gehen wir hier nicht gesondert darauf ein, sondern gehen direkt zu den Ergebnissen, die Sie nach einer Online-Berechnung erhalten würden. In diesem Fall beträgt der Chi-Quadrat-Wert 39,9 bei 2 Freiheitsgraden (df). Unser p-Wert wird als <0,001 angegeben. Mit anderen Worten: Die Wahrscheinlichkeit, dass die Differenz zufällig ist, ist gleich null; die Differenz ist also mit fast 100%-iger Wahrscheinlichkeit nicht durch Zufall bedingt. Daher können wir sagen, dass es eine Beziehung zwischen der Art der Rückmeldung und der erzielten Verbesserung bei den Aufsätzen der Schüler gibt. Wollen wir die Ergebnisse für die Studie oben präsentieren (mit der Forschungsfrage, ob man lange Kommentare über die Fehler in Schulaufsätzen schreiben sollte oder lieber sehr kurze), können wir sie etwa wie folgt beschreiben: Ein bei den Daten in Tabelle X angewandter Chi-Quadrat-Test zeigte, dass kurze Kommentare zu signifikant besseren Ergebnissen führten als ausführliche Kommentare ( 2 =39,86, df=2, p<0,001). Dies ist ein erstaunliches Ergebnis, weil […] 10.3 10.3 10.3 10.3 Tests für ordinalskalierte Daten: U Tests für ordinalskalierte Daten: U Tests für ordinalskalierte Daten: U Tests für ordinalskalierte Daten: U- -- -Test und Wilcoxon Test und Wilcoxon Test und Wilcoxon Test und Wilcoxon- -- -Test Test Test Test Bislang haben wir Tests behandelt, die für intervallskalierte (t-Tests sowie Varianzanalysen) oder für nominalskalierte (Chi-Quadrat-Tests) Daten verwendet werden. Haben wir es aber mit ordinalskalierten Daten zu tun, also mit Daten, die nicht in gleichen Abständen voneinander verteilt werden, verwenden wir häufig entweder den Mann-Whitney-U-Test (bei unabhängigen Gruppen) oder den Wilcoxon-Test (bei abhängigen Gruppen). Den Friedman-Test, den wir hier nicht behandeln, weil er seltener verwendet wird, benutzt man, wenn man mehr als drei abhängige Variablen hat. In allen Fällen handelt es sich um sogenannte nonparametische Tests. Dies bedeutet lediglich, dass man sie auch anwenden kann, wenn man nicht davon Ergebnispräsentation 153 10.3 Tests für ordinalskalierte Daten: U-Test und Wilcoxon-Test ausgehen kann, dass die Daten normalverteilt sind (und das ist auch der Grund dafür, dass bei kleinen Gruppengrößen normalerweise anstatt des t- Tests der Mann-Whitney-U-Test verwendet wird - also auch bei intervallskalierten Daten). Leider kann Excel keinen dieser drei Tests durchführen, und die Handberechnung ist recht umständlich. Wie bei den Chi-Quadrat-Tests empfehlen wir eine Online-Version. Wir besprechen hier zwei Beispiele, wann Sie welchen Test einsetzen sollten. Szenario 1: Unabhängige-Gruppen-Design: Wir untersuchen wieder die Gruppe aus Kapitel 10.1.3 (zur Erinnerung: Gruppe X wurde mit einer neuen Vokabellernmethode unterrichtet, Gruppe Y mit einer traditionellen Methode). Wir wollen jetzt aber sehen, welche Gruppe mit dem Kurs zufriedener ist. Dafür bitten wir die Kursteilnehmer, ihre Vokabellerneinheiten zu beurteilen, und zwar auf einer Likert-Skala von 1 (fand ich ganz schrecklich) bis 5 (fand ich ganz toll). Daten, die mit Likert-Skalen erhoben werden, sind ordinalskaliert, weswegen wir hier keinen t-Test durchführen können. Weil wir es mit unabhängigen Gruppen (Experimentalgruppe X und Kontrollgruppe Y) zu tun haben, führen wir hier den Mann-Whitney-U-Test durch. Wir gehen davon aus, dass für diese kleine Gruppe folgende Daten erhoben wurden (Tabelle 9): Tabelle 9: Ergebnisse der Likert-Skala-Umfrage: Wie hat Ihnen der Kurs gefallen? Gruppe X Gruppe Y 4 3 4 4 3 3 5 2 3 3 5 3 4 1 4 Sie erinnern sich daran, dass wir für die Experimentalgruppe (X) acht Kursteilnehmer einbezogen hatten und für die Kontrollgruppe (Y) sieben Teilnehmer. Diese n-Werte müssen Sie angeben, wenn Sie den Mann-Whitney- U-Test online durchführen lassen 14 . Danach gelangen Sie zur Eingabetabelle. Sie geben die Daten unter „Raw Data“ ein und klicken auf „Calculate from raw data“ (Abb. 5): 14 Z.B. http: / / faculty.vassar.edu/ lowry/ utest.html [04.04.2010]. Die Berechnung ist übrigens noch einfacher in SPSS; sie ergibt dieselben Werte. unabhängige Gruppen 154 10 Inferentielle Statistik II: Experimentelle Daten Abb. 5: Eingabe ordinalskalierter Daten im Online-Statistikberechnungsprogramm Wir erhalten das Ergebnis (hier nicht abgebildet) „U [=Mann-Whitney U] = 8,00“. Das Programm zeigt uns anschließend, was unser p-Wert ist (Abb. 6): Abb. 6: Berechnung des p-Werts eines Mann-Whitney-U-Tests Unser U-Wert war U=8; wir gehen stets vom „non-directional test“ aus und sehen somit, dass der p-Wert p<0,02 ist. Weil wir in den Geisteswissenschaften aber prinzipiell nur die p-Werte p<0,001, p<0,01 und p<0,05 unterscheiden, nehmen wir p<0,05 für diese Stichprobe an. Beim U-Test müssen wir zudem die jeweiligen Gruppengrößen dort angeben, wo wir ansonsten immer die df aufführen. Wir berichten über die Ergebnisse unserer Erhebung wie folgt: Ein Mann-Whitney-U-Test ergab signifikante Unterschiede in der Zufriedenheit, gemessen mit einer Likert-Skala von 1 (fand ich ganz schrecklich) zu 5 (fand ich ganz toll), mit dem jeweiligen Kurs. Dabei zeigte sich die Experimentgruppe zufriedener mit dem Kurs als die Kontrollgruppe (U (n 1 =8, n 2 =7)= 8,00, p<0,05). Szenario 2: Abhängige-Gruppen-Design: Sie möchten untersuchen, ob Aussprachekurse für Austauschstudenten sinnvoll sind. Sie lassen Muttersprachabhängige Gruppen 155 10.4 Zusammenfassung: Wann man welchen Test benutzt ler einen von 14 Studenten vorgelesenen und auf Tonband aufgezeichneten Text mit den Noten 1,0 (muttersprachlich) bis 6,0 (nicht verständlich) bewerten. Nach einem Semester, in dem Studenten den Aussprachekurs belegt haben, lassen Sie eine ähnliche Aufnahme durchführen und erhalten die folgenden Daten (Tabelle 10): Tabelle 10: Noten vor und nach einem Phonetikkurs Weil wir es mit einem Abhängige-Gruppen-Design zu tun haben, müssen wir einen Wilcoxon-Vorzeichen-Rang-Test (auch Wilcoxon signed-rank test genannt) durchführen. 15 Wenn wir das Programm diesen Test berechnen lassen, erhalten wir einen z-Wert, hier das Ergebnis: z=1,67 (p=0,094), was nicht signifikant ist. Das bedeutet, dass der Aussprachekurs - zumindest für unsere 14 Teilnehmenden - die Aussprache nicht signifikant verbessert hat. (Das muss aber nicht das Aus für unsere Hypothese bedeuten - eventuell wird das Ergebnis mit mehr Teilnehmenden signifikant, wie wir auch im nächsten Kapitel sehen werden.) 10.4 10.4 10.4 10.4 Zusammenfassung: Wann man welchen Test benutzt Zusammenfassung: Wann man welchen Test benutzt Zusammenfassung: Wann man welchen Test benutzt Zusammenfassung: Wann man welchen Test benutzt In diesem Buch haben wir die in der Sprachwissenschaft am häufigsten verwendeten statistischen Tests besprochen: Pearson-r für Korrelationen, den Chi-Quadrat-Test, den t-Test für korrelierende Stichproben sowie für unabhängige Gruppen und die Varianzanalyse. Es gibt noch viele andere, auch häufig verwendete statistische Tests in der Linguistik (u.a. die lineare Regression oder den Friedman-Test). Weil es nicht immer einfach ist zu entscheiden, welchen Test man verwenden soll, ist es empfehlenswert, dass Studenten, die quantitative Forschung betreiben, die Sache mit jemandem, der über Statistikkenntnisse verfügt, besprechen, bevor sie ihre Daten sammeln, damit die Datenerhebung so gut wie möglich auf die spätere Auswertung abgestimmt ist. Es passiert nur allzu häufig, dass die Daten gesammelt werden, bevor man weiß, wie man sie später auswerten möchte - oder dass man aus Versehen oder Unkenntnis den falschen Test einsetzt. 15 Online z.B.: http: / / faculty.vassar.edu/ lowry/ wilcoxon.html [04.04.2010] Anfang Ende Anfang Ende 2,3 1,7 4,3 4,7 3,0 2,7 2,0 1,7 4,0 2,7 3,3 3,0 3,7 3,7 4,0 3,3 3,0 3,0 3,0 2,7 5,3 5,0 2,0 2,0 2,7 2,3 3,3 3,7 Wahl des Testverfahrens 156 10 Inferentielle Statistik II: Experimentelle Daten In vielen Fällen hilft es zur Auswahl des richtigen Testverfahrens, sich von den untenstehenden Fragen leiten zu lassen: 1. Mit welcher Art von Forschung haben Sie es zu tun? a. qualitative Forschung (kein statistisches Verfahren anwendbar) b. nicht-experimentell (man zählt lediglich Dinge, Kap. 8; oder man untersucht Beziehungen zwischen zwei (oder mehr) Gruppen oder Datensätzen, Kap. 9) c. experimentelle Forschung (man manipuliert eine Variable, Kap. 10) 2. Mit welcher Art von Fragestellung haben Sie es zu tun? a. die Beziehung zwischen zwei Variablen soll beschrieben werden (Kap. 9) b. eine Hypothese soll getestet werden, die unabhängige und abhängige Variablen einbezieht (Kap. 10). Falls es unabhängige und abhängige Variablen gibt, dann: gibt es eine oder mehrere unabhängige Variable(n)? gibt es eine oder mehrere abhängige Variablen(n)? 3. Welche Art von Daten liegt vor? a. Nominalskalierte Daten (Häufigkeiten) b. Ordinalskalierte Daten (Reihenfolge) c. Intervallskalierte Daten 4. Wie viele Datensätze gibt es? a. zwei, und zwar: i. dieselben Personen werden getestet (abhängige Gruppen) ii. zwei unterschiedliche Gruppen werden getestet (unabhängige Gruppen) b. drei oder mehr, und zwar: i. dieselben Personen werden getestet ii. drei oder mehr unterschiedliche Gruppen werden getestet Wir fassen in Tabelle 11 die verschiedenen statistischen Tests für experimentelle Verfahren zusammen: 157 Aufgaben Tabelle 11: Auswahl des richtigen Tests für experimentelle Verfahren Anzahl Datensätze Anzahl Gruppen Skalenniveau Verfahren 2 1 intervall t-Test für abhängige Gruppen 2 intervall t-Test für unabhängige Gruppen 1 ordinal Wilcoxon-Test 2 ordinal Mann-Whitney-U-Test 1-2 nominal Chi-Quadrat-Test 3+ 3+ intervall ANOVA 1 intervall ANOVA mit Messwiederholung 1 ordinal Friedman-Test A AA Aufgabe ufgabe ufgabe ufgaben nn n 1. Sehen Sie sich die Daten in der untenstehenden Tabelle an. Sie beziehen sich auf die Ergebnisse von zwei zufällig ausgewählten Schülergruppen bei einem Sprachtest. Die Ergebnisse sind auf einer 10-Punkte-Skala abgebildet. Eine Gruppe (Gruppe A) wurde von jungen, enthusiastischen, aber unerfahrenen Lehrern unterrichtet, die andere Gruppe (Gruppe B) wurde von einem seit 1965 an der Schule befindlichen Lehrer unterrichtet. Finden Sie heraus, ob der alte Lehrer vielleicht darüber nachdenken sollte, in den Ruhestand zu gehen. Testperson Gruppe A Gruppe B 1 8 7 2 10 4 3 8 6 4 6 8 5 7 6 6 6 7 7 6 6 8 8 6 9 4 5 10 3 3 11 7 5 12 4 5 13 7 3 14 8 7 15 5 6 16 3 2 17 9 7 158 10 Inferentielle Statistik II: Experimentelle Daten 18 10 6 19 8 2 20 5 6 2. Die zwei Schülergruppen aus Aufgabe 1 haben einen Fragebogen erhalten. Eine der Fragen war: „Glauben Sie, dass Lehrer, die älter als 50 Jahre sind, über den Vorruhestand nachdenken sollten? “ Es ergab sich, dass alle Schüler, die fünf oder mehr Punkte in Gruppe A erreicht hatten, diese Frage bejahten, wohingegen dies in Gruppe B nur bei den Schülern der Fall war, die sechs oder mehr Punkte hatten. Finden Sie heraus, ob es eine Beziehung zwischen der Einstellung der Schüler und dem Alter des Lehrers, der sie unterrichtete, gibt. (Achtung: Sie brauchen hierfür Ihre Kenntnisse aus Kapitel 9! ) 3. Sie entscheiden sich, ein Forschungsprojekt zu beginnen, um herauszufinden, ob es einen Unterschied in der Satzlänge bei Artikeln über Politik in Boulevard-Zeitungen und seriösen Zeitungen gibt. Sie berechnen dazu den Mittelwert der Anzahl der Wörter in den Artikeln von sechs Boulevardzeitungen und sieben seriösen Zeitungen und erhalten die folgenden Resultate: Boulevard-Zeitungen seriöse Zeitungen Zeitung 1 9 22 Zeitung 2 14 30 Zeitung 3 17 28 Zeitung 4 20 27 Zeitung 5 10 40 Zeitung 6 14 16 Zeitung 7 21 Führen Sie einen geeigneten statistischen Test durch um herauszufinden, ob die Unterschiede wahrscheinlich vom Zufall abhängen oder signifikant sind, und schreiben Sie einen kurzen Forschungsbericht, in dem Sie auch Ihre Schlussfolgerungen ziehen. 11 11 11 11 Signifikanz Signifikanz Signifikanz Signifikanz vs. vs. vs. vs. Aussagekraft Aussagekraft Aussagekraft Aussagekraft 11.1 11.1 11.1 11.1 Interpretation des Signifikanzniveaus Interpretation des Signifikanzniveaus Interpretation des Signifikanzniveaus Interpretation des Signifikanzniveaus In den letzten Kapiteln haben wir unterschiedliche Arten von statistischen Tests besprochen (Korrelationen, Chi-Quadrat, t-Tests, ANOVA, Mann- Whitney-U-Tests und Wilcoxon-Tests) und in jedem Fall bekamen wir einen Wert als Ergebnis unserer Berechnungen, z.B. r=0,83, 2 (2)=39,86, t(5)= -4,39, F(2,24)=8,09, U(n 1 =8, n 2 =7)=8,00, z=1,67. Dieser Wert, in Kombination mit der Anzahl der Freiheitsgrade (wo das nötig ist, hier wiedergegeben), ergibt dann die statistische Signifikanz, das bedeutet die Wahrscheinlichkeit, mit der die Relation oder der Unterschied zwischen zwei oder mehr Variablen auf den Zufall zurückzuführen ist oder nicht. Wenn wir dabei als Ergebnis hatten, dass p<0,001 ist, waren wir zufrieden, weil das bedeutet, dass die Wahrscheinlichkeit, dass unsere gefundene Relation bzw. unser gefundener Unterschied auf den Zufall zurückzuführen ist, sehr klein ist (geringer als 0,1%). Wir waren ebenso zufrieden, wenn p kleiner als 0,01 oder kleiner als 0,05 war, denn das bedeutet, dass die Wahrscheinlichkeit, dass der Zufall die Ursache für unser Resultat ist, nicht sehr groß ist (weniger als 1: 100, also 1%, bzw. weniger als 1: 20, also 5%). Manche Anwender von statistischen Verfahren freuen sich über ein Signifikanzniveau von 0,001 mehr als über eins von 0,05, weil sie denken, dass das erste viel beeindruckender sei als das zweite, in dem Sinne, dass die gefundene Relation oder der gefundene Unterschied bedeutsamer sei. Aber dieser Gedanke entsteht dadurch, dass man zwei unterschiedliche Dinge verwechselt: 1. den Grad an Wahrscheinlichkeit, dass das Ergebnis auf den Zufall zurückzuführen ist (Signifikanz, im Englischen statistical significance genannt) - dies wird durch den p-Wert angegeben (p<0,05 usw.) 2. die Relevanz der Ergebnisse (Aussagekraft). Dies wird Assoziationsstärke (im Englischen strength of association) oder Effektgröße (engl. effect size) genannt. Dies sind zwei ganz verschiedene Aspekte. Ein Ergebnis kann signifikant sein, aber wenig Aussagekraft haben. Nehmen wir den Korrelationskoeffizienten r als Beispiel. Ein r-Wert von 0,33, der auf 100 gepaarten Ergebnissen basiert, ist signifikant (p<0,001). Trotzdem steht ein r-Wert von 0,33 für eine schwache Korrelation, eine „definitive, aber geringe Beziehung“ (siehe die Faustregel in 9.1.2). Nehmen wir jetzt einen r-Wert von 0,66, der auf 10 Wertepaaren basiert. Offensichtlich ist eine Korrelation von 0,66 höher als eine von 0,33; r=0,66 weist auf eine „substantielle Beziehung“ hin. Trotzdem ist er weniger signifikant als der vorige, Was bedeutet Signifikanz? Aussagekraft 160 11 Signifikanz vs. Aussagekraft nämlich p<0,05. Wir können also einen niedrigen r-Wert haben und ein hohes Signifikanzniveau und umgekehrt. Das hängt ganz von der Größe der Stichprobe ab, d.h. der Anzahl der Ergebnispaare. Die Aussagekraft einer gefundenen Korrelation hängt stärker davon ab, wie hoch der r-Wert ist, als wie niedrig der p-Wert ist. Der p-Wert gibt nur an, wie hoch die Wahrscheinlichkeit ist, dass unser Ergebnis (dass eine Korrelation besteht) nicht korrekt ist. Wenn r=0,70 ist und p<0,001, dann ist die Wahrscheinlichkeit, dass in Wirklichkeit gar keine Korrelation zwischen den gepaarten Ergebnissen besteht, geringer als 1: 1000. Wenn r=0,70 und p<0,01, dann wäre die Wahrscheinlichkeit 1: 100, dass wir eine Stichprobe gewählt haben, die sich stark unterscheidet von dem, was in der Grundgesamtheit zu finden ist. Ob p kleiner als 0,001 oder als 0,01 ist, berührt die Größe von r nicht und sagt wenig über die Stärke der Korrelation. Eine vorsichtig durchgeführte Studie berichtet daher neben der statistischen Signifikanz immer auch über die Aussagekraft der gefundenen Ergebnisse (wenn diese statistisch signifikant sind). 11.2 11.2 11.2 11.2 Effektgröße Effektgröße Effektgröße Effektgröße Woher wissen wir dann, welches Ausmaß der Unterschiede bei der abhängigen Variable durch die unabhängige Variable zu erklären ist? Wir bedienen uns hier der erklärten Varianz. Hierfür bestehen einfache Berechnungen, die besagen, wie viele der gefundenen Unterschiede zwischen den zwei Datensätzen durch die Manipulation der Situation (die Gruppenzugehörigkeit zum Beispiel) erklärt werden können. Dieser neue Wert ist - im Gegensatz zur Signifikanz - nicht von der Stichprobengröße abhängig. Wir schauen im Folgenden jeden Test an und berechnen exemplarisch die erklärte Varianz (Streu-ung). Welche Formel hierfür verwendet wird, hängt von unserem benutzen statistischen Test ab, wie in Tabelle 1 aufgeführt: Tabelle 1: Formeln zur Berechnung der erklärten Varianz Diese Berechnungen werden prinzipiell nur durchgeführt, wenn ein statistisch signifikantes Ergebnis gefunden wurde. Ist dies nicht der Fall, hat es wenig Sinn, die Aussagekraft davon untersuchen zu wollen. erklärte Varianz Statistischer Test Größe entsprechende Formel Korrelation r R zum Quadrat (r 2 ) Chi-Quadrat 2 Cramér’s V t-Test t Eta zum Quadrat ( 2 ) (für den t-Test häufig Cohen’s d; für eine ANOVA, wenn alle Gruppen die gleiche Größe haben, auch Omega zum Quadrat ( ω 2 )) ANOVA F Mann-Whitney U-Test U Wilcoxon-Test z n 161 11.2 Effektgröße Erhalten wir einen Wert der Effektgröße (ob r 2 , Cramér’s V, 2 , Cohen’s d oder ω 2 ), können wir eine Aussage machen, ob der Effekt klein, mittel oder groß ist. In den Geisteswissenschaften geht man prinzipiell von folgenden Richtlinien aus 1 (Tabelle 2): Tabelle 2: Richtlinien für die Bewertung der Effektgröße Wert r 2 , d Wert 2 Wert Cramér’s V Interpretation ab 0,2 ab 0,5 ab 0,8 ab 0,01 ab 0,06 ab 0,14 0,1 0,3 0,5 geringer Effekt mittlerer Effekt erheblicher Effekt 11 11 11 11.2.1 .2.1 .2.1 .2.1 Korrelation und r Korrelation und r Korrelation und r Korrelation und r- -- -Quadrat Quadrat Quadrat Quadrat Die Aussagekraft einer Korrelation ist das Ausmaß, in dem sie erlaubt, eine Vorhersage auf ihrer Basis zu machen. Nehmen wir an, wir wüssten, dass es eine Korrelation zwischen dem IQ (gemessen mit einem der Standard-IQ- Tests) und den Examensnoten von Germanistikstudenten gibt. Selbstverständlich wäre diese Korrelation nicht perfekt, vermutlich ist sie nicht einmal besonders hoch. Nehmen wir an, sie sei r=0,30. Die Frage ist jetzt: Hilft uns das, die Examensnoten eines bestimmten Germanistikstudenten vorherzusagen, dessen IQ wir kennen? In anderen Worten: „Erklärt“ der IQ Unterschiede in den Examensnoten? Und wenn er das tut, wie groß ist die „erklärte Varianz“? Bis zu einem gewissen Grad kann man auf der Basis von r Vorhersagen machen. Um dieses Ausmaß genauer zu bestimmen, müssen wir r zum Quadrat berechnen, dies ergibt den Wert für r 2 . Wenn wir dies mit 100 multiplizieren, erhalten wir die Prozentzahl der erklärten Varianz. Für unser Rechenbeispiel hieße das (weil r=0,30), dass der Prozentsatz der erklärten Varianz also 100 x 0,30 x 0,30 = 9 ist. Somit lassen sich 9% der Unterschiede in den Examensnoten mit der Intelligenz der Examenskandidaten erklären. Daraus lässt sich ableiten, dass der IQ zwar ein relevanter Faktor für die Examensnoten ist, dass jedoch andere Faktoren existieren, die die anderen 91% der Varianz erklären. Bei den Korrelationen ist die Formel zum Berechnen der erklärten Varianz recht einfach. Bei anderen statistischen Tests sind die Berechnungen etwas komplizierter. 1 Nach Wilkinson, L. et al. 1999. Statistical methods in psychology journals: Guidelines and explanations. American Psychologist 54, 594-604. r 2 : r-Quadrat 162 11 Signifikanz vs. Aussagekraft 11.2.2 11.2.2 11.2.2 11.2.2 Chi Chi Chi Chi- -- -Quadrat und Cramér’s Quadrat und Cramér’s Quadrat und Cramér’s Quadrat und Cramér’s V VV V Wie bereits besprochen, wird der Chi-Quadrat-Test benutzt, um herauszufinden, ob Variablen in Beziehung zueinander stehen. Wenn 2 signifikant ist, dann können wir davon ausgehen, dass eine Beziehung besteht. Aber auch in diesem Fall können wir uns fragen, wie stark diese Beziehung ist; es kann sein, dass die Signifikanz darauf beruht, dass wir sehr große Stichproben untersucht haben. Der p-Wert sagt nichts über die Stärke der Beziehung; wir können ein hohes Signifikanzniveau und eine eher schwache Beziehung haben und umgekehrt. Cramér’s V dagegen ist ein Wert, der einen Hinweis auf die Stärke der Beziehung gibt; er kann für sämtliche Chi-Quadrat-Tests verwendet werden. Er wird wie folgt berechnet: Cramér’s V J 5 4 wobei N die Gesamtzahl der beobachteten Werte ist und k die kleinere Zahl der Spalten oder Reihen in der Kreuztabelle. Der gefundene Wert wird zwischen 0 und 1 sein. Wir wenden diese Formel auf die Daten in unserem Beispiel in Kapitel 10, Tabelle 8 an: (Kap. 10, Tabelle 8): Beobachtete Häufigkeiten neugeschriebener Satz kein Kommentar kurzer Kommentar ausführlicher Kommentar Inkorrekt 18 13 29 Korrekt 2 67 55 Wir haben 3 Spalten und 2 Reihen bei unseren Originaldaten; insgesamt haben wir 184 beobachtete Werte, und Chi-Quadrat ist 39,9. Wenn wir diese Werte in die Formel einsetzen, ergibt sich Cramér’s V = 4 5 ( ) 6 ) = 0,47 Wenn wir die Bewertung von Effektgrößen (Tabelle 2, oben) anschauen, sehen wir, dass in unseren Daten ein mittlerer Effekt zu verzeichnen ist. In den Text nimmt man Cramér’s V so auf, dass man ihn gleich nach dem Chi-Quadrat-Wert anführt: Ein angewandter Chi-Quadrat-Test zeigte, dass kurze Kommentare zu signifikant besseren Ergebnissen führten als ausführliche Kommentare ( 2 =39,9, df=2, p<0,001; Cramér’s V=0,47). Dies ist ein erstaunliches Ergebnis, weil […] 163 11.2 Effektgröße 11 11 11 11. .. .2 22 2. .. .3 33 3 t tt t- -- -Test und Test und Test und Test und Cohen’s Cohen’s Cohen’s Cohen’s d dd d sowie sowie sowie sowie E EE Eta ta ta ta zum Quadrat zum Quadrat zum Quadrat zum Quadrat ( (( ( 2 22 2 ) )) ) Den t-Test verwenden wir, wenn wir die Auswirkung von einer (unabhängigen) auf eine andere (abhängige) Variable überprüfen möchten. Wir erhalten einen t-Wert sowie einen p-Wert (Signifikanz). Da Unterschiede zwischen den Gruppen aber logischerweise nicht nur der unabhängigen Variable zugeschrieben werden können, sollten wir auch hier berechnen, wie groß der Effekt von der unabhängigen auf die abhängige Variable ist. Natürlich kann man hier auch einfach die Mittelwerte der zwei zu vergleichenden Gruppen anschauen und vergleichen. Wenn wir das Beispiel zu den Vokabellernmethoden aus Kapitel 10 wieder aufgreifen, sehen wir, dass der Mittelwert der Gruppe nach Lehrmethode X 4,0 beträgt, der nach Lehrmethode Y 7,0. Wir haben gesehen, dass dieser Unterschied statistisch signifikant ist. Aber ist der Unterschied von (nur) 3 Punkten hier bedeutend? (Wenn das maximale Ergebnis 10 ist, wird der Unterschied wahrscheinlich interessant sein; wenn das maximale Ergebnis aber 100 ist, ist ein Unterschied von 3 Punkten eher unbedeutend.) Für den t-Test, wie bei anderen Tests für intervallskalierte Daten aus Experimenten, können wir entweder Cohen’s d oder Eta zum Quadrat ( 2 ) berechnen. Es gibt auch andere Verfahren wie zum Beispiel Omega zum Quadrat, diese lassen sich aber nur in bestimmten Fällen verwenden, weswegen wir hier nicht weiter darauf eingehen. Cohen’s d wird oft bei Unabhängige-Gruppen-Designs verwendet und wird einfach berechnet mit der Formel: (Wir berechnen also: Zweimal den gefundenen t-Wert, geteilt durch die Wurzel aus dem Wert für die Freiheitsgrade.) Mit Eta zum Quadrat können wir dagegen mehrere Verfahren für Assoziationsstärke überprüfen, u.a. den t-Test. 2 ist mit der folgenden Formel recht einfach zu berechnen. Für unser Beispiel der Vokabellernmethoden wäre dies: Der Prozentsatz der erklärten Varianz ist dann 2 x 100 = 79. Das heißt, 79% der Unterschiede in den Ergebnissen werden durch die verwendete Methode erklärt. Dieses Ergebnis gibt man zusammen mit dem t-Wert an, wenn man die Ergebnisse präsentiert. Die Ergebnisse für die zwei Versuchsbedingungen wiesen signifikante Unterschiede auf. Wie die Tabelle zeigt, erreichten Schüler, die nach Vokabellernmethode X lernten, deutlich schlechtere Ergebnisse als diejenigen, die nach Methode Y lernten (t(5)=-4,39, p<0,01, 2 =0,79). ) 6 * ) 6 ) 6 164 11 Signifikanz vs. Aussagekraft In diesem Beispiel ist 2 recht hoch. Normalerweise findet man erheblich niedrigere Zahlen. Es ist ziemlich unrealistisch, Werte von 50% oder mehr zu erwarten. Schon bei einer erklärten Varianz von etwas mehr als 20% sprechen wir, wie oben aufgeführt, von einem bedeutenden Effekt. 11.2.4 11.2.4 11.2.4 11.2.4 ANOVA und Eta zum Quadrat ANOVA und Eta zum Quadrat ANOVA und Eta zum Quadrat ANOVA und Eta zum Quadrat ( (( ( 2 22 2 ) )) ) Eine Maßzahl für die erklärte Varianz, d.h. ein Hinweis auf die Stärke des Effekts bei einer Varianzanalyse, ist wieder der Eta-Quadratwert ( 2 ). Man berechnet ihn in diesem Fall wie folgt: 2 = ; ' 0 ; Die Summe der Quadrate zwischen Gruppen und die Summe der Quadrate gesamt stammen aus der bereits durchgeführten ANOVA. Wir geben hier noch einmal die Tabelle wieder. (Kapitel 10, Tabelle 5): Ergebnisse einer einfachen Varianzanalyse ! " Der entsprechende 2 -Wert ist also 2 = (382,9) / (1958) = 0,20 Wenn man diesen Wert mit 100 multipliziert, erhält man den Prozentsatz der erklärten Varianz, also in diesem Fall 20%. Um diesen Wert von 2 zu interpretieren, schauen wir wieder in Tabelle 2 (oben) nach. Wenn wir darüber berichten, dann zusammen mit dem F-Wert, z.B. so: Eine einfache ANOVA ergab, dass es einen Effekt von „Hauptfach“ gab (F(2,27)=8,67, p<0,01; 2 =0,20). 11.3 11.3 11.3 11.3 Warum über Effektgröße berichten? Warum über Effektgröße berichten? Warum über Effektgröße berichten? Warum über Effektgröße berichten? Wie bereits erwähnt, kann man nur durch Effektgrößenberechnungen bestimmen, ob eine unabhängige Variable tatsächlich einen bedeutsamen Effekt auf eine abhängige Variable hat, oder wie viel der Varianz durch eine gefun- Relevanz der Effektgröße 165 Aufgabe dene Korrelation erklärt wird - der p-Wert sagt uns lediglich, ob der gefundene Effekt durch den Zufall erklärbar ist oder nicht, aber nicht, ob dieser auch für uns interessant sein könnte. Es gibt aber auch zwei weitere gute Gründe dafür, die Effektgröße mitzuberechnen und anzugeben. Der erste ist, dass wir mit Hilfe von Effektgrößen mehrere Studien vergleichen können. Gehen wir von der Situation aus, dass sowohl Sie als auch eine Kommilitonin dasselbe Experiment machen. Nur erscheinen zu Ihrer Erhebung nur 12 Versuchsteilnehmende, bei Ihrer Kommilitonin sind es aber 35. Es ist möglich, dass Sie beide ähnliche Ergebnisse erhalten, Ihre sind aber aufgrund der kleineren Stichprobe nicht statistisch signifikant (z.B. p=0,06), die Ihrer Kommilitonin dagegen schon (z.B. p<0,01). Wie am Anfang dieses Kapitels bemerkt, hängt statistische Signifikanz stark von den Gruppengrößen ab. Jedoch können Sie die Effektgröße in beiden Gruppen miteinander vergleichen und sehen, ob die Ergebnisse miteinander übereinstimmen - das können Sie nicht leisten, wenn Sie nur die statistische Signifikanz betrachten. Der dritte Grund, warum man die Effektgröße in den Forschungsbericht aufnehmen sollte, ist ein sehr praktischer: Wollen Sie Ihre Ergebnisse veröffentlichen (und das sollten Sie möglichst tun, wenn diese für die Linguistik und/ oder Sprachdidaktik relevant sein könnten), verlangen viele wissenschaftliche Zeitschriften Informationen über die Effektgröße - unter anderem die Zeitschriften TESOL Quarterly und Language Learning 2 ; auch die American Psychological Association - die Standards festlegt für Publikationen in der Psychologie (und Psycholinguistik) - empfiehlt es, Effektgrößen in den Bericht aufzunehmen. Aufgabe Aufgabe Aufgabe Aufgabe Berechnen Sie 2 (Eta zum Quadrat) für die Studie aus Kapitel 10, in der wir zwei Gruppen von Schülern verglichen haben, deren Leseverständnis auf zwei unterschiedliche Arten trainiert wurde. Zur Erinnerung: Wir hatten einen t- Wert von 6,03 und 8 Schüler in der einen und 7 in der anderen Gruppe. Schreiben Sie dann die Ergebnisse auf, wie sie in der Ergebnisdarstellung einer Studie präsentiert werden. 2 Vgl. u.a. Publication Manual of the American Psychological Association (2001, 25), Language Learning 50 (2000, xii) sowie TESOL Quarterly („Information for Contributors”). Schritt 4 Schritt 4 Schritt 4 Schritt 4: : : : Der Forschungsbericht Der Forschungsbericht Der Forschungsbericht Der Forschungsbericht 12 12 12 12 Präsentation der Studie: Wie schreibe ich es Präsentation der Studie: Wie schreibe ich es Präsentation der Studie: Wie schreibe ich es Präsentation der Studie: Wie schreibe ich es auf? auf? auf? auf? In den letzten Kapiteln haben wir, nachdem die Ergebnisse berechnet wurden, diese dann in einem Text präsentiert. Jedoch besteht der Forschungsbericht (die Examensarbeit, die Masterarbeit, die Dissertation) aus wesentlich mehr als diesem einen Absatz mit Informationen zu der statistischen Auswertung. In diesem Kapitel besprechen wir den üblichen Aufbau eines empirischen Forschungsberichts in der Linguistik, der sich an die Standards der Psychologie anlehnt und ebenso für die Sprachlehrforschung gilt. Prinzipiell findet man immer sieben Bausteine im Forschungsbericht, wobei deren Bezeichnungen sich von Studie zu Studie leicht unterscheiden können. Im Normalfall werden Sie folgende Punkte unterscheiden: 1. Abstract 2. Einleitung, theoretischer Rahmen und Besprechung der relevanten Literatur 1 3. Fragestellung (und bei experimentellen Verfahren Hypothesen) 4. Forschungsdesign / Methodik 5. Ergebnisse 6. Besprechung der Ergebnisse und Schlussfolgerungen bzw. Ausblick 7. Literaturverzeichnis, evtl. Anhänge Wir gehen auf jeden dieser Punkte kurz ein. 12.1 12.1 12.1 12.1 Das Abstract Das Abstract Das Abstract Das Abstract Das Abstract, das meist zwischen 150 und 250 Wörter umfasst, ist nichts Anderes als eine knappe Zusammenfassung der Studie. Da es zwar am Anfang des Berichts steht, aber sämtliche Informationen über die Studie resümiert, wird es erst dann geschrieben, wenn der Forschungsbericht fertig ist. Abstracts gibt es bei Veröffentlichungen in Zeitschriften und meist auch in Sammelbänden. Im Abstract stehen die wichtigsten Informationen über die Studie: der Hintergrund, die Fragestellung und/ oder die Hypothesen, die Versuchsper- 1 In längeren Arbeiten, vor allem in Doktorarbeiten, wird dieser Teil in mehrere Kapitel aufgeteilt. Üblich ist dort eine Einleitung, die kurz die Fragestellung der Arbeit vorstellt und dann einen Überblick über die einzelnen Kapitel der Arbeit in jeweils 3-5 Sätzen gibt. Der theoretische Rahmen, in dem die eigene Arbeit angesiedelt ist, und die Darstellung der relevanten Literatur sowie die eigene Stellungnahme dazu folgen in einem oder zwei weiteren Kapiteln. Die Bezeichnung „Stand der Forschung“ für das literaturreferierende Kapitel ist nicht mehr so gebräuchlich wie früher, man wählt eher Überschriften, die genauer auf die besprochenen Inhalte eingehen. Aufbau des Forschungsberichts 170 12 Präsentation der Studie: Wie schreibe ich es auf? sonen, die Methode, die wichtigsten Ergebnisse und die Schlussfolgerungen. In einer Publikation ist dies der Erstkontakt (und oft auch der einzige), den Leser mit der Studie haben, weswegen es äußerst wichtig ist, das Abstract möglichst präzise zu formulieren. Ein Beispiel eines Abstracts in der Sprachlehrforschung: Die Rufe nach einer Mehrsprachigkeitsdidaktik werden seit dem Ende der 1990er Jahre immer lauter; besonders in der Romanistik sowie in der Skandinavistik sind hier Lehr- und Lernkonzepte erprobt und teilweise mit Begleitforschungsprojekten evaluiert worden. Auch alternative Lernformen wie autonomes Lernen mit Hilfe von Online-Materialien sind hier zu verzeichnen. Dieser Beitrag skizziert ein Kurskonzept im Rahmen der rezeptiven Mehrsprachigkeit und berichtet über die empirische Begleitstudie zum Kurs. Die Studie untersucht die Lernfortschritte einer Lernergruppe, die in einem blended learning-Kurs englischsprachige Texte zu erschließen gelernt hat. Die Kursteilnehmer sollten lernen, ihre sprachlichen Kompetenzen in einer Fremdsprache (Deutsch) sowie in weiteren Sprachen für das Erschließen schriftsprachlicher Texte im bis dahin noch nicht gelernten Englischen zu nutzen. Die Studie, der ein Prä-/ Posttestdesign zugrunde lag, ergab trotz einer recht geringen Lernzeit signifikante Verbesserungen in der Erschließung des Englischen. Die Ergebnisse unterstützen erste Schlussfolgerungen über den potenziellen Nutzen solcher Projekte, in denen man lernt, sein Wissen aus verwandten Sprachen auf eine unbekannte Sprache zu übertragen. 12.2 12.2 12.2 12.2 Einleitung, theoretischer Rahmen und relevante Literatur Einleitung, theoretischer Rahmen und relevante Literatur Einleitung, theoretischer Rahmen und relevante Literatur Einleitung, theoretischer Rahmen und relevante Literatur Der eigentliche Forschungsbericht beginnt dann mit der Einleitung; in kürzeren Arbeiten werden Einleitung und theoretischer Rahmen als ein Kapitel präsentiert, in längeren werden hierfür zwei oder mehr Kapitel verwendet. Dieser Teil beschreibt die Thematik der Studie und erklärt deren Hintergründe: Was war der Anlass für die Untersuchung? Hier findet man auch das Ziel der Studie; es wird beschrieben, warum die Studie durchgeführt wurde. Darüber hinaus wird im Hintergrund-Kapitel die relevante schon unternommene Forschung zum Thema behandelt, was den Zweck hat, die eigene Studie in den breiteren Forschungskontext einzubetten. Bei der Literaturbesprechung beginnt man meist mit einem generellen Überblick, bevor es zu einer Fokussierung des engeren Bereichs des Projekts kommt; dies erlaubt eine logische Progression vom breiteren Forschungsfeld bis zum eigenen Untersuchungsinteresse. Aus dieser Zusammenfassung soll hervorgehen, warum die eigene Studie relevant (und notwendig) ist. Allerdings bestehen hier auch Unterschiede: Wie umfangreich dieser Teil ist, hängt von der Textsorte ab, ob es ein Forschungsbericht in einer wissenschaftlichen Zeitschrift ist (in diesem Fall sollte die Besprechung relevanter schon unternommener Forschung sich recht eng an den Fokus der Studie halten), oder ob es eine Master-Arbeit oder Dissertation ist (in einer Dissertation wird dieser Teil sehr umfangreich sein). Beispiel eines Abstracts 171 12.4 Forschungsdesign / Methodik 12.3 12.3 12.3 12.3 Fragestellung und Hypothesen Fragestellung und Hypothesen Fragestellung und Hypothesen Fragestellung und Hypothesen Hier werden - meist relativ knapp - die empirische(n) Frage(n) erläutert, daraufhin dann die dazu gehörige(n) Hypothese(n). Die Hypothese soll sich logischerweise aus den Erkenntnissen des Theorieteils ergeben - wenn nicht, dann sollte man hierfür sehr gute Gründe anführen. Hypothesen werden bei experimentellen und quasi-experimentellen Designs aufgestellt. Bei Beobachtungen und Befragungen wird dagegen meist nur die Fragestellung formuliert, was an den Zielen der unterschiedlichen Designs liegt. Weil wir bereits Fragestellungen und Hypothesen besprochen haben, werden wir an dieser Stelle keine weiteren Beispiele aufführen. 12.4 12.4 12.4 12.4 Forschungsdesign / Methodik Forschungsdesign / Methodik Forschungsdesign / Methodik Forschungsdesign / Methodik Im Kapitel Forschungsdesign (bzw. Methodik) werden normalerweise Informationen zu den Versuchsteilnehmenden, den Variablen, dem Untersuchungsmaterial und dem Design gegeben. Eine detaillierte Beschreibung der Teilnehmenden sowie der Auswahlkriterien erlaubt dem Leser, eine Vorstellung von der externen Validität der Studie zu entwickeln sowie auf mögliche Störvariablen zu schließen. Hier gibt es häufig Angaben zum Alter, Erstsprache, Geschlecht und dem Untersuchungskontext; je nach Fragestellung werden weitere Informationen wie schon gelernte Fremdsprachen, Beruf oder Berufe der Eltern (um Rückschlüsse auf den sozioökonomischen Status zu ermöglichen), Niveau der zu untersuchenden Zielsprache, Rechtsvs. Linkshändigkeit (z.B. bei Sprachverarbeitungsexperimenten mit ERP) 2 erwähnt. Dieser Teil könnte etwa wie folgt formuliert sein: Probanden waren 61 Studierende (10 Männer und 51 Frauen) der Germanistik bzw. des Lehramts mit Fach Deutsch im Alter von 20-30 Jahren (Mittelwert: 23,4). Alle hatten Deutsch als Erstsprache erworben und zwei bis sechs Fremdsprachen gelernt; sie sprachen durchschnittlich 3,8 Sprachen (inklusive der L1) pro Person. Als erste Fremdsprache wurde stets Englisch angegeben. Französisch war die zweithäufigste Fremdsprache und wurde von allen außer 7 Probanden gelernt. Auch die Variablen werden häufig in diesem Teil erwähnt (ansonsten werden sie nach den Hypothesen genannt). Bei experimentellen Designs müssen hier unabhängige sowie abhängige Variable(n) genannt werden. Sehr wichtig sind dazu die Kontrollvariablen sowie mögliche Störvariablen - die meist auch bei nicht-experimentellen Designs dargelegt werden. Man sollte hier auch offenlegen, wie man versucht hat, die Störvariablen möglichst zu reduzieren, so z.B.: 2 Ereigniskorrelierte Potentiale (event-related potentials), bei solchen Experimenten wird die Sprachverarbeitung im Gehirn durch EEG-Messungen beobachtet. Wann Hypothesen? Teilnehmer Variablen 172 12 Präsentation der Studie: Wie schreibe ich es auf? Störvariablen wurden möglichst gering gehalten, indem die Erledigung der Aufgabe für keinen Teilnehmenden verpflichtend war, genügend Zeit für die Erarbeitung gegeben wurde, alle Versuchsteilnehmenden zur selben Tageszeit im selben Untersuchungsraum die Aufgabe erhielten und die Ergebnisse keinen Einfluss auf die Kursnote hatten. Die Teilnehmenden hatten wenig Zeitdruck und wurden ermuntert, die Aufgabenlösung zumindest zu versuchen. Allerdings hätten Stör variablen gerade durch diese Situation auftreten können, denn die Versuchs personen wurden nicht zu einer vollständigen Lösung der Aufgabe extrinsisch motiviert. Das Untersuchungsmaterial wird auch in diesem Kapitel erläutert; es soll dargelegt werden, welche Erhebungsinstrumente (Fragebogen, Korpus, Tests, Messinstrumente, Software usw.) bei der Durchführung der Studie eingesetzt wurden. Anschließend wird der Untersuchungsablauf (Datenerhebung) beschrieben, sodass Leser nachvollziehen können, wie Sie zu Ihren Daten gekommen sind. Hier können die Instruktionen an die Versuchsteilnehmer wiedergegeben werden und Zeitvorgaben usw. werden dargestellt, mit dem Ziel, die Erhebungssituation möglichst offen zu legen. Ein kurzes Beispiel hierzu: Der Testbogen mit drei kurzen Lesetexten in unterschiedlichen (von den Teilnehmenden bereits gelernten) Fremdsprachen (Anhang I) wurde ausgeteilt. Die Probanden wurden darum gebeten, die Texte aufmerksam zu lesen und eine möglichst umfassende schriftliche Übersetzung in ihre Muttersprache zu verfassen. Für die Erarbeitung der Aufgabe standen 30 Minuten zur Verfügung. Die Übersetzungen wurden für jeden Text kodiert und die Ergebnisse wurden mittels einfacher ANOVAs ausgewertet. Als Post-hoc-Verfahren wurde der Tukey-HSD- Test angewandt. Im Normalfall werden Sie bereits vor der Datenerhebung diese Teile des Forschungsberichts - Einleitung und Hintergrund, Fragestellung und Hypothesen sowie Forschungsdesign - verfasst haben. Somit sichern Sie sich ab, dass Sie an alle notwendigen Schritte schon vor der Durchführung Ihrer Studie gedacht haben; evtl. müssen Sie dann nach der Datenerhebung die Textteile mit weiteren, im Laufe der Erhebung hinzugekommenen Informationen ergänzen. 12.5 12.5 12.5 12.5 Präsentation der Ergebnisse Präsentation der Ergebnisse Präsentation der Ergebnisse Präsentation der Ergebnisse In diesem Teil des Berichts werden die Ergebnisse dargestellt, allerdings - und dies ist wichtig - noch nicht interpretiert. Erst in der Diskussion werden Ergebnisse besprochen und in Verbindung zu den Hypothesen sowie weiteren Forschungsergebnissen gesetzt. Hier geht es um einen möglichst umfassenden Bericht über die Daten; man stellt die statistische Auswertung dar, die meist mit Hilfe von Tabellen und/ oder Grafiken visualisiert wird. Material 173 12.6 Besprechung der Ergebnisse und Schlussfolgerungen bzw. Ausblick Da wir bereits in den vorhergehenden Kapiteln 8-11 detailliert über die Ergebnisdarstellung berichtet haben, gehen wir hier nicht weiter darauf ein. 12.6 12.6 12.6 12.6 Bespre Bespre Bespre Besprechung der Ergebnisse und Schlussfolgerungen bzw. chung der Ergebnisse und Schlussfolgerungen bzw. chung der Ergebnisse und Schlussfolgerungen bzw. chung der Ergebnisse und Schlussfolgerungen bzw. Ausblick Ausblick Ausblick Ausblick Je nach Textsorte wird dieses Kapitel in einem oder zwei Teilen vorkommen (bei längeren Berichten trennt man meist die Diskussion der Ergebnisse von den Schlussfolgerungen und Ausblick, bei kürzeren wie Zeitschriftenartikeln eher nicht). Das Ziel dieses Teils ist zu beschreiben, ob und wie die Forschungsfragen beantwortet wurden bzw. ob die Hypothesen bestätigt wurden oder verworfen werden müssen. Man bezieht sich hier auf den theoretischen Teil der Arbeit und interpretiert die Ergebnisse - im Kontrast zur Präsentation der Ergebnisse, wo es nur darum ging, die Daten in aufbereiteter Form vorzulegen. Der Inhalt dieses Kapitels ist im Normalfall etwa: Zusammenfassung der Ergebnisse - Interpretation - Vergleich mit ähnlichen Studien - Bedeutung der Ergebnisse für die Theorie (evtl. für die Praxis) - Forschungsdesiderata. Bei der Besprechung fängt man normalerweise an mit einer kurzen Wiederholung der gestellten Forschungsfrage(n) und der Darstellung dessen, was man durch die Ergebnisse der Untersuchung darüber in Erfahrung bringen konnte. Man resümiert die Ergebnisse in Hinblick auf die Fragen und/ oder Hypothesen und erläutert, welchen Stellenwert die Ergebnisse im weiteren Forschungskontext haben, inwiefern sie die Forschung weitergebracht haben. Die Interpretation erfolgt auch auf Basis von Vergleichen mit anderen Forschungsprojekten - man führt es zum Beispiel an, wenn die Ergebnisse diejenigen von anderen Forschenden bestätigen, oder versucht die Diskrepanzen zu erklären, wenn sie dies nicht tun. Anschließend wird meist auch auf Probleme und Beschränkungen der Aussagefähigkeit des eigenen Projekts eingegangen, so zum Beispiel wenn man sehr wenige Versuchsteilnehmer untersucht hat, oder wenn Störfaktoren die Ergebnisse hätten beeinträchtigen können. Bei der Diskussion sollte man auf jeden Fall darauf achten, dass die Ergebnisse nicht „überinterpretiert“ werden. Häufige Fehler in der Besprechung von Forschungsprojekten sind zum Beispiel: - Korrelationen werden als kausale Beziehungen interpretiert. - Didaktische Schlussfolgerungen werden gezogen, obwohl die Fragestellung und das Forschungsdesign nicht darauf ausgerichtet waen. - Man schließt auf eine Gesamtpopulation, die aber in der Studie nicht repräsentiert war (externe Validität, s. Kapitel 2.4.3). - Nicht-signifikante Ergebnisse werden so präsentiert, als ob sie „doch Tendenzen“ aufzeigen (ein Vorurteil der Forschenden führt zu einer Interpretationsweise, die nicht durch die Daten unterstützt wird). 174 12 Präsentation der Studie: Wie schreibe ich es auf? Die Diskussion sollte schließlich genug Informationen enthalten, sodass andere Forschende weiter zum gleichen Thema arbeiten können, wenn sie dies möchten. Um zukünftiger Forschung einen Wegweiser zu geben, werden im Ausblick häufig Forschungsdesiderata genannt, auf Lücken oder noch unbeantwortete Fragen im eigenen Projekt oder im Forschungsfeld hingewiesen. Aufgabe Aufgabe Aufgabe Aufgabe Suchen Sie einen empirisch ausgerichteten Aufsatz aus einer linguistischen Zeitschrift oder einer Zeitschrift mit Ausrichtung auf die Sprachlehrforschung (in deutscher Sprache zum Beispiel die Zeitschrift für Fremdsprachenforschung (ZFF), die Zeitschrift für angewandte Linguistik (ZfAL)), möglichst zu einem Thema, das Ihnen interessant erscheint. Evaluieren Sie den Forschungsbericht anhand der Kriterien, die in diesem Buch besprochen wurden. Werden die unterschiedlichen Teile des Forschungsberichts umfassend und zu Ihrer Zufriedenheit dargestellt? Kommen weitere Informationen vor, die hier nicht angesprochen wurden? Halten Sie fest, was Sie durch diese kritische Reflexion für Ihr eigenes Forschungsvorhaben gelernt haben. Anhang Anhang Anhang Anhang: Lösungen der Aufgaben : Lösungen der Aufgaben : Lösungen der Aufgaben : Lösungen der Aufgaben Hinweis: In vielen Fällen können wir auf Grund der Komplexität der Fragestellungen hier nur einige Lösungsvorschläge oder Musterlösungen anbieten; es bestehen jedoch oft weitere Möglichkeiten. Aufgaben Kapitel Aufgaben Kapitel Aufgaben Kapitel Aufgaben Kapitel 1: Zur Einführu 1: Zur Einführu 1: Zur Einführu 1: Zur Einführung ng ng ng Aufgabe: Aufgabe: Aufgabe: Aufgabe: a. Der Einfluss eines Partybesuchs in der Nacht vor einer Prüfung auf diese Prüfung Experimentelle Forschung. Man könnte zwei Gruppen von Versuchspersonen miteinander vergleichen, die möglichst gleich gut im geprüften Fach sind. Die eine Gruppe würde eine Party besuchen und die andere nicht. b. Die Beziehung zwischen Sprachlaborübungen und Aussprache Experimentelle Forschung. Man könnte zwei Lernergruppen untersuchen. Lerner der einen Gruppe (der Versuchsgruppe) kommen in den Genuss von Sprachlaborübungen, die anderen Lerner (die Kontrollgruppe) nicht, dafür jedoch werden ihnen andere Übungsformen angeboten, natürlich ebenfalls speziell zur Verbesserung der Aussprache gedachte Übungen, z.B. Chorsprechen u.a.m. Sollte die Versuchsgruppe Ausspracheübungen machen, müsste die Kontrollgruppe ebenfalls ebenso viel Zeit für Ausspracheübungen verwenden, jedoch nicht im Sprachlabor. Am Ende würde beiden Gruppen ein (Aussprache-)Test abgenommen und die Ergebnisse miteinander verglichen werden. c. Die Bedeutung von de Saussure für die Entwicklung der Linguistik Qualitative Forschung. Man könnte hier z.B. eine Umfrage unter Linguisten durchführen, um ihre Meinung zu Saussures Bedeutung für die Linguistik zu untersuchen. d. Die Fremdsprachenkenntnisse niederländischer Geschäftsleute Quantitative nicht-experimentelle Forschung. Diese Forschungsfrage könnte auf verschiedene Weisen angegangen werden. Eine Möglichkeit wäre die nicht-experimentelle Forschung in Form einer Befragung, in der die Versuchspersonen (die Geschäftsleute) gefragt würden, welche Sprachen sie beruflich benutzen, ob sie diese Sprachen selbst beherrschen und falls ja, wie gut. Möglich wäre aber auch, die Fremdsprachenkenntnisse tatsächlich mit Sprachtests zu testen, was komplizierter wäre, aber genauere Informationen ergäbe. Dies ist - wie Sie sich vorstellen können - aber schwer zu erreichen bei dieser Zielgruppe. 176 Anhang: Lösungen der Aufgaben e. Der Nutzen von Korrekturen der Grammatikfehler von Fremdsprachenlernern Experimentelle Forschung. In der Regel würde man zwei Lernergruppen haben und jede Gruppe einige Male unterrichten, vorzugsweise indem man sich auf ein oder zwei grammatische Strukturen konzentriert. In der Versuchsgruppe würden die Fehler der Lerner korrigiert, in der anderen nicht. f. Verwendung von Höflichkeitsformen bei internationalen Verhandlungen Typisch wäre eine Beobachtung, also eine nicht experimentell angelegte Untersuchung. Da es schwierig ist, Höflichkeitsformen in einer echten Verhandlungssituation aufzunehmen, könnte man einige erfahrene Verhandlungsteilnehmer verschiedener Herkunftsländer bitten, eine Verhandlung in einem Rollenspiel nachzustellen. Dieses Rollenspiel müsste anschließend analysiert werden. Man muss jedoch dabei beachten, dass Rollenspiel-Gespräche meist stark von den tatsächlichen Gesprächen derselben Personen abweichen (vgl. Brons-Albert 1994 zu Rollenspiel- Artefakten). Eine Variante in Form einer Befragung wäre, einige Sätze und Redewendungen unterschiedlicher Höflichkeitsgrade und aus verschiedenen Kulturkreisen einigen erfahrenen Verhandlungsteilnehmern vorzulegen und diese zu bitten, die Häufigkeit dieser Sätze in den Verhandlungen, die sie kennen, zu beurteilen. g. Arten der Selbstkorrektur beim L1- und L2-Spracherwerb Typischerweise würden Beispiele von Selbstkorrektur gesammelt, z.B. Selbstkorrektur der Äußerung, Neuanfang des Satzes und Zögern (wie z.B. ich liebe es - ich hasse es, morgens aufzustehen) in L1 und in L2. Man könnte diese Daten mit Hilfe von Tonaufnahmen von Gesprächen in beiden Sprachen sammeln und bei der Analyse jeder Selbstkorrektur eine Kategorie zuweisen. Dies wäre eine Beobachtung, also nicht-experimentelle Forschung. h. Ein Vergleich des stillen und des lauten Lesens bei der Entwicklung der Lesefähigkeit Experimentelle Forschung. Man würde Lesen nach zwei Methoden unterrichten: leises Lesen und lautes Lesen. Nach einer Weile würde beiden Versuchsgruppen ein Test vorgelegt, um so z.B. Aussprache und Textverständnis zu überprüfen. Damit würde es sich um experimentelle Forschung handeln. Aufgaben Aufgaben Aufgaben Aufgaben Kapi Kapi Kapi Kapitel 2 tel 2 tel 2 tel 2 : : : : Vorplanung Vorplanung Vorplanung Vorplanung einer einer einer einer empirische empirische empirische empirischen nn n Untersuchung Untersuchung Untersuchung Untersuchung Aufgabe 1: Aufgabe 1: Aufgabe 1: Aufgabe 1: a. Fragestellung: Hat der Besuch einer Party in der Nacht vor einer Prüfung einen Einfluss auf die Ergebnisse dieser Prüfung? 177 Aufgaben Kapitel 2: Vorplanung einer empirischen Untersuchung Mögliche Hypothese: Studenten, die eine Party in der Nacht vor einer Prüfung besuchen, schneiden bei dieser Prüfung schlechter ab als Studenten, die in dieser Nacht nicht feiern und spätestens um 20 Uhr zu Hause sind. b. Fragestellung: Ist die Aussprache von Sprachlernenden, die im Sprachlabor üben, besser als die von Sprachlernenden, die dies nicht tun? Mögliche Hypothese: Lerner, die in einem Sprachlabor ihre Aussprache trainieren, werden im Bereich Aussprache von native speakers der zu lernenden Sprache als kompetenter beurteilt als Lerner, die außerhalb des Sprachlabors Ausspracheübungen durchführen. c. Fragestellung: Welche Bedeutung hat de Saussure für die Entwicklung der Linguistik? Eine mögliche Hypothese könnte lauten „de Saussure hatte eine richtungsgebende Bedeutung für die Linguistik und hat diese immer noch.“ d. Fragestellung: Wie hoch sind die Fremdsprachenkenntnisse niederländischer Geschäftsleute? Mögliche Hypothese: Niederländische Geschäftsleute beherrschen mindestens eine Fremdsprache, und zwar mindestens auf dem GER-Niveau C1. e. Fragestellung: Hilft es, Grammatikfehler von Fremdsprachenlernern zu korrigieren? Mögliche Hypothese: Lerner, deren Fehler korrigiert werden, machen später weniger Fehler der korrigierten Art als Lerner, deren Fehler nicht korrigiert werden. f. Fragestellung: Werden in internationalen Verhandlungen nur Höflichkeitsformen aus der Sprache verwendet, in der verhandelt wird (also im Zweifelsfall Englisch, sodass englisches Höflichkeitsverhalten praktiziert würde) oder gibt es auch Übersetzungen von Höflichkeitsroutinen und -ritualen aus der Herkunftssprache der Teilnehmer? Mögliche Hypothese: Die Verhandlungsteilnehmer verwenden öfter wörtlich übersetzte Höflichkeitsroutinen aus der eigenen Muttersprache als solche aus der Verhandlungssprache. g. Fragestellung: Verwenden L1- und L2-Sprecher ähnliche Arten von Selbstkorrektur? Mögliche Hypothese: L1-Sprecher nehmen häufiger semantische Korrekturen, L2-Sprecher häufiger morphosyntaktische Korrekturen vor. h. Fragestellung: Führt das stille Lesen eher zum Textverständnis und das laute Lesen eher zu einer guten Aussprache? Mögliche Hypothese: Schüler, die Leseverständnis-Übungen immer mit stillem Lesen durchführen, erzielen besser Ergebnisse beim Textverständnis als Schüler, die Leseverständnis-Übungen auch mit lautem Lesen durchführen. In Bezug auf die Qualität der Aussprache sind jedoch die 178 Anhang: Lösungen der Aufgaben Schüler überlegen, die regelmäßig im Leseverständnis-Unterricht auch laut lesen. Aufgabe 2: Aufgabe 2: Aufgabe 2: Aufgabe 2: a. Sie suchen Kombinationen aus einer finiten Form von sein und haben und einem Partizip II (das geht sogar maschinell in Textkorpora). Nur müssen Sie dann noch bei den finiten Formen von sein abgleichen (lassen), ob das Partizip II von einem Verb stammt, das sein Perfekt mit sein bildet, sonst werden Sätze wie Die Tür ist geschlossen mitgezählt. Erheblich schwieriger ist es, die - seltenen - Zustandsformen mit haben auch auszuschließen (Er hat die Haare in die Stirn gekämmt, Das Pferd hat die Fesseln bandagiert). Auch das ist möglich, dann müssen Sie allerdings die Syntax der Sätze mit einbeziehen: Sie berücksichtigen nur Sätze, die nicht valenzreduziert sind, d.h. bei der nicht das Agens weggelassen ist. Ein weniger automatisch vorgehendes Verfahren, das aber auch eine klare Operationalisierung bietet, wäre, dass Sie überprüfen, ob die als Perfekt vermuteten Formen sich ohne wesentliche Bedeutungsveränderung ins Präteritum umformen lassen. Dabei kommt dasselbe Ergebnis heraus: Das Pferd hat die Fesseln bandagiert ist eindeutig valenzreduziert, das Agens fehlt offensichtlich (Das Pferd selbst hat niemandem die Fesseln bandagiert), und der Satz entspricht in der Bedeutung auch nicht Das Pferd bandagierte die Fesseln. Nach beiden Verfahren ist dies also eindeutig nicht als Perfekt zu zählen. Auch mit sein als Hilfsverb funktioniert das Verfahren: Die Tür ist geschlossen ist valenzreduziert und nicht identisch mit *Die Tür schloss. Aber bei echten Perfektformen wie Er hat gearbeitet geht die Umformung in Er arbeitete problemlos, und in der Valenz ändert sich auch nichts. b. Art der Datenerhebung: Auswahl der Informanten: Wir haben mit Absicht ein etwas kurioses Beispiel gewählt, insofern können Sie auch kuriose Lösungsverfahren anbieten. Ein Problem ist nämlich die Auswahl der Informanten. Sie könnten sich z.B. überlegen, dass Sie per Zeitungsannonce Personen suchen, die planen, in nächster Zeit zu konvertieren. Dann nehmen Sie diese Personen vor und nach dem Wechsel der Konfession auf und vergleichen ihren Gebrauch der Vergangenheitstempora. In diesem Fall wären Sie ganz sicher, dass nur die Konfessionszugehörigkeit die Ursache sein kann, falls Sie eine Veränderung im Gebrauch der Vergangenheitstempora finden. Wenn Sie weniger kuriose Lösungen suchen, dann müssen Sie auf jeden Fall darauf achten, dass Sie bei den Informanten beider Konfessionen die Schulbildung und die Verteilung auf Dialektgebiete so konstant wie möglich halten. 179 Aufgaben Kapitel 2: Vorplanung einer empirischen Untersuchung Form der Erhebung: Umständlich wäre eine ungesteuerte Beobachtung, bei der Sie einfach Aufnahmen von natürlicher Sprache bei Sprechern unterschiedlicher Konfessionen machen und auswerten. Eine direkte Befragung „Gebrauchen Sie mehr Perfekt oder mehr Präteritum ...? “ scheidet aus, man ist sich nicht bewusst, welche Tempora man benutzt. In einer solchen Befragung würden die Sprecher vermutlich nach Normen, die sie irgendwo aufgeschnappt haben, antworten. Was Sie aber tun können, ist die Versuchspersonen so zu steuern, dass sie von Vergangenem sprechen müssen, damit sie nicht so lange Texte produzieren, in denen Sie kaum Vergangenheitstempora finden. Sie können also z.B. auffordern: „Erzählen Sie mir von Ihrem letzten Urlaub! “ (natürlich sollten Ihre Aufforderungen kein Vergangenheitstempus enthalten! ). Experimente, die dazu führen, dass ganze Sätze in einer gewünschten Form geäußert werden, sind nicht einfach zu erstellen. Vermutlich lohnt der Aufwand sich nicht, weil die Beobachtung relativ einfach möglich ist. c. Zunächst einmal haben Sie die Konfession nicht erhoben, sondern die mutmaßliche Konfession, wenn Sie so vorgegangen sind, wie es in der Aufgabenstellung beschrieben ist. Dann fragt sich, ob die Gruppen der untersuchten Dorfbewohner demographisch hinreichend gleich sind, was bei der kleinen Zahl von untersuchten Sprechern eine große Rolle spielt. Aber der Grund, warum diese Untersuchung überhaupt nicht zu gebrauchen ist, ist, dass Sie Sprecher aus verschiedenen Dialektgebieten untersucht haben. Die Daten könnten durchaus so aussehen, wie in der Aufgabenstellung beschrieben, aber der Grund ist, dass man im Süddeutschen kaum Präteritum verwendet. Dieses „Oberdeutscher Präteritumschwund“ genannte Phänomen beruht keineswegs auf der Konfession, sondern auf Dialektunterschieden. Aufgabe 3 Aufgabe 3 Aufgabe 3 Aufgabe 3: : : : Ihr Test enthält unterschiedlich schwer zu lösende Aufgaben, Sie können also damit rechnen, dass bestimmte Aufgaben fast von allen Schülern richtig gelöst werden, andere nur von den allerbesten Schülern. Das macht Probleme bei der Konsistenzprüfung (es wird unterschiedliche Ergebnisse für die Einzelfragen geben). Wenn Sie das Testhalbierungsverfahren anwenden, dann sollten Sie auf keinen Fall so halbieren, dass Sie die erste Hälfte des Tests mit der zweiten vergleichen, sondern Sie sollten die Fragen mit ungeraden Nummern mit denen mit geraden Nummern vergleichen. Aufgabe 4 Aufgabe 4 Aufgabe 4 Aufgabe 4: : : : Es gibt mehrere Probleme, die aufkommen könnten (wo nehme ich eine Kontrollgruppe her, sehr unterschiedliche Einflussfaktoren auf den Lerner- 180 Anhang: Lösungen der Aufgaben folg, die Unsicherheit, ob tatsächlich sämtliche Studierende überhaupt nur das A2-Niveau erreichen u.a.). Jedoch ist das Hauptproblem, dass man für diese Fragestellung kaum eine Operationalisierung finden kann, es müssten viel zu viele Einflussfaktoren überprüft werden, die auch noch aufeinander Auswirkungen haben könnten. Aufgabe 5: Aufgabe 5: Aufgabe 5: Aufgabe 5: Mögliche Störfaktoren könnten unterschiedlicher Art sein: Zunächst einmal gibt es einen, den der Versuchsplan mit sich bringen könnte, nämlich einen Neuigkeitseffekt. Wenn das Üben am Computer neu eingeführt wird, kann es erst einmal besonders motivierend (oder - je nach Gruppe - auch besonders demotivierend) wirken. Dieser Effekt würde auf die Dauer verschwinden, man müsste also seine Tests erst nach einer Zeit der Gewöhnung an das Üben am Computer durchführen. Dann gibt es viele Störfaktoren, die mit der Art der Durchführung der Tests zu tun haben: Die Versuchspersonen absolvieren den Test zu unterschiedlichen Tageszeiten (spätabends ist man tendenziell weniger aufmerksam als um 11 Uhr), Sie haben unter Ihren Versuchspersonen auch Nicht-Muttersprachler, Sie beziehen Leute mit ein, die die zu untersuchende(n) Sprache(n) selten sprechen, Sie untersuchen Leute, die am Bildschirm schlecht lesen können oder es nicht gewöhnt sind. Auch die Erhebungssituation kann einen störenden Einfluss auf die Ergebnisse haben: Der Untersuchungsraum ist laut oder eine Versuchsperson wird bei der Datenerhebung durch ihr herumlaufendes Kind unterbrochen, die verwendete Software stürzt ab, manche Versuchspersonen denken, sie hätten nur wenig Zeit zur Verfügung, andere denken, sie hätten viel Zeit, oder die Hinweise durch die Versuchsleiterin an die Versuchsteilnehmenden sind nicht konsistent. Dies sind Beispiele, es gibt natürlich noch andere mögliche Störfaktoren, und alle diese Faktoren müssten Sie möglichst gut kontrollieren. Aufgaben Aufgaben Aufgaben Aufgaben Kapitel Kapitel Kapitel Kapitel 3 33 3 : Die Beobachtung : Die Beobachtung : Die Beobachtung : Die Beobachtung Aufgabe 1: Aufgabe 1: Aufgabe 1: Aufgabe 1: Sie müssen natürlich festlegen, was Sie als Korrektur ansehen wollen. Das ist gar nicht so einfach, wenn es nicht auf „Korrektur ist das, was ich als Korrektur empfinde“ hinauslaufen soll. Die Möglichkeit aus Ihrer Vorüberlegung würde auch versehentliche Falschaussprachen der Lehrperson und Dinge wie Verschleifungen vs. Nicht-Verschleifungen bei Schüler oder Lehrperson mit erfassen. Besser wäre eine solche Festlegung: Als Korrektur werte ich jede Wiederholung eines falsch ausgesprochenen Wortes in der unmittelbar darauf folgenden Lehreräußerung mit korrekter Aussprache und jede explizit von der Lehrperson als Korrektur markierte Äußerung. Dann haben Sie nur noch zu operationalisieren, wie Sie „falsche Aussprache“ und „korrekte Aus- 181 Aufgaben Kapitel 3: Die Beobachtung sprache“ feststellen. Für das Deutsche könnten Sie z.B. festlegen, dass Sie jede Aussprache als falsch ansehen, die im „Ausspracheduden“ nicht aufgeführt ist, und jede als korrekt, die im Ausspracheduden (ohne Markierung „regional“ o.ä.) aufgeführt ist. Natürlich können Sie auch ein anderes Aussprachewörterbuch zugrunde legen, aber möglichst nicht mehrere, denn sie sind sich oft nicht einig, was neue Probleme schafft. Auch mit dieser Operationalisierung kann es sein, dass einige Dinge, die Sie spontan als Korrektur empfinden, nicht als Korrektur gezählt werden dürfen, z.B. wenn eine von zwei erlaubten Aussprachen durch die andere korrigiert wird oder wenn eine erlaubte Aussprache durch eine nicht erlaubte oder als regional gekennzeichnete „korrigiert“ wird. Sie müssen auch festlegen, welche Fälle Sie als ähnlich genug ansehen wollen, um sie unter einer Kategorie zusammenzufassen. Eine Möglichkeit wäre z.B.: erbetene Korrekturen Darunter würden Fälle von expliziten Fragen fallen („spricht man das so aus? “, „oder wie spricht man das aus? “), aber auch die versuchsweise Aussprache des Worts mit fragendem Blick, fragender Intonation usw. beiläufige Korrekturen durch die Lehrperson Das falsch ausgesprochene Wort wird von der Lehrperson richtig ausgesprochen in ihren nächsten Satz eingebaut, ohne dass sie auf den Fehler hinweist. explizite Korrekturen durch die Lehrperson Hier würde die Lehrperson ihre „Verbesserung“ als solche markieren, durch besonders lautes Aussprechen oder durch den expliziten Hinweis auf die falsche Aussprache. Aufforderungen zur Selbstkorrektur Hier würde die Lehrperson die Lerner auffordern, den Fehler zu verbessern. Da verschiedene Möglichkeiten dazu bestehen, können Sie sich fragen, ob Sie den Punkt weiter untergliedern, z.B. „Vorsprechen und nachsprechen lassen“ als einen anderen Fall ansehen als „Da stimmt was nicht mit dem 3. Wort, versuch es noch einmal.“ Aufforderungen zur Korrektur durch andere Schüler (weiter unterteilt oder nicht) umfangreiche Korrektursequenz Auch hier gibt es ganz viele verschiedene Möglichkeiten, sodass Sie eventuell noch einmal Fallgruppen unterscheiden wollen, z.B. solche, bei denen der Fehler zum Anlass für eine lange Übungssequenz des zugrundeliegenden Phänomens bei der ganzen Lernergruppe genommen wird. Sie können auch unterschiedliche Kategorien bei den Lerner-Reaktionen in Ihre Auswertung aufnehmen. Ein mögliches Verfahren der Operationalisierung wäre auch, dass Sie danach gehen, wie die Lerner sich verhalten. Z.B. würden Sie das als Korrektur zählen, worauf die Schüler wie auf eine Korrektur reagieren (z.B. versuchen, es mit der richtigen Aussprache zu wiederholen, ärgerlich erklären „hab ich doch gesagt“ usw.). 182 Anhang: Lösungen der Aufgaben Was die Überprüfung, ob es nicht auch andere Interpretationsmöglichkeiten gibt, angeht, so ist eine wichtige Überlegung, ob die von der Lehrperson in einer anderen, ihrem Nachschlagewerk nach besseren, Aussprache geäußert wird, nicht auch ein sogenanntes „Lehrerecho“ sein könnte. Lehrpersonen wiederholen Schüleräußerungen z.B., weil sie zu leise waren, damit die ganze Gruppe von Lernern sie in der Wiederholung hört und beachtet, um den Inhalt zu bestätigen usw. Aufgabe 2: Aufgabe 2: Aufgabe 2: Aufgabe 2: Beide Möglichkeiten erkaufen einen Vorteil mit einem Nachteil. Im ersten Fall untersuchen Sie gar kein natürliches Gespräch, d.h. das Gespräch findet nur zum Zweck der Aufnahme statt, und einer der beiden Gesprächspartner weiß das. Dafür ist der Verkäufer allerdings nicht informiert, dass die erwartete Aufnahme genau im augenblicklichen Gespräch stattfindet. Im zweiten Fall weiß der Verkäufer während des Gesprächs auf jeden Fall, dass er beobachtet wird, was sein Verhalten beeinflussen wird. Zudem ist das Vorgehen im zweiten Fall gegenüber dem Kunden problematisch, er wird ja ohne seine Zustimmung beobachtet. Andererseits liegt ein natürliches Gespräch vor, d.h., die Kunden haben wirklich ein Interesse an einem Kauf und der Verkäufer hat dieselbe Chance ihnen ein Auto zu verkaufen wie in der unbeobachteten Situation. Früher hat man sich in vielen Fällen für die erste Möglichkeit entschieden; man hat also eingeweihte Personen die Rolle des Kunden spielen lassen, oder die Forscherinnen haben selbst die Kundenrolle gespielt in der Annahme, das sei unschädlich, denn es solle ja das Verhalten des Verkäufers beobachtet werden, nicht das des Kunden. Diese Annahme hat sich jedoch als irreführend erwiesen. Die Personen in der Kundenrolle konnten sich nicht wie normale Kunden benehmen. Dadurch verlief das Gespräch überhaupt nicht wie ein normales Verkaufsgespräch, und insofern konnte auch der Verkäufer nicht sein normales Verhalten zeigen. Nun könnte man einwenden, dass das ja eventuell für den Beginn des Gesprächs, die Phase der Kontaktaufnahme, noch nicht wichtig ist, sondern erst später, wenn sich zeigt, dass der Kunde gar kein Auto kaufen will. Dies ist aber sicher nicht der Fall, da die eingeweihte Person sich ja auch noch Merkmale des nichtverbalen Verhaltens für das spätere Ausfüllen des Beobachtungsbogens merken muss. Das verlangt so viel Aufmerksamkeit, dass sie sich auf der Ebene der Kontaktaufnahme, der Herstellung einer einvernehmlichen Beziehung, sicher so unnatürlich verhalten wird, dass auch der Verkäufer sich nicht so verhalten wird, wie er es im Gespräch mit einem echten Kunden, der „bei der Sache“ (und nicht bei der Beobachtung) ist, verhalten würde. Alles in allem gesehen ist also die zweite Möglichkeit vorzuziehen. Hier ist die beobachtende Person nicht am Gespräch beteiligt und kann also weit weniger durch ihr Verhalten das Gespräch beeinflussen. Vor jeder Verwendung 183 Aufgaben Kapitel 4: Arbeiten mit Textkorpora der Gespräche müsste allerdings das Einverständnis der aufgenommenen Kaufinteressenten eingeholt werden. Aufgaben Aufgaben Aufgaben Aufgaben Kapitel 4: Kapitel 4: Kapitel 4: Kapitel 4: Arbeiten mit Textkorpora Arbeiten mit Textkorpora Arbeiten mit Textkorpora Arbeiten mit Textkorpora Aufgabe: Aufgabe: Aufgabe: Aufgabe: Wir haben einerseits das Problem, das wir auch bei geschriebenen Texten hätten: Wie zählen wir grammatische Formen ein- und desselben Worts? Das ist ganz besonders für die automatische Zählung ein großes Problem, denn alles, was gleich geschrieben wird, ist für den Computer derselbe Type. Also kann nur eine Zählung „von Hand“ unterscheiden, ob die grammatische Form arbeitet 3. Person Singular Präsens oder 2. Person Plural Präsens von arbeiten ist. Dies ist für die gesprochene Sprache nicht anders, aber hier kommt ein zusätzliches Problem hinzu, nämlich die Zählung von Aussprache-Varianten ein- und derselben grammatischen Form. Selbst wenn wir uns entscheiden würden, dass wir jede einzelne grammatische Form als Extra-Type zählen würden, stehen wir vor weiteren Problemen. Ist alles, was in der Standardschreibung als das auftreten würde, derselbe Type? Wir finden in Feld 4 und 13 das und in den Feldern 5, 14 und 16 dat. Für es finden wir ´s in Feld 7 und 10 und in Feld 18 sogar et in nützet. Dies macht nicht nur die automatische Suche schwierig, sondern stellt uns auch vor methodische Probleme. Wir können davon ausgehen, dass es noch erheblich mehr Aussprachevarianten von das gibt, jedoch nicht alle sind mit den Mitteln der Normalschrift (noch nicht einmal mit der IPA-Umschrift) zu unterscheiden. Wenn also alle Aussprache-Varianten verschiedene Types sein sollen, wo wollen wir die Grenzen setzen? Aufgaben Aufgaben Aufgaben Aufgaben Kapitel Kapitel Kapitel Kapitel 5 55 5 : Die Befragung : Die Befragung : Die Befragung : Die Befragung Au Au Au Aufgabe fgabe fgabe fgabe 1 11 1: : : : Sie werden sicher sofort festgestellt haben, dass es in solchen Fällen eine „Selbstselektion der Stichprobe“ gibt, nur wenige Personen, die angesprochen werden, lassen sich auf die Befragung ein. Selbst bei der Auswahl der Personen, die angesprochen werden, dürfte schon eine Selektion vorliegen. Möglicherweise haben Sie auch suggestiv gestellte Fragen bemerkt, möglicherweise haben Sie gesehen, was die Interviewerinnen angekreuzt haben, wenn Sie geantwortet haben (war es das, was Sie gemeint haben? ), usw. Aufgabe Aufgabe Aufgabe Aufgabe 2 22 2: : : : Kreuztabellen in absoluten Zahlen: 184 Anhang: Lösungen der Aufgaben Kreuztabelle a1: Votum 18-30 31-44 45-60 61+ Insgesamt Ja 2 1 3 1 7 Nein 3 0 0 0 3 Weiß nicht 1 0 0 0 1 Insgesamt 6 1 3 1 11 Kreuztabelle a2: Geschlecht Abitur Fachhochschulabschluss Universitätsdiplom Insgesamt Männer 3 2 2 7 Frauen 1 3 1 5 Insgesamt 4 5 3 12 Kreuztabelle a3: Einkommen 18-30 31-44 45-60 61+ Insgesamt < € 50.00 1 0 0 1 2 € 50.001 - 80.000 3 1 1 0 5 ≥ € 80.001 1 0 2 0 3 Insgesamt 5 1 3 1 10 Kreuztabellen in Prozentwerten: Kreuztabelle b1: Votum nach Alter Votum 18-30 31-44 45-60 61+ Insgesamt Ja 33% 100% 100% 100% 64% Nein 50% 0% 0% 0% 27% Weiß nicht 17% 0% 0% 0% 9% Insgesamt 100% 100% 100% 100% 100% Kreuztabelle b2: Schulabschluss nach Geschlecht Geschlecht Alter Abitur Fachhochschulabschluss Insgesamt Männer 75% 40% 67% 58% Frauen 25% 60% 33% 42% Insgesamt 100% 100% 100% 100% 185 Aufgaben Kapitel 5: Die Befragung Kreuztabelle b3: Einkommensgruppe nach Alter Einkommen 18-30 31-44 45-60 61+ Insgesamt € 50.00 20% 0% 0% 100% 20% € 50.001 - 80.000 60% 100% 33% 0% 50% ≥ € 80.001 20% 0% 67% 0% 30% Insgesamt 100% 100% 100% 100% 100% Aufgabe 3: Aufgabe 3: Aufgabe 3: Aufgabe 3: Zunächst einmal ist Ihre Stichprobe eine Stichprobe der Mensa-Benutzer, nicht der Studierenden. Unter den Mensabenutzern sind auch Nicht- Studierende (Lehrpersonal und einige Personen, die die Mensa wegen des preiswerten Essens aufsuchen), und es könnte sein, dass sich die Studierenden, die die Mensa benutzen, von denen, die sie nicht benutzen, doch so erheblich unterscheiden, dass man gar nicht sagen kann, es handele sich um dieselbe Grundgesamtheit. Das eine Problem könnte man angehen, indem man sich vornimmt, die Fragebögen nur an Personen auszuteilen, die „nach Studenten aussehen“, mit der Gefahr, dass man einige ältere Studenten auslässt und einige jüngere Dozenten einbezieht. Auf jeden Fall ist sehr offensichtlich, dass wir hier nicht behaupten können, wir hätten eine Zufallsauswahl getroffen. Ein Problem bei der Art der Wahl der Stichprobe durch Verteilen am Eingang ist auch das Wieder-Einsammeln. Vermutlich würden recht viele Fragebögen auf den Tischen liegen bleiben, und zwar bearbeitet, halb bearbeitet oder leer. Auf diese Weise werden Sie kaum 50% Ihrer Fragebögen zurückbekommen. Ein solches Verfahren hat also eine Menge Nachteile, aber es ist handhabbar, vor allem, wenn Sie die Fragebögen an den Tischen verteilen und wieder einsammeln. Für eine Magisterarbeit ist es völlig akzeptabel, ein solches oder ähnliches Verfahren (z.B. eine gut zusammengestellte Quote von Seminarbesuchern vor oder nach dem Seminar zu befragen) zu benutzen, jedoch ist in der Arbeit darauf hinzuweisen, welche Tücken die Wahl der Stichprobe hat. Die Auswahl der Stichprobe wäre ganz einfach möglich, falls Sie die Verwaltung überzeugen könnten, die Kartei der eingeschriebenen Studierenden der Philipps-Universität benutzen zu dürfen. Dann könnten Sie daraus eine Zufallsauswahl treffen und die entsprechenden Personen anschreiben. Eventuell hätten Sie eine geringfügige Unterrepräsentation von älteren Studierenden, weil Adressenwechsel nicht immer beim Studentensekretariat gemeldet werden und diejenigen, die umgezogen sind, für Sie nicht mehr auffindbar sind. 186 Anhang: Lösungen der Aufgaben Dieses Verfahren, das aus Datenschutzgründen an deutschen Universitäten nicht realisierbar ist, ist natürlich erheblich teurer (Sie brauchen Porto und Rückporto), und Sie hätten das im Text erwähnte Problem der „Selbstselektion der Stichprobe“. Wenn Sie aber so nicht vorgehen können, sollten Sie besser nach dem Quotenverfahren vorgehen. Dabei wäre wichtig, dass Sie die einzelnen Fachbereiche entsprechend ihrer Studentenzahl berücksichtigen, ebenso Geschlecht, Alter und Nationalität der Studierenden. Nun zum eigentlichen Fragebogen: Gut ist das Folgende: Es handelt sich um eine Fragestellung, bei der eine sprachliche Norm eine Rolle spielt; direkte Fragen sind also ausgeschlossen. Dies ist gewährleistet. Das offizielle Papier und der „ausgeliehene“ Titel der betreuenden Professorin erhöhen den Eindruck eines seriösen Fragebogens. Ihre Professorin wird Ihnen auch dankbar sein, wenn Sie Ihre eigene E-Mail-Adresse und nicht ihre in den Fragebogen schreiben. Gut ist auch, dass eine Möglichkeit gegeben wird, die Ergebnisse der Befragung zu erfahren, ohne die eigene Anonymität aufzuheben. Wenn es sich um heiklere Fragen handeln würde, wäre es übrigens angebracht, dies gar nicht auf demselben Blatt zu erfragen, sondern auf einem Beiblatt. Es gibt einen ablenkenden Titel, der zwar schnell durchschaubar sein dürfte, aber bei der Kürze des Fragebogens fällt das vermutlich erst gegen Ende auf, zumal die erste Frage deutlich dialektbezogen ist. Schlecht oder weniger gut ist das Folgende: Es gibt zu wenig korrekte Sätze in der Liste; man kommt schnell auf die Idee, alles müsse falsch sein. Insgesamt kommen die infrage stehenden Phänomene zu selten vor. Es sollten für die einzelnen Typen (Doppelperfekt/ Doppelplusquamperfekt; mit sein und mit haben gebildet) mindestens je 3 Sätze vorkommen. Dadurch müssen aber auch erheblich mehr Ablenker-Sätze aufgenommen werden, also Sätze, die gar kein Doppelperfekt oder Doppelplusquamperfekt enthalten. Die vorgegebenen Antwortkategorien vermischen 2 Aspekte. Einerseits geht es um die Beurteilung als korrekt oder unkorrekt (besser als falsch, was auch als „inhaltlich falsch“ aufgefasst werden kann - in diesem Fall würde z.B. Heute ist schönes Wetter an einem Regentag mit falsch beurteilt), andererseits darum, ob man etwas kennt und gebraucht. Das muss nicht übereinstimmen, denn man kann wissen, dass man Dinge sagt, die man trotzdem als unkorrektes Deutsch ansieht. 187 Aufgaben Kapitel 6: Das Experiment Aufgaben Aufgaben Aufgaben Aufgaben Kapitel Kapitel Kapitel Kapitel 6 66 6 : Das Experiment : Das Experiment : Das Experiment : Das Experiment Aufgabe 1: Aufgabe 1: Aufgabe 1: Aufgabe 1: Eine deutlich intervenierende Variable ist die Worthäufigkeit. Bei jeder Benennaufgabe sind Versuchspersonen deutlich schneller bei häufig vorkommenden Wörtern. Sie müssten also darauf achten, dass die Wörter in allen Gruppen dieselbe durchschnittliche Häufigkeit haben (anhand von Korpora zur Vorkommenshäufigkeit, z.B. der CELEX-Datenbank). Eine weitere intervenierende Variable ist die Wortlänge. Je länger das Wort ist, umso länger dauert das Lesen (abhängig von der Zahl der Buchstaben) und dauert die Ausspracheplanung (wohl abhängig von der Zahl der Silben). Auch Silbenzahl und Anzahl der Buchstaben müssten also über die Gruppen konstant gehalten werden. Zu befürchten ist auch, dass der Grad der vorzunehmenden Veränderungen eine Rolle spielt. Insofern wäre es weise, Fälle mit Umlauten getrennt zu betrachten, denn beim -s-Plural gibt es keine Umlaute. Ein weiteres Problem ist, dass Sie gar nicht wissen, ob die Wörter mit dem -s-Suffix von den Versuchspersonen als Plural oder als Genitiv wahrgenommen werden (des Autos), das könnten Sie nur dadurch lösen, dass Sie sich in allen Gruppen auf Feminina beschränken, die im Genitiv kein Suffix haben (der Oma, der Sahne). Und als letztes Problem ergibt sich, dass für die meisten Wörter mit anderen Pluralen von ihrer morphologischen Struktur her mehrere Plurale infrage kommen, bei den Wörtern mit -s-Plural (Abkürzungswörter, Wörter, die auf Vollvokal enden) jedoch nur einer. Dieses Problem haben Sie vielleicht umschifft, indem Sie nicht den Plural, sondern den Singular bilden lassen, aber es ist natürlich ungeklärt, was es ausmacht, wenn die Beziehung zwischen Singular- und Pluralform eindeutig ist oder nicht. Insofern sollten Sie diese ungeklärte Frage im Forschungsbericht erwähnen. Aufgabe 2: Aufgabe 2: Aufgabe 2: Aufgabe 2: So formuliert ist die Frage nicht experimentell überprüfbar, denn hier geht es ja gar nicht um die Überprüfung einer Hypothese. Aber auch bei einer Umformulierung der Art „Lerner des Deutschen als Fremdsprache lernen mit dem Valenz-/ Dependenzmodell besser als mit der traditionellen Grammatik, korrekte Akkusativ-Markierungen zu gebrauchen“ hätten Sie verschiedene Probleme. Ein sehr großes Problem ist es, den beiden infrage stehenden Grammatikmodellen „gleiche Chancen“ zu geben. Während Lerner des Deutschen als Fremdsprache fast immer die traditionelle Grammatik bereits kennen, lernen sie das Valenz-/ Dependenzmodell zur Grammatikbeschreibung meist erst durch ihr Deutschlehrbuch kennen. Insofern ist zu erwarten, dass sie einfach (richtig oder falsch! ) die ungewohnt präsentierten grammatischen Erklärungen in ihrem Lehrbuch in ihr vertrautes Modell „übersetzen“, das 188 Anhang: Lösungen der Aufgaben angebotene Modell also gar nicht nutzen. Ein zweites Problem ist, dass das verwendete Modell nur bis zu einem bestimmten Punkt auf dem Weg zur richtigen Markierung bei der Sprachproduktion helfen kann, nämlich bis dahin, wo der Lerner weiß, dass ein Akkusativ stehen muss. Dass er dann auch noch die Markierung tatsächlich (und die korrekte Markierung) verwendet, ist ein weiterer Schritt. Zwischen den beiden Schritten kann sehr viel passieren, also ist es sinnvoll, nur das zu überprüfen, bei dem das verwendete Modell überhaupt eine Rolle spielen kann. D.h., wenn wir experimentieren, sollten wir für verschiedene Kontexte abfragen, welcher Kasus stehen muss, aber nicht die konkrete Markierung erfragen. Wir setzen also die Fragestellung erst in eine experimentell beantwortbare um, indem wir uns die Aufgabe stellen, die folgende Hypothese zu unterstützen: Deutschlerner profitieren beim Lernen des Unterschieds zwischen Nominativ und Akkusativ davon, dass man ihnen Grammatikerklärungen im Valenz-/ Dependenzmodell bietet. Bei der praktischen Durchführung des Experiments müsste man zwei vergleichbare Gruppen von Lernern haben und mit jeweils demselben modernen Lehrbuch unterrichten, wobei jedoch für eine der beiden Gruppen alle relevanten Grammatikdarstellungen in die traditionelle Grammatik umgeschrieben werden müssten. Nachdem die Einführung des Akkusativs abgeschlossen ist, würde man dann beiden Gruppen einen schriftlichen Test vorlegen, in dem für verschiedene Sätze bei den nominalen Elementen abgefragt wird, welcher Kasus jeweils richtig ist. Aufgabe 3: Aufgabe 3: Aufgabe 3: Aufgabe 3: Sie sind davon ausgegangen, dass es einen zusätzlichen Aufwand bedeutet, das Genus eines Substantivs zu lernen, Sie sollten also eine Sprache als Zielsprache wählen, in der das Genus sich nicht aus der Wortform ergibt (wie im Italienischen z.B. bei fast allen Substantiven), das Deutsche z.B. würde sich dafür anbieten, weil die Beziehungen zwischen Wortform und Genus für Lerner größtenteils undurchsichtig sind. Dann suchen Sie sich eine Gruppe von Sprechern derselben Muttersprache aus, deren Muttersprache Genus hat (also z.B. wäre es sinnlos, Chinesen zu nehmen), z.B. nur Spanier, und lassen sie deutsche Vokabeln mit ihrem Genus lernen. Es gibt zwei mögliche Störvariablen, auf die Sie achten müssen: - Übereinstimmung von Genus und natürlichem Geschlecht (die Frau) - Genuszuweisende Suffixe (wie -ung für Feminina). In diesen Fällen ist das Genus besonders leicht zu lernen. Also entweder nehmen Sie keine Substantive mit Suffixen und keine Bezeichnungen für Lebewesen, dann lassen Sie nur zwei Gruppen von ansonsten gleich schwer zu lernenden Vokabeln lernen, nämlich solche mit demselben Genus in der Ausgangssprache und solche mit einem anderen Genus in der Ausgangssprache. Oder Sie interessieren sich gerade für die Rolle der Einflüsse von genus- 189 zuweisenden Suffixen und vom natürlichen Geschlecht, dann haben Sie ein erheblich komplizierteres Design mit 6 Ausprägungen der unabhängigen Variable : 1. Genus entspricht dem natürlichen Geschlecht in beiden Sprachen, 2. Genus entspricht dem natürlichen Geschlecht im Deutschen nicht (das Weib), in der Ausgangssprache aber wohl, 3. es gibt ein genuszuweisendes Suffix im Deutschen, in der Ausgangssprache hat das übersetzungsäquivalente Wort dasselbe Genus, 4. wie 3, aber das Übersetzungsäquivalent hat ein anderes Genus in der Ausgangssprache, 5. keine der o.a. Bedingungen trifft zu, nur ein unterschiedliches Genus in Ausgangs- und Zielsprache, 6. wie 5, aber dasselbe Genus. Bedingung 5 und 6 wären auch die Bedingungen für die einfache Version des Experiments. Die nächsten Fragen wären, wie man das Lernen organisiert und wie man es überprüft. Es sind ganz viele Verfahren denkbar, wichtig ist, dass sie für alle Gruppen von Vokabeln gleich gehalten werden. Sie könnten also z.B. alle zu lernenden Vokabeln mit dem Artikel auf die eine Seite eines Kärtchens schreiben und die Übersetzung auf die Rückseite und allen Versuchsteilnehmern dieselbe Zeit geben, die Vokabeln nach ihrer gewohnten Methode zu lernen, wobei Sie darauf hinweisen, dass die Lernkontrolle hinterher die vollständigen Vokabeln mit Artikel betreffen wird. Dann geben Sie eine Liste mit den muttersprachlichen Entsprechungen (in einer zufälligen Reihenfolge, nicht nach den Gruppen des Experiments geordnet) und lassen jeweils die Übersetzung mit Artikel dazuschreiben. So können Sie vergleichen, ob es Unterschiede in der Fehleranzahl und in der Anzahl der gar nicht gelernten Vokabeln für die einzelnen Gruppen von Vokabeln gibt. Was ein Fehler ist, müssen Sie natürlich auch festlegen und immer konstant halten, also z.B., ob Sie jeden Fehler zählen wollen oder nur Fehler im Genus, wie Sie es mit offensichtlichen Rechtschreibefehlern (z.B. die Großschreibung wurde vergessen) halten, usw. Sie werden auf jeden Fall Unterschiede finden, ob diese Unterschiede durch den Zufall zu erklären sind oder nicht, müssen Sie überprüfen. Das lernen Sie in den nächsten Kapiteln des Buchs. Aufgaben Aufgaben Aufgaben Aufgaben Kapitel 7: Skalenniveaus Kapitel 7: Skalenniveaus Kapitel 7: Skalenniveaus Kapitel 7: Skalenniveaus Aufgabe Aufgabe Aufgabe Aufgabe 1 11 1: : : : a) Schulbildung: Nominalskala b) Akzeptabilität von Sätzen: Ordinalskala c) Gesprochener Dialekt: Nominalskala d) Benotung von Aufsätzen: Intervallskala e) Reaktionszeit: Intervallskala f) Verschiedene Arten von Relativsätzen im Englischen: Nominalskala g) Didaktische Fähigkeiten: Ordinalskala h) Länge der Schlagzeilen: Intervallskala n Aufgaben Kapitel 7: Skalenniveaus 190 Anhang: Lösungen der Aufgaben Aufgabe 2: Aufgabe 2: Aufgabe 2: Aufgabe 2: 2.1 Nationalität: Sie können die einzelnen Länder jeweils aufführen, Sie können aber auch, wenn die erhaltenen Ergebnisse Ihnen ausreichend ähnlich erscheinen, Länder zusammenfassen, z.B. werden manchmal die BENE- LUX-Länder zusammengefasst oder Spanien und Portugal. In jedem Fall geht es um Nominalskalenniveau. 2.2 Muttersprache: Hier werden Sie eventuell einige weniger verbreitete Muttersprachen als „andere“ zusammenfassen wollen: Nominalskalenniveau. 2.3 Alter: Sie haben Intervallskalenniveau, wenn Sie das tatsächliche Alter festhalten. Das macht die Darstellung allerdings sehr unübersichtlich, insofern werden Sie sicher eine überschaubare Zahl von Gruppen in Bezug auf das Alter zusammenfassen, z.B. <21, 21-35, 36-50, 51-65, >65, und damit kommen Sie auf Ordinalskalenniveau. 2.4 Ausbildung: Auch hier werden Sie Gruppen bilden, damit alle Möglichkeiten erfasst werden können, z.B. wenn Sie sich nur um die Schulausbildung kümmern, wäre das Folgende eine Möglichkeit: Hauptschulabschluss oder geringer; Realschul-/ Fachoberschulabschluss; Abitur oder Äquivalent, begonnenes Studium; abgeschlossenes Studium. Hier hätten Sie eine Nominalskala, denn es ist vielleicht in der Wahrnehmung vieler Menschen so, dass ein abgeschlossenes Studium „mehr“ ist als ein Hauptschulabschluss, aber im statistischen Sinne ist das nicht so. Eine Intervallskala könnten Sie haben, wenn Sie einfach die Anzahl der aufsteigenden Schul- und Ausbildungsjahre zusammenrechnen, ohne den Schulbzw. Ausbildungstyp zu berücksichtigen, also nur „6, 7, 8 ... Ausbildungsjahre“ angeben. Das ist jedoch unüblich. 2.5 Beruf: Die Berufe werden auch üblicherweise zusammengefasst, z.B. nach der Art des Arbeitsvertrags in Arbeiter, Angestellte, leitende Angestellte, Beamte, nicht berufstätig. Oder auch ganz anders, wie Wissenschaftler, Handwerker, Geschäftsmann usw. Für eine bestimmte Untersuchung kann aber eine andere Einteilung viel sinnvoller sein. Auf jeden Fall haben wir ein Nominalskalenniveau. 2.6/ 7: Für 6 und 7 ist die Kategorisierung vorgegeben. Strikt genommen haben wir hier Ordinalskalenniveau, weil die „Intervalle“ hier nicht gleich sind. In der Praxis betrachtet man eine solche Skala aber oft als (semi-) Intervallskalenniveau und berechnet Mittelwerte, was bei einer Ordinalskala nicht möglich wäre. 2.8/ 9: Für 8 und 9 wurde vorgesehen, dass offene Antworten gegeben werden können; das stellt Sie vor die Aufgabe, im Nachhinein den gegebenen Antworten Kategorien zuzuweisen, was vermutlich nicht mehr einbringt, als wenn Sie gleich etwas wie „sehr gering 1 - 2 - 3 - 4 - 5 äußerst groß“ vorgegeben hätten. Im Normalfall würden wir hier aber die Aussagen ohne quantitative Ausrechnung zusammenfassen - es handelt sich daher um ein qualitatives Datenerhebungsverfahren. Aufgaben Aufgaben Aufgaben Aufgaben Kapitel Kapitel Kapitel Kapitel 8 88 8 : Beschreibende Statistik : Beschreibende Statistik : Beschreibende Statistik : Beschreibende Statistik Aufgabe Aufgabe Aufgabe Aufgabe 1 11 1: : : : Gesamtgruppe ohne William Median 7 6,5 Mittelwert 6,20 6,78 S 2,15 1,20 z-Werte (berechnet ohne das Ergebnis von William): Adrian - 0,65 Nan - 0,65 Jay - 0,65 Margaret 1,02 Judith - 1,48 Frank 0,19 Lydia 0,19 David 1,85 Nancy 0,19 William - Aufgabe Aufgabe Aufgabe Aufgabe 2 22 2: : : : Ergebnis Häufigkeit 9 1 8 1 7 3 6 3 5 1 4 0 3 0 2 0 1 1 Gesamt 10 Aufgabe Aufgabe Aufgabe Aufgabe 3 33 3: : : : Durchschnitt für Männer und Frauen: 5,8 bzw. 6,6. Durchschnitt für Männer und Frauen ohne William: 7,0 bzw. 6,6. Aufgaben Kapitel 9 Aufgaben Kapitel 9 Aufgaben Kapitel 9 Aufgaben Kapitel 9 : : : : Inferentielle Statistik I Inferentielle Statistik I Inferentielle Statistik I Inferentielle Statistik I Aufgabe Aufgabe Aufgabe Aufgabe 1 11 1: : : : Wenn es eine positive Korrelation zwischen der Taillenweite von Menschen und ihrem Einkommen gibt (und dies ist in den meisten europäischen Ländern der Fall), ist wahrscheinlich ein verborgener Faktor mit im Spiel, wie beispielsweise das Alter. Es gibt eine positive Korrelation zwischen Alter und Taillenweite (Menschen werden ein bisschen dicker, wenn sie älter werden) 191 Aufgaben Kapitel 9: Inferentielle Statistik I 192 Anhang: Lösungen der Aufgaben und zwischen Alter und Einkommen (mit höherem Alter steigt das Einkommen). Daher gibt es konsequenterweise auch eine positive Korrelation zwischen Taillenweite und Einkommen. Dies wäre eine irreführende Korrelation. Aufgabe Aufgabe Aufgabe Aufgabe 2 22 2: : : : Eine Korrelation von -0,65 ist eine stärkere Korrelation als +0,45. Das hat nichts damit zu tun, dass die eine positiv und die andere negativ ist. Aufga Aufga Aufga Aufgabe be be be 3 33 3: : : : Natürlich ist Rauchen schlecht, aber wir können keine Kausalaussagen aufgrund von Korrelationen treffen. Die Korrelation könnte auch auf einem Faktor beruhen, der beides verursacht, z.B. Stress. Aufgabe Aufgabe Aufgabe Aufgabe 4 44 4: : : : a) r= -0,52 b) Die Korrelation ist negativ, wie auch durch die negative Steigung der Geraden des Graphen in der folgenden Abbildung ersichtlich ist. Sie zeigt eine mäßige Beziehung, ist aber nicht signifikant (der Minimalwert für df = 8 liegt bei 0,632). Die negative Korrelation ist durch Mattys Ergebnis entstanden. Nehmen wir Matty als „Ausreißer“ aus der Ergebnisbewertung heraus, haben wir eine Korrelation von r=0,23. c) Vielleicht hat Matty sich nicht gut gefühlt, als sie aus der Muttersprache übersetzte, oder vielleicht hat sie eine andere Muttersprache als die anderen Schüler. d) 193 Aufgaben Kapitel 9: Inferentielle Statistik I e) Ein Vergleich der Ergebnisse aus den zwei Übersetzungsaufgaben ergab eine (negative) Korrelation von r= -0,52, die aber das Signifikanzniveau nicht erreichte. Eine Neuberechnung der Korrelation mit Ausschluss des Ausreißers ergibt eine schwach positive Korrelation von r=0,23, die aber auch nicht signifikant ist. Aufgabe Aufgabe Aufgabe Aufgabe 5 55 5: : : : Die Korrelation zwischen den Ergebnissen von Schulkindern und der Anzahl der Bücher in den Häusern, in denen sie wohnen, sagt nicht viel aus. Man kann nicht sagen, dass die Anzahl der Bücher bessere Noten verursacht habe (einmal angenommen, dass die Beziehung positiv ist). Aufgabe 6: Aufgabe 6: Aufgabe 6: Aufgabe 6: Um diese überaus konfliktträchtige Frage zu beantworten, führen wir einen Chi-Quadrat-Test durch. Wir beobachten, dass es eine unterschiedliche Anzahl von Fleischklößchen gibt, nämlich 2, 1 und 6. Wenn die Mutter nicht voreingenommen ist, würden wir bei dieser Anzahl verteilter Klößchen erwarten, dass jeder Sohn drei Klößchen in seiner Suppe hat. Die erwartete Häufigkeit ist also 3, 3 und 3: Sohn A Sohn B Sohn C beobachtete Häufigkeit 2 1 6 erwartete Häufigkeit 3 3 3 Die Frage ist nun, ob die Differenz zwischen der beobachteten und der erwarteten Häufigkeit groß genug ist, dass wir sagen können, ob die ungleiche Verteilung auf böswillige Absicht zurückzuführen ist, oder ob sie rein zufällig ist. Wir führen einen Chi-Quadrat-Test durch. Setzen wir unsere Werte in die Formel für diesen Test ein, erhalten wir für Sohn A 5 4 0,33 für Sohn B 5 4 1,33 für Sohn C 5! 4 ) 3,00 2 = Summe 4,66 Wir müssen jetzt wieder in einer Tabelle zur Signifikanzberechnung nachsehen, ob der Wert signifikant ist. Wir benötigen hierzu wieder die Freiheitsgrade. Die berechnen wir, indem wir 1 von der Anzahl der Gruppen (hier: Söhne) subtrahieren: df =3-1=2. Nun stellen wir fest, dass unser Wert 4,66 nicht signifikant ist. Mit anderen Worten: Es gibt keinen ausreichenden 194 Anhang: Lösungen der Aufgaben Grund zu behaupten, dass die Anzahl der Klößchen in der Suppe von irgendetwas außer dem Zufall beeinflusst wurde. Die Mutter hat die Wahrheit gesagt. Wahrscheinlich … Aufgaben Aufgaben Aufgaben Aufgaben Kapitel Kapitel Kapitel Kapitel 10 10 10 10 : : : : Inferentielle Statistik II Inferentielle Statistik II Inferentielle Statistik II Inferentielle Statistik II Aufgabe 1: Aufgabe 1: Aufgabe 1: Aufgabe 1: Ein t-Test für unabhängige Gruppen ergibt: t(38)=2,05, p<0,05. Sie könnten die Ergebnisse im Forschungsbericht wie folgt darstellen: Die Ergebnisse für die zwei experimentellen Bedingungen waren signifikant verschieden, wobei die Schüler in Gruppe A höhere Ergebnisse erreichten als die Schüler in Gruppe B (t(38)=2,05, p<0,05). Dies legt nahe, dass der ältere Lehrer trotz seiner größeren Erfahrung weniger erfolgreich im Vermitteln des Lehrstoffs war als sein junger Kollege. Aufgabe 2: Aufgabe 2: Aufgabe 2: Aufgabe 2: Es ergeben sich die folgenden Daten: Beobachtete Häufigkeit: A B Gesamt Ja 16 12 28 Nein 4 8 12 Gesamt 20 20 40 Wir geben die Anzahl der „ja“- und „nein“-Antworten jeweils für Gruppe A und B in einen Chi-Quadrat-Rechner ein und erhalten das Ergebnis: 2 =1,07, df=1, nicht signifikant. Ein möglicher Ergebnisbericht wäre: Ein Chi-Quadrat Test ergab keinen Unterschied zwischen den zwei Gruppen in der Frage der frühzeitigen Pensionierung von Lehrern über 50 ( 2 =1,07, df=1, n.s). Aufgabe 3: Aufgabe 3: Aufgabe 3: Aufgabe 3: Da es sich hier um sehr wenige Daten handelt, würden wir normalerweise einen Mann-Whitney-U-Test verwenden. Dies lassen wir mit einem Online- Rechner durchführen und erhalten das Ergebnis U(n 1 =6, n 2 =7)=40, z= -2,64, p<0,01. Man könnte das Resultat der Analyse wie folgt aufschreiben: Der Vergleich mit einem Mann-Whitney-U-Test ergab, dass in Boulevard- Zeitungen kürzere Sätze (mit durchschnittlich 14,0 Wörtern) verwendet werden als in seriösen Zeitungen (mit durchschnittlich 26,3 Wörtern) (U(n 1 =6, n 2 =7)=40, p<0,01). Wenn Sie übrigens stattdessen doch einen t-Test versucht haben, werden Sie das Ergebnis: t(11)=3,48, p<0,01 erhalten haben - das Beispiel zeigt uns also 195 Aufgabe Kapitel 11: Signifikanz vs. Aussagekraft wieder, dass der t-Test auch bei recht kleinen Gruppen noch ziemlich robust ist. Aufgabe Kapitel 11: Aufgabe Kapitel 11: Aufgabe Kapitel 11: Aufgabe Kapitel 11: Signif Signif Signif Signifi ii ikanz kanz kanz kanz vs. Aussagekraft vs. Aussagekraft vs. Aussagekraft vs. Aussagekraft Wir berechnen eta 2 mit der Formel: 2 = t 2 / t 2 + df Für unser Beispiel aus Kapitel 10 also: 2 =(6,032) / (6,03 2 + 13)=0,73 Der Prozentsatz der erklärten Varianz ist 0,88 x 100=73. Das heißt, 73% der Unterschiede in den Ergebnissen werden durch die verwendete Methode erklärt (sind auf die verwendete Methode zurückzuführen). Die Ergebnisdarstellung könnte wie folgt aussehen: Die Ergebnisse für die zwei Versuchsbedingungen wiesen signifikante Unterschiede auf. Wie die Tabelle zeigt, erreichten Schüler, die nach Methode X unterrichtet wurden, wesentlich bessere Ergebnisse als die nach Methode Y unterrichteten (t=6,03, df=13, p<0,001, 2 =0,73). Literaturverzeichnis Literaturverzeichnis Literaturverzeichnis Literaturverzeichnis In dieser Liste haben wir nach dem Titel jeweils einen kurzen Kommentar hinzugefügt, wenn wir meinten, ein Titel könnte sich als weiterführende Literatur eignen. Altrichter, Herbert, Lobenwein, Waltraud und Heike Welte 1997. Praktiker- Innen als ForscherInnen. Forschung und Entwicklung durch Aktionsforschung. In: Friebertshäuser, Barbara und Annedore Prengel (Hg.). Handbuch qualitative Forschungsmethoden in der Erziehungswissenschaft. Weinheim, München: Iuventa, 640-660. [Einführung - mit Beispielen - in die Unterrichtsbegleitforschung mit Überblick über Methodik, Charakteristika, Gütekriterien sowie Vor- und Nachteile] Altrichter, Herbert und Peter Posch 4 2007. Lehrer erforschen ihren Unterricht: eine Einführung in die Methoden der Aktionsforschung. Bad Heilbrunn: Klinkhardt. [Standardwerk zur Einführung in die Aktionsforschung; geht hauptsächlich auf qualitative Forschung ein] Atteslander, Peter 5 1984. Methoden der empirischen Sozialforschung. Berlin: de Gruyter. Atteslander, Peter 8 1995. Methoden der empirischen Sozialforschung. Berlin/ New York: Sammlung Göschen. [Gut verständliche Einführung, mehrfach überarbeitet und in vielen verschiedenen Auflagen zu haben, Beispiele vorwiegend aus der Soziologie] Bachman, Lyle 2004. Statistical analyses for language assessment. Cambridge: CUP. [Leicht verständliche Einführung in statistische Tests in der Sprachlehrforschung] Boeckmann, Klaus-Börge 2002. Forschung in der Unterrichtspraxis: FremdsprachenlehrerInnen als ForscherInnen. In: Barkowski, Hans und Renate Faistauer (Hg.). ... in Sachen Deutsch als Fremdsprache. Festschrift für Hans-Jürgen Krumm zum 60. Geburtstag. Baltmannsweiler: Schneider, 180-190. [Einführung in die Unterrichtsbegleitforschung, hier bezogen auf, aber auf keinen Fall begrenzt auf die Fremdsprachenvermitlungsforschung / Aktionsforschung] Bortz, Jürgen und Nicola Döring 1995. Forschungsmethoden und Evaluation. 2. Auflage. Berlin: Springer. [Gut lesbare Einführung zu Forschungsmethoden insgesamt sowie zu den häufigsten statistischen Verfahren.] 198 Literaturverzeichnis Brinker, Klaus und Sven Sager 32001. Linguistische Gesprächsanalyse: Eine Einführung. Berlin: Schmidt. [Standardwerk zur Einführung in die Gesprächsanalyse] Brown, James Dean, Rodgers, Ted und Theodore Rodgers 2002. Oxford Handbooks for Language Teachers: Doing Second Language Research. Oxford: OUP. Deppermann, Arnulf 2008. Gespräche analysieren. 4. Aufl. Wiesbaden: Verlag für Sozialwissenschaften. [Standardwerk zur Einführung in die Gesprächsanalyse] Edmondson, Willis und Juliane House 2 2000. Einführung in die Sprachlehrforschung. Tübingen/ Basel: Francke. [Kapitel 3 enthält eine knappe und übersichtliche Einführung in Forschungsansätze der Sprachlehrforschung] Friebertshäuser, Barbara und Annedore Prengel (Hg.) 1997/ 3 2010. Handbuch Qualitative Forschungsmethoden in der Erziehungswissenschaft. Weinheim/ München: Juventa. [Guter Überblick über die qualitative Forschung, deren Arbeitsschritte und Forschungsansätze (Unterrichtsbeobachtung, Fallstudien, Lehrertagebücher, Interviews)] Gries, Stefan Th. 2008. Statistik für Sprachwissenschaftler. Göttingen: Vandenhoeck & Ruprecht. [Eine umfassende Einführung in die Analyse linguistischer Daten anhand des kostenlosen Statistikprogramms R] Grotjahn, Rüdiger 2006. Zur Methodologie der Fremdsprachenerwerbsforschung. In: Scherfer, Peter (Hg.). Vom Lehren und Lernen fremder Sprachen. Eine vorläufige Bestandsaufnahme. Lang: Frankfurt, 247-270. [Programmistischer Beitrag zur gegenwärtigen forschungsmethodische Diskussion in der Sprachlehrforschung] Henne, Helmut und Helmut Rehbock 4 2001. Einführung in die Gesprächsanalyse. Berlin/ New York: de Gruyter. [Gut verständliche erste Einführung in die Gesprächsanalyse] Hunston, Susan 2002. Corpora in Applied Linguistics. Cambridge: Cambridge University Press. Lemnitzer, Lothar und Heike Zinsmeister 22010. Korpuslinguistik. Tübingen: Narr. [Gründliche Einführung in die Korpuslinguistik] Mackey, Alison und Susan M. Gass 2005. Second Language Research. Methodology and Design. Mahwah, N.J.: Lawrence Erlbaum. [Standardwerk zu Forschungsmethoden in der Sprachlehrforschung in englischer Sprache] Porte, Graeme 2002. Appraising research in second language learning. A practical approach to critical analysis of quantitative research. Benjamins: Amsterdam. [Exzellente Einführung zur Rezeption empirischer Untersuchungen in der Sprachlehrforschung] 199 Raab-Steiner, Elisabeth und Michael Benesch 2008. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. Wien: fakultas.wuv. [Ausführliche und verständliche Behandlung der Vorgehensweise bei Befragungsstudien] Riemer, Claudia 2006. Entwicklungen in der qualitativen Fremdsprachenforschung: Quantifizierung als Chance oder Problem? In: Timm, Johannes- Peter (Hg.). Fremdsprachenlernen und Fremdsprachenforschung: Kompetenzen, Standards, Lernformen, Evaluation. Tübingen: Narr, 451-464. [Überblick über Möglichkeiten und Richtlinien für die qualitative Sprachlehrforschung] Riemer, Claudia, 2008. DaF/ DaZ und empirische Forschung: wechselnde Herausforderungen. In: Chlosta, Christoph, Leder, Gabriela und Barbara Krischer (Hrsg.), Auf neuen Wegen. Deutsch als Fremdsprache in Forschung und Praxis. Tagungsband der 35. Jahrestagung des Fachverbandes Deutsch als Fremdsprache 2007 an der Freien Universität Berlin. Göttingen: Universitätsverlag, 1-16. [Besprechung u.a. von Standards in der qualitativen Sprachlehrforschung] Scherer, Carmen 2006. Korpuslinguistik. Heidelberg: Winter. [Verständliche Einführung in die Korpuslinguistik] Statistisches Jahrbuch für die Bundesrepublik Deutschland, herausgegeben vom Statistischen Bundesamt Deutschland. Erscheint jedes Jahr im SFG-Verlag und ist als PDF-Datei einzusehen unter: www.destatis.de/ jahrbuch/ d_home/ htm. [Hier können Sie Daten über die Grundgesamtheit suchen] Steinke, Ines 1999. Kriterien qualitativer Forschung: Ansätze zur Bewertung qualitativ-empirischer Sozialforschung. Weinheim/ München: Juventa. Strübing, Jörg 2004. Grounded theory: Zur sozialtheoretischen und epistemologischen Fundierung des Verfahrens der empirisch begründeten Theoriebildung. Wiesbaden: Verlag für Sozialwissenschaften. Literaturverzeichnis Stichwortverzeichnis Stichwortverzeichnis Stichwortverzeichnis Stichwortverzeichnis α-Fehler........................................... 141 Abstract......................................... 167f. Aktionsforschung ...................... 21, 41 annotiertes Korpus .................... 52, 55 ANOVA .... 141f, 146ff., 157, 160, 164 einfache .................................. 146f. zweifache ................................ . 147f Artefakte ........................................... 73 Assoziationsexperimente................ 98 Assoziationsstärke, s. statistische Aussagekraft Augenschein-Validität.................... 32 β-Fehler........................................... 141 Bahnung, s. Priming Befragung......................... 15, 16ff., 23, 31, 34, 41, 59ff., 86, 107, 130, 171 Beobachtereffekte, s. Beobachtungseffekte Beobachtung..................15, 16, 17, 34, 35, 36, 41ff., 51, 59, 86, 99, 171 Beobachtungseffekte .....36, 44, 45, 46 Beschreibende Statistik ........54, 111ff. Bewerterzuverlässigkeit .......... 29, 122 Chi-Quadrat .................................... 54, 129ff., 141, 151ff., 157, 160, 162 Cohen's d ................................ 160, 163 content validity, s. inhaltliche Validität Cramér’s V ...........................160, 162f. Datenklassifikation.................. 46f., 52 degrees of freedom, s. Freiheitsgrade df, s. Freiheitsgrade Distraktoren ............................. 74, 130 Doppelblindversuch........................ 36 Effektgröße ................. 129, 159ff., 164 Erhebungsinstrumente ........... 32, 172 erklärte Varianz ................ 160f., 164f. Experiment ..............12, 17, 22, 28, 31, 34ff.,81ff., 135, 144, 156, 163, 171 Experimentdesign Abhängige Gruppen esign s. Messwiederholung mehrfaktorielles .......... 93 Messwiederholung ..... 83, 90, 101, 140, 142, 154f. lateinisches Quadrat .................. 90 Prätest/ Posttest........................... 90 Unabhängige Gruppen-Design ... 83, 89, 140f., 144, 153, 163 Fallstudie ...............................16, 86, 99 Feldexperiment ....................... 88f., 91 Forschungsbericht ....................33, 36, 69, 143, 167ff. Forschungsfrage ........14, 22ff., 27, 33, 82, 92, 130, 173 Fragen geschlossene..............................70f. indirekte ...................................... 71 offene ............................ 62, 66, 70f. Reihenfolge ........................ 66f., 73 Freiheitsgrade ......124, 127, 131f., 159 Friedman-Test ................................ 152 F-Wert ......................................... 147ff. gating ............................................... 100 Gauß’sche Glocke, s. Normalverteilung Geltungsbereich ............................... 31 Gesprächsanalyse s. Konversationsanalyse Gültigkeit, s. Validität Gütekriterien ..............16, 21, 27ff., 35 Häufigkeitsverteilung ......... 111f., 118 kumulative Häufigkeit ............ 112 relative Häufigkeit .................111f. Hypothese ................ 12f.,21, 23ff., 29, 33f., 37, 47f., 54, 74, 86f., 90, 91, 95, 121, 141, 143, 156, 167, 171 einseitig ..................................... 141 zweiseitig ................................... 141 - - Design -D design s 202 Stichwortverzeichnis inferentielle Statistik, s. Prüfstatistik inhaltliche Validität ......................... 32 Interaktion ....................... 94, 149, 150 Interview ..................... 35f., 59ff., 66ff. exploratives.........................60, 65f. standardisiertes ................... .65, 68 Interviewer-Effekte ..............60, 71, 73 Interviewerverhalten ....................... 60 Konsistenzprüfung .......................... 30 Konstrukt-Validität ......................... 32 Kontrollfaktor ....................25, 37, 171 Kontrollgruppe…26, 89ff., 144, 153f. Konversationsanalyse ....... 15f., 43, 59 Korrelation.......... 15ff., 30, 159, 160f., 173 irreführende.............................. 136 negative ......................... 122ff., 129 positive ..................... 123, 124, 127 Korrelationskoeffizient .................. 30, 121ff.,159 korrelierende Stichprobe, s. Abhängige-Gruppen-Design kritischer Wert ............................... 124 Laborexperiment..................44, 88, 91 lexical decision, s. lexikalische Entscheidungsaufgabe lexikalische Entscheidungsaufgabe 22, 27, 30, 95, 100 Likert-Skala................ 69, 72, 153, 154 Mann-Whitney-U-Test..............141f., 152ff., 157, 160 Median ............................................ 113 Messwiederholung s. Abhängige- Gruppen esign Mittelwert ...................... 84, 94, 106ff., 113ff., 139ff., 163 Modalwert....................................... 113 Normalverteilung...................116, 140 Nullhypothese .................................. 25 Objektivität ................................. 28, 30 Operationalisierung.................. 23, 24, 27, 33, 48, 81, 82 Paralleltest................................. 29, 37 Pearson product-moment-correlation, s. Korrelationskoeffizient phoneme monitoring .................... 100 Planung ....................................21ff., 73 Post-hoc-Analyse .................. 148, 150 Priming ..................................... 97, 100 Proband, s. Versuchsperson Prüfstatistik ........... 111, 121, 139, 141 qualitative Forschung ........ 12, 13, 14, 27, 65, 156 quantitative Forschung...... 12, 13, 14, 15, 34, 155 r2 ........................................... 160, 161 Reliabilität s. Zuverlässigkeit Replikationsstudie ............................24 Schriftliche Befragung ....... 59ff., 67ff. Segmentverschiebung ................... 101 selbsterfüllende Prophezeiung.... 35f., 91 Selektivität .........................................91 shadowing..........................................97 Signifikanz .......... 124, 127f., 131, 145, 159f., 162f. Skalenniveau ............................... 105ff. Intervallskala...........106, 108, 113, 125, 140f., 157 Nominalskala ....... 106ff., 140, 157 Ordinalskala ......... 106f., 113, 125, 140f., 152f., 157 Spearman Rho................................ 125 Sprachlehrforschung.................. 7, 14, 15, 16, 21, 25, 32, 33, 36 Sprachlernforschung s. Sprachlehrforschung Sprachproduktion ..................16, 96ff. Sprachrezeption............................. 100 Standardabweichung ................ 114ff., 139, 142 standard score, s. z-Wert statistical significance, s. Signifikanz statistische Aussagekraft............ 159ff. Stichprobe.........34ff., 49, 52, 61ff., 73, 82, 114, 121, 142, 155, 160, 16 2 Auswahl der Befragten ..............62 Quotenverfahren ........... 64, 68, 83 Selbstselektion ............................61 Zufallsstichprobe .................. 63ff. Störfaktor.................................. 21, 31, 33, 35ff., 87, 88, 89, 171, 173 -D 203 Stichwortverzeichnis Störvariable s. Störfaktor strength of association, s. statistische Aussagekraft Streudiagramm ...........................122ff. Stroop-Tests ..................................... 99 student’s t-Test, s. t-Test Testwiederholung ............29, 122, 136 Testzuverlässigkeit ..........29f., 37, 122 Textkorpus ....................................... 51 Token ................................................ 51 t-Test .................................. 140ff., 147, 151 ff., 155, 157, 159f., 163 Type ................................................... 51 Übereinstimmungs-Validität......... 32 Untersuchungsgegenstand ............ 16, 21f., 33, 35 Validität ........................... 13, 30ff., 37, 47, 48, 82, 171, 173 interne ........... . .............. 31, 37 externe.... 31, 34, 35, 173 Variable abhängige .................81ff., 87, 138, 146, 152, 156, 163, 164, 171 Ebenen s. Zustände intervenierende, s. Störfaktor unabhängige .... 81ff., 86ff., 92, 97, 146ff., 156, 160, 163, 164, 171 Zustände .............................83, 139 Varianz ......................160 f., 161, 163f. Varianzanalyse s. ANOVA Verlässlichkeit s. Zuverlässigkeit Versuchsperson........................... 9, 21, 23, 31, 33ff., 44, 72, 82, 91, 142 Versuchsteilnehmer s. Versuchsperson Wilcoxon-Test............... 141, 152,155, 157,160 Zuverlässigkeit....................... 28ff., 34, 37, 39, 48, 122, 129 z-Wert......................................115, 142 η2 (Eta zum Quadrat) ......... 160, 163f. ω2 (Omega zum Quadrat).....160, 163 ......... ......... ...... . .