Demokratie? Absteigende Tendenz! Sex? Exponentielles Wachstum!

1300830043|%d.%m.%Y

ngram-viewer.png Schonungslosigkeiten, präsentiert vom Google Ngram Viewer, einem kaum bekannten Instrument.
(eigentlich veröffentlicht am 27.02.2011)

Eigentlich ist der [http://ngrams.googlelabs.com/ Google Ngram Viewer, wieder mal so ein Schätzchen aus den Tiefen der Google Labs, ein seriöses Werkzeug, das etwa bei journalistischen oder wissenschaftlichen Recherchen durchaus nützliche Dienste leisten kann. Deshalb soll es hier ja auch vorgestellt werden. Darüber hinaus eignet es sich aber auch für knackige Knalleffekte, etwa zur Untermauerung einer sonst nicht tiefer begründeten These eines Tweets.

Die Beispiele aus dem Titel dieses Artikels sind schnell nachgebaut: einfach im Eingabefeld der ersten Zeile ein Wort wie Demokratie oder Sex eingeben, in der zweiten Zeile den Zeitraum, z.B. von 1900 bis 2011 angeben (2011 wird in der Auswertung allerdings automatisch zu 2008 verändert), als Corpus (Sprachraum) German auswählen (sinnvollerweise abhängig vom Suchwort), dann noch bei Smoothing die Feinkurvengenauigkeit einstellen und am Ende <Enter> drücken.

Indem man mehrere Wörter, durch Kommata getrennt, ins Eingabefeld der ersten Zeile eingibt, lassen sich auch mehrere Kurven in Beziehung setzen. Als Beispiel möge hier die Verteilung der Verwendung der Abkürzungen AIDS vs. HIV dienen. Die Kurven zeigen sehr gut, wie sich der Sprachgebrauch seit 1980 von AIDS weg und hin zu Ausdrücken wie HIV-Infektion verschiebt:

Die Visualisierungen des Books Ngram Viewers basieren auf dem Datenbestand von Google Books. Konkret werden derzeit etwa 500 Milliarden Wörter aus 5,2 Millionen Büchern in Chinesisch, Englisch, Französisch, Deutsch, Russisch und Spanisch berücksichtigt (Quelle: Google Produkt-Kompass). Die absoluten Zahlen der Y-Achse der Ngram-Viewer-Diagramme sind auch eigentlich nicht weiter interessant. Entscheidend sind die Trends, die sich aus Kurvenverläufen ablesen lassen. Dabei sind natürlich viele Faktoren zu berücksichtigen, etwa der, dass die Buchproduktion und damit die Zahl gedruckter Wörter insgesamt inflationär zunimmt - steigende Kurven stellen deshalb in den Diagrammen den Normalfall dar. Background-Wissen hilft überdies bei gezielten Suchen, wie das folgende Beispiel zeigt:

Das Beispiel zeigt das Ergebnis einer Suche nach dem Ausdruck a rose is a rose im englischen Korpus zwischen den Jahren 1913 und der Gegenwart, basierend auf der Kenntnis des Code-Wort-artigen Ausdrucks Rose is a rose is a rose is a rose, der 1913 von der Schriftstellerin Gertrude geprägt wurde und in der philosophischen Literatur, Abteilung Erkenntnistheorie, häufig aufgegriffen wurde. Dabei wird, wie die Kurve zeigt, allerdings deutlich, dass der Bezug auf den Ausdruck vor allem von den 40er bis 60er Jahren des 20. Jahrhunderts stark anzog, während er seit 1990 deutlich nachlässt.

Durchsucht werden beim Starten einer Visualisierungsanfrage nicht wirklich alle digitalisierten Bücher, sondern sogenannte Data Sets. Google bietet sogar den Download der Data Sets an, vorausgesetzt, man hat Freude daran, etliche Gigabyte an nackten CSV-Dateien herunterzuladen. Die Data Sets werden von Google laufend aktualisiert.

Der Google Ngram Viewer ist zweifellos ein zwiespätiges Instrument. Es kann zum Ermitteln begründeter Einschätzungen dienen, aber natürlich auch zum Erstellen verbogener Statistiken. Interessant und unterhaltsam ist es allemal.

Kommentare

Neuen Kommentar hinzufügen
oder Anmelden als Wikidot User
(wird nicht veröffentlicht)
- +
Sofern nicht anders angegeben, steht der Inhalt dieser Seite unter Lizenz Creative Commons Attribution-ShareAlike 3.0 License