Wie wir die Daten aufbereitet haben
Die Grafik zeigt, wie oft einzelne Begriffe und Begriffskombinationen auftauchen in den Stenogrammen der Staatsduma vom Jahr 1994 an bis einschließlich 2021.
Bei der Aufbereitung und Darstellung der Daten haben wir uns weitgehend orientiert am Vorgehen der Kollegen von Zeit Online in ihrem Projekt 70 Jahre Bundestag – Darüber spricht der Bundestag.
Um welche Daten geht es?
Ausgangsbasis der Analyse sind rund 385.000 Redebeiträge, die zwischen Januar 1994 und Mai 2021 auf der Seite der Staatsduma veröffentlicht wurden.
Wie sind wir vorgegangen?
Für die Analyse haben wir die Stenogramme zunächst in Einzelwörter – sogenannte Tokens – zerlegt. Die Liste der Einzelwörter haben wir dann um sogenannte Stopwords bereinigt – das sind Wörter wie „und“ (и), „so“ (так) oder „nur“ (только), die für die Analyse keine besondere Relevanz haben.
Da die Begriffe (insbesondere im Russischen) in verschiedenen Formen auftreten können (газета, газеты, газете, газету, …), ging es als nächstes darum, alle Varianten zu vereinheitlichen, sie in ihre Grund- bzw. Lexikonform zu bringen. Dieser Schritt wird in der Computerlinguistik Lemmatisierung genannt. Hierfür verwenden wir einen Algorithmus, den der russische Suchmaschinenanbieter Yandex entwickelt hat.
Da uns nicht nur Einzelbegriffe interessieren, sondern auch Wortverbindungen wie „ausländische Agenten“ (иностранные агенты) oder „Großer Vaterländischer Krieg “ (Великая Отечественная Война), haben wir die Daten außerdem nach Wörtern durchsucht, die besonders häufig in Zweier- und Dreier-Kombinationen auftreten (sogenannte N-Gramme).
Schließlich haben wir gezählt, wie oft die Wörter und Wortverbindungen jeweils in den Dokumenten der einzelnen Jahre auftauchen. Um Verzerrungen durch unterschiedliche Publikationsvolumina in den Jahren auszuschließen, zeigen wir in der Grafik nicht die absolute, sondern die relative Häufigkeit: wie oft ein Wort bzw. eine Wortverbindung pro 100.000 Wörter in einem Jahr auftaucht.
Was sollte noch beachtet werden?
Rechtschreibfehler oder unterschiedliche Schreibweisen können wie in den Originaldokumenten enthalten sein. Um den Datensatz überschaubar zu halten, zeigen wir nur Begriffe, die mindestens fünfzehnmal im gesamten Zeitraum vorkommen.
Für die deutsche und russische Version dieser Grafik wurden die russischsprachigen Veröffentlichungen der Staatsduma verwendet. In der deutschen Version können bedarfsweise maschinelle Übersetzungen der russischen Suchbegriffe angezeigt werden. Hierfür verwenden wir eine Kombination aus Yandex.Dictionary und Yandex.Translate.
Duma entschlüsseln
„Das Parlament ist kein Ort für Debatten“, sagt der Duma-Vorsitzender Boris Gryslow. Das war 2003. Auch wenn diese Worte 2021 mehr als zutreffend scheinen – in der Staatsduma wird permanent gesprochen. Worüber und wie oft, welche Abgeordneten welcher Parteien was sagen – das zeigt dieses Tool an, das dekoder gemeinsam mit der Novaya Gazeta entwickelt hat.
Es bereitet rund 385.000 Redebeiträge der Staatsduma seit 1994 grafisch auf und zeigt die Häufigkeit der von den Abgeordneten verwendeten Wörter und Wortverbindungen an.