Die Duma spricht

Wie wir die Daten aufbereitet haben

Die Grafik zeigt, wie oft einzelne Begriffe und Begriffskombinationen auftauchen in den Stenogrammen der Staatsduma vom Jahr 1994 an bis einschließlich 2021.

Bei der Aufbereitung und Darstellung der Daten haben wir uns weitgehend orientiert am Vorgehen der Kollegen von Zeit Online in ihrem Projekt 70 Jahre Bundestag – Darüber spricht der Bundestag.

Um welche Daten geht es?

Ausgangsbasis der Analyse sind rund 385.000 Redebeiträge, die zwischen Januar 1994 und Mai 2021 auf der Seite der Staatsduma veröffentlicht wurden.

Wie sind wir vorgegangen?

Für die Analyse haben wir die Stenogramme zunächst in Einzelwörter – sogenannte Tokens – zerlegt. Die Liste der Einzelwörter haben wir dann um sogenannte Stopwords bereinigt – das sind Wörter wie „und“ (и), „so“ (так) oder „nur“ (только), die für die Analyse keine besondere Relevanz haben. 

Da die Begriffe (insbesondere im Russischen) in verschiedenen Formen auftreten können (газета, газеты, газете, газету, …), ging es als nächstes darum, alle Varianten zu vereinheitlichen, sie in ihre Grund- bzw. Lexikonform zu bringen. Dieser Schritt wird in der Computerlinguistik Lemmatisierung genannt. Hierfür verwenden wir einen Algorithmus, den der russische Suchmaschinenanbieter Yandex entwickelt hat.

Da uns nicht nur Einzelbegriffe interessieren, sondern auch Wortverbindungen wie „ausländische Agenten“ (иностранные агенты) oder „Großer Vaterländischer Krieg “ (Великая Отечественная Война), haben wir die Daten außerdem nach Wörtern durchsucht, die besonders häufig in Zweier- und Dreier-Kombinationen auftreten (sogenannte N-Gramme).

Schließlich haben wir gezählt, wie oft die Wörter und Wortverbindungen jeweils in den Dokumenten der einzelnen Jahre auftauchen. Um Verzerrungen durch unterschiedliche Publikationsvolumina in den Jahren auszuschließen, zeigen wir in der Grafik nicht die absolute, sondern die relative Häufigkeit: wie oft ein Wort bzw. eine Wortverbindung pro 100.000 Wörter in einem Jahr auftaucht.

Was sollte noch beachtet werden?

Rechtschreibfehler oder unterschiedliche Schreibweisen können wie in den Originaldokumenten enthalten sein. Um den Datensatz überschaubar zu halten, zeigen wir nur Begriffe, die mindestens fünfzehnmal im gesamten Zeitraum vorkommen. 

Für die deutsche und russische Version dieser Grafik wurden die russischsprachigen Veröffentlichungen der Staatsduma verwendet. In der deutschen Version können bedarfsweise maschinelle Übersetzungen der russischen Suchbegriffe angezeigt werden. Hierfür verwenden wir eine Kombination aus Yandex.Dictionary und Yandex.Translate.

Duma entschlüsseln

„Das Parlament ist kein Ort für Debatten“, sagt der Duma-Vorsitzender Boris Gryslow. Das war 2003. Auch wenn diese Worte 2021 mehr als zutreffend scheinen – in der Staatsduma wird permanent gesprochen. Worüber und wie oft, welche Abgeordneten welcher Parteien was sagen – das zeigt dieses Tool an, das dekoder gemeinsam mit der Novaya Gazeta entwickelt hat.

Es bereitet rund 385.000 Redebeiträge der Staatsduma seit 1994 grafisch auf und zeigt die Häufigkeit der von den Abgeordneten verwendeten Wörter und Wortverbindungen an.

Was kann ich hier machen?

Was kann ich hier machen?

Text: 16.09.2021

Dieses Tool zeigt an, wann und wie oft die Abgeordneten während der Sitzungen der russischen Staatsduma diese oder jene Wörter und Wortkombinationen genutzt haben.

Und wie funktioniert es?

arbeiten

Ganz einfach: In der Suchmaske könnt ihr jedes beliebige Wort oder irgendeine Wortkombination eingeben, etwa ukraine, ausländischer agent, großer vaterländischer krieg, oder, sagen wir mal, anekdote. Wenn diese Wörter in den Stenogrammen der Staatsduma mehr als fünfzehn Mal vorkommen, werden sie in der Grafik angezeigt: Man kann ablesen, wie oft sie im Jahr pro 100.000 Wörter verwendet wurden. Wenn ihr mit der Maus auf die Grafik geht, seht ihr auch die absoluten Zahlen und die Verteilung nach einzelnen Parteien, zu der die vortragenden Abgeordneten gehörten (oder gehören).

mehrere wörter

Wenn ihr mehrere Wörter oder Wortverbindungen gleichzeitig eingebt, werdet ihr einige Linien auf der Grafik sehen. Das ist manchmal hilfreich, wenn man die Häufigkeit einzelner Wörter vergleichen mag, etwa: Über wen wurde in der Duma mehr gesprochen – Jelzin oder Putin?

Hier ist die Antwort: jelzin & putin.

addieren

Das Tool kann Wörter auch zusammenzählen. Das ist insbesondere dann wichtig, wenn ein Phänomen verschiedene Namen hat oder umbenannt wurde, wie zum Beispiel Miliz (milizija) in Polizei (polizija) -> zusammen: milizija + polizei. Zieht einfach mit der Maus ein Wort auf das andere.

Manchmal ist es sogar notwendig, die Wörter zusammenzuzählen, damit die Ergebnisse auch wirklich korrekt sind. Würde man etwa nur nach lnr suchen, könnte man glauben, dass über die Lugansker Volksrepublik immer mehr gesprochen wird. Tatsächlich ist es nicht so: lnr + lugansker volksrepublik. Die Abgeordneten nutzen schlicht immer mehr die abgekürzte Version.

Was tun, wenn ich etwas nicht finden kann?

problem

In diesem Fall wurde das Wort oder die Wortverbindung höchtwahrscheinlich weniger als fünfzehn Mal innerhalb des ganzen Zeitraums – also seit die erste Duma 1994 ihre Arbeit aufnahm – erwähnt.

problem lösen

Aber manchmal unterscheiden sich die Begrifflichkeiten, die die Abgeordneten nutzen, von denen, die die Medien verwenden. Dann muss man die Suche kreativ gestalten. Zum Beispiel kann es zunächst überraschen, dass über den zweiten tschetschenienkrieg in der Duma weniger gesprochen wurde als über den ersten. Das ist aber nur so lange der Fall, bis man die Wortverbindung antiterroristische operation eingibt.

feedback

Wenn Ihr den Eindruck habt, dass mit dem Tool etwas nicht in Ordnung ist, schreibt uns.

Wir haben die Datenbank sehr sorgfältig aufbereitet und einige Suchergebnisse auch mit den Stenogrammen verglichen, aber Fehler kann man leider nie komplett ausschließen. Selbst die Duma begeht fehler. Und berichtigt diese wieder. Aber der Grafik nach nur etwa alle drei Jahre. Wir werden es hoffentlich schneller schaffen.

Was kann das Tool sonst noch?

speichern

Ihr könnt eure Suchergebnisse mit Hilfe eines speziellen Buttons oben rechts speichern. Die Ergebnisse werden nur in eurem Browser gespeichert und werden unter der Grafik angezeigt.

soziale medien

Die Grafiken kann man auch in Social Media teilen. Einfach auf die Icons oben links klicken und eure Follower werden solche schöne Bilder sehen:

Okay, mit der Duma ist alles klar. Und wo kann man sehen, worüber Wladimir Putin gesprochen hat?

putin

Wladimir Wladimirowitsch haben wir ein ganzes Special mit eigenem Tool gewidmet: 20 Jahre Putin. Da gibt es auch viel Interessantes zu entdecken.

Die Stenogramme sind ja auf Russisch! Wie kann ich nach etwas suchen, wenn ich kein Russisch kann?

sprache

In der deutschen Version haben wir den Button „übersetzen“ eingebaut. Wenn man darauf klickt, sucht das Tool in einer Datenbank, in der alle russischen Wörter maschinell ins Deutsche übersetzt wurden. Dieses Feature dient aber nur zur Orientierung und kann nicht als verlässliches Forschungsinstrument genutzt werden. Die Ergebnisse sind manchmal zwangsläufig verzerrt, weil erstens viele Wörter mehrere Bedeutungen haben und/oder nicht eins zu eins übersetzt werden können, zweitens Eigennamen, die mit den „normalen“ Wörter übereinstimmen, auch übersetzt werden (die Stadt grosny wird als bedrohlich übersetzt), und drittens die Maschine derzeit nur einzelne Wörter und keine Wortverbindungen übersetzen kann.

Lesen Sie auch:
​​Im Herbst 2021 geht die Staatsduma in die achte Legislaturperiode. Wie es dazu kommen konnte, dass das russische Parlament immer weniger Vollmachten hat, während die Regierungspartei Einiges Russland und der Präsident immer stärker werden – das zeichnen wir in mehreren Grafiken nach.
Das Ergebnis der Dumawahl steht im Grunde im Voraus fest. Wozu findet sie dann überhaupt statt? Gibt es noch eine Opposition? Und was könnte die Wahl am Ende doch ändern? Ein FAQ von Jan Matti Dollbaum.