27 лет, 7 созывов, 385 тысяч выступлений. «декодер» и «Новая газета» прошлись по всем стенограммам Государственной Думы и создали инструмент, показывающий, о чем и как часто говорили депутаты начиная с 1994-го года.
Базой для нашего анализа послужило около 385 тысяч выступлений, опубликованных на официальном сайте Госдумы между 11 января 1994 и серединой мая 2021 года.
Как мы обрабатывали данные?
Стенограммы мы разделили на отдельные слова — так называемые токены. Из списка токенов мы исключили так называемые стоп-слова, такие как «и», «так», «только», не имеющие значения для анализа.
Поскольку в русском языке существует множество словоформ (газета, газеты, газете, газету…), на следующем этапе мы привели их к единообразию, то есть свели к их основной — словарной — форме. В компьютерной лингвистке этот шаг называется лемматизацией. Для этого мы использовали алгоритм, разработанный создателями «Яндекса».
Поскольку нас интересовали не только отдельные понятия, но и словосочетания, такие как «иностранный агент» или «Великая Отечественная война», мы провели еще поиск устойчивых сочетаний — так называемых N-грамм (биграммы, триграммы и т. д.)
И наконец, мы посчитали частотность появления слов и словосочетаний в документах каждого года. Поскольку объем опубликованных стенограмм год от года меняется, мы показываем в графике не абсолютную, а относительную частотность, то есть количество появлений слова или словосочетания на 100 тысяч слов по каждому году.
На что еще следует обратить внимание?
Орфографические ошибки могут иметь место, если они были в оригинале. Для того чтобы массив данных оставался обозримым, мы показываем только понятия, встречающиеся в стенограммах не менее пятнадцати раз за весь период.
Мы сделали инструмент, который показывает, когда и насколько часто депутаты Государственной Думы во время заседаний произносили те или иные слова и словосочетания.
Как это работает?
работать
Все очень просто: в поисковой строке можно написать любое слово или словосочетание, например, украина, иностранный агент, великая отечественная война или, скажем, анекдот. Если эти слова попали в стенограммы Госдумы больше пятнадцати раз, на графике появится линия, показывающая частоту их использования по годам на 100 000 слов. Если навести мышкой на график, будет показано также в абсолютном выражении и распределение по фракциям, в которые входят (или входили) говорившие депутаты.
Слово депутат, кстати, тоже можно посмотреть. И слово кстати тоже. И слово слово.
несколько слов
Если вы введете несколько слов (или словосочетаний) сразу, то получите несколько линий на одном графике. Это бывает полезно, чтобы сравнить частоту использования отдельных слов и узнать, например, о ком в Думе говорили чаще: о Ельцине или о Путине?
Вот тут ответ: ельцин & путин.
суммировать
Этот инструмент может также соединять слова и искать сумму значений. Это особенно важно, когда у одного и того же понятия есть несколько названий или что-то было переименовано. Например, милицию и полицию можно искать по отдельности, а можно вместе: милиция + полиция. Просто перетяните мышкой одно слово на другое. (милицию и фсб, кстати, лучше не соединять — Путин отказался от этой идеи еще на посту директора спецслужбы).
Иногда для получения корректных результатов соединение даже необходимо. Так, например, введя только запрос лнр, можно предположить, что о Луганской народной республике со временем стали говорить больше. На самом деле это не так: просто депутаты стали чаще пользоваться аббревиатурой, и если ввести лнр + луганская народная, это будет сразу видно.
Что делать, если я не могу чего-то найти?
проблема
В этом случае слово или словосочетание, скорее всего, просто использовалось меньше пятнадцати раз за весь период существования Госдумы.
решать проблему
Но иногда терминология депутатов отличается от терминологии СМИ, и к поисковым запросам нужно подойти креативно. Например, может показаться, что о второй чеченской войне в Думе говорили меньше, чем о первой. Но только до тех пор, пока мы не введем словосочетание контртеррористическая операция. Для первой войны, кстати, тоже был свой эвфемизм — война в чечнявосстановление конституционного порядка.
обратная связь
Ну а если вы все же уверены, что с системой что-то не так, напишите нам. Мы подошли к созданию базы данных очень внимательно и по ряду запросов сверяли результаты со стенограммами, но совсем без ошибок не получается ни у кого) Даже Дума допускает ошибки. И их исправляет. Судя по графику, примерно раз в три года. Мы постараемся сделать это быстрее.
А что еще можно делать с этим инструментом?
сохранять
Вы можете сохранять ваши поисковые запросы с помощью специальной кнопки в правом верхнем углу. Результаты будут сохранены только в вашем браузере и будут отображаться под графиком.
социальные сети
А еще графиками можно делиться в социальных сетях. Просто нажмите на иконки в левом верхнем углу — и ваши подписчики увидят вот такую красоту:
Вы знаете только то, что говорили в Думе?
путин
Нет, словам Путина мы посвятили отдельный спецпроект: «20 лет Путина». Там тоже много интересного)
А про Медведева там тоже есть?
медведев
И про Медведева тоже есть.
«Новую газету» мы знаем. А что такое «декодер»?
реклама
Онлайн-платформа «декодер» — это мост между германскими и российскими масс-медиа и наукой, проводник в мир общественных дискуссий обеих стран. Платформа состоит из двух частей: русскоязычного dekoder.org/ru и немецкоязычного dekoder.org. А еще «декодер» делает на стыке журналистики и науки спецпроекты, за которые он получил в этом году главную премию в области онлайн-журналистики в Германии — Grimme Online Award.
Осенью 2021 года начнет работу восьмой созыв Госдумы. Почти 20 лет в парламенте доминирует «Единая Россия», которая все эти годы занимает большинство — иногда конституционное — депутатских кресел. Мы проследили, как изменилась риторика Госдумы начиная с ее первых заседаний в 1994 году, и рассказываем, о чем говорили в стенах российского парламента все эти годы.