Так говорит Дума

Источник: duma.gov.ruКак мы обрабатывали данныеСкачатьОбновлено: 24 января 2022 г.

Как мы обрабатывали данные

График показывает, как часто появляются отдельные слова и словосочетания в выступлениях депутатов Госдумы с 1994 по 2021 год включительно.

В процессе обработки и визуализации данных мы ориентировались на проект наших коллег из Zeit Online «70 лет Бундестага: О чем говорит Бундестаг» (70 Jahre Bundestag – Darüber spricht der Bundestag).

Какие данные мы использовали?

Базой для нашего анализа послужило около 385 тысяч выступлений, опубликованных на официальном сайте Госдумы между 11 января 1994 и серединой мая 2021 года.

Как мы обрабатывали данные?

Стенограммы мы разделили на отдельные слова — так называемые токены. Из списка токенов мы исключили так называемые стоп-слова, такие как «и», «так», «только», не имеющие значения для анализа.

Поскольку в русском языке существует множество словоформ (газета, газеты, газете, газету…), на следующем этапе мы привели их к единообразию, то есть свели к их основной — словарной — форме. В компьютерной лингвистке этот шаг называется лемматизацией. Для этого мы использовали алгоритм, разработанный создателями «Яндекса». 

Поскольку нас интересовали не только отдельные понятия, но и словосочетания, такие как «иностранный агент» или «Великая Отечественная война», мы провели еще поиск устойчивых сочетаний — так называемых N-грамм (биграммы, триграммы и т. д.) 

И наконец, мы посчитали частотность появления слов и словосочетаний в документах каждого года. Поскольку объем опубликованных стенограмм год от года меняется, мы показываем в графике не абсолютную, а относительную частотность, то есть количество появлений слова или словосочетания на 100 тысяч слов по каждому году.

На что еще следует обратить внимание?

Орфографические ошибки могут иметь место, если они были в оригинале. Для того чтобы массив данных оставался обозримым, мы показываем только понятия, встречающиеся в стенограммах не менее пятнадцати раз за весь период.

Что это за инструмент?

Что это за инструмент?

Текст: 16.09.2021

Мы сделали инструмент, который показывает, когда и насколько часто депутаты Государственной Думы во время заседаний произносили те или иные слова и словосочетания.

Как это работает?

работать

Все очень просто: в поисковой строке можно написать любое слово или словосочетание, например, украина, иностранный агент, великая отечественная война или, скажем, анекдот. Если эти слова попали в стенограммы Госдумы больше пятнадцати раз, на графике появится линия, показывающая частоту их использования по годам на 100 000 слов. Если навести мышкой на график, будет показано также в абсолютном выражении и распределение по фракциям, в которые входят (или входили) говорившие депутаты.

Слово депутат, кстати, тоже можно посмотреть. И слово кстати тоже. И слово слово.

несколько слов

Если вы введете несколько слов (или словосочетаний) сразу, то получите несколько линий на одном графике. Это бывает полезно, чтобы сравнить частоту использования отдельных слов и узнать, например, о ком в Думе говорили чаще: о Ельцине или о Путине?

Вот тут ответ: ельцин & путин.

суммировать

Этот инструмент может также соединять слова и искать сумму значений. Это особенно важно, когда у одного и того же понятия есть несколько названий или что-то было переименовано. Например, милицию и полицию можно искать по отдельности, а можно вместе: милиция + полиция. Просто перетяните мышкой одно слово на другое. (милицию и фсб, кстати, лучше не соединять — Путин отказался от этой идеи еще на посту директора спецслужбы).

Иногда для получения корректных результатов соединение даже необходимо. Так, например, введя только запрос лнр, можно предположить, что о Луганской народной республике со временем стали говорить больше. На самом деле это не так: просто депутаты стали чаще пользоваться аббревиатурой, и если ввести лнр + луганская народная, это будет сразу видно.

Что делать, если я не могу чего-то найти?

проблема

В этом случае слово или словосочетание, скорее всего, просто использовалось меньше пятнадцати раз за весь период существования Госдумы.

решать проблему

Но иногда терминология депутатов отличается от терминологии СМИ, и к поисковым запросам нужно подойти креативно. Например, может показаться, что о второй чеченской войне в Думе говорили меньше, чем о первой. Но только до тех пор, пока мы не введем словосочетание контртеррористическая операция. Для первой войны, кстати, тоже был свой эвфемизм — война в чечнявосстановление конституционного порядка.

обратная связь

Ну а если вы все же уверены, что с системой что-то не так, напишите нам.
Мы подошли к созданию базы данных очень внимательно и по ряду запросов сверяли результаты со стенограммами, но совсем без ошибок не получается ни у кого) Даже Дума допускает ошибки. И их исправляет. Судя по графику, примерно раз в три года. Мы постараемся сделать это быстрее.

А что еще можно делать с этим инструментом?

сохранять

Вы можете сохранять ваши поисковые запросы с помощью специальной кнопки в правом верхнем углу. Результаты будут сохранены только в вашем браузере и будут отображаться под графиком.

социальные сети

А еще графиками можно делиться в социальных сетях. Просто нажмите на иконки в левом верхнем углу — и ваши подписчики увидят вот такую красоту:

Вы знаете только то, что говорили в Думе?

путин

Нет, словам Путина мы посвятили отдельный спецпроект: «20 лет Путина». Там тоже много интересного)

А про Медведева там тоже есть?

медведев

И про Медведева тоже есть.

«Новую газету» мы знаем. А что такое «декодер»?

реклама

Онлайн-платформа «декодер» — это мост между германскими и российскими масс-медиа и наукой, проводник в мир общественных дискуссий обеих стран. Платформа состоит из двух частей: русскоязычного dekoder.org/ru и немецкоязычного dekoder.org. А еще «декодер» делает на стыке журналистики и науки спецпроекты, за которые он получил в этом году главную премию в области онлайн-журналистики в Германии — Grimme Online Award.

Читайте также:

Осенью 2021 года начнет работу восьмой созыв Госдумы. Почти 20 лет в парламенте доминирует «Единая Россия», которая все эти годы занимает большинство — иногда конституционное — депутатских кресел. Мы проследили, как изменилась риторика Госдумы начиная с ее первых заседаний в 1994 году, и рассказываем, о чем говорили в стенах российского парламента все эти годы.