Как мы обрабатывали данные
График показывает, как часто появляются отдельные слова и словосочетания в выступлениях депутатов Госдумы с 1994 по 2021 год включительно.
В процессе обработки и визуализации данных мы ориентировались на проект наших коллег из Zeit Online «70 лет Бундестага: О чем говорит Бундестаг» (70 Jahre Bundestag – Darüber spricht der Bundestag).
Какие данные мы использовали?
Базой для нашего анализа послужило около 385 тысяч выступлений, опубликованных на официальном сайте Госдумы между 11 января 1994 и серединой мая 2021 года.
Как мы обрабатывали данные?
Стенограммы мы разделили на отдельные слова — так называемые токены. Из списка токенов мы исключили так называемые стоп-слова, такие как «и», «так», «только», не имеющие значения для анализа.
Поскольку в русском языке существует множество словоформ (газета, газеты, газете, газету…), на следующем этапе мы привели их к единообразию, то есть свели к их основной — словарной — форме. В компьютерной лингвистке этот шаг называется лемматизацией. Для этого мы использовали алгоритм, разработанный создателями «Яндекса».
Поскольку нас интересовали не только отдельные понятия, но и словосочетания, такие как «иностранный агент» или «Великая Отечественная война», мы провели еще поиск устойчивых сочетаний — так называемых N-грамм (биграммы, триграммы и т. д.)
И наконец, мы посчитали частотность появления слов и словосочетаний в документах каждого года. Поскольку объем опубликованных стенограмм год от года меняется, мы показываем в графике не абсолютную, а относительную частотность, то есть количество появлений слова или словосочетания на 100 тысяч слов по каждому году.
На что еще следует обратить внимание?
Орфографические ошибки могут иметь место, если они были в оригинале. Для того чтобы массив данных оставался обозримым, мы показываем только понятия, встречающиеся в стенограммах не менее пятнадцати раз за весь период.