Условие:
Возьмите большой корпус русской википедии (весит 3.5 ГБ):
https://dumps.wikimedia.org/ruwiki/20190701/ruwiki-20190701-pages-articles.xml.bz2
Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов, которые имеют пометку одной из следующих категорий:
[[Категория: Сражения по алфавиту]]
[[Категория: Компьютерные игры по алфавиту]]
При условии, что длина каждого выбранного текста больше 200 слов
