Условие задачи
Возьмите большой корпус русской википедии (весит 3.5 ГБ):
https://dumps.wikimedia.org/ruwiki/20190701/ruwiki-20190701-pages-articles.xml.bz2
Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов, которые имеют пометку одной из следующих категорий:
[[Категория: Сражения по алфавиту]]
[[Категория: Компьютерные игры по алфавиту]]
При условии, что длина каждого выбранного текста больше 200 слов
Ответ
Предварительные оценки.
В категории [[категория:сражения по алфавиту]] находится 3240 статей. Исходя из того, что одна статья весит около 30Кб, то объем обработанного текста будет приблизительно равен 94 МБ. В данном случае объем подкорпуса с ограничением, что статья должна содержать более 200 слов, скорее всего, не сильно уменьшится, т.к. многие исторические события (особенно сражения) достаточно детально описаны в других источниках.
В категории [[категория:компьютерные игры по алфавиту]] находится 6762 статей. Исходя из того, что одна статья весит около 10Кб (статьи в да...