1. Главная
  2. Библиотека
  3. Высшая математика
  4. Возьмите большой корпус русской википедии (весит 3.5 ГБ): Выделите текстовое содержание, проведите токенизацию и постройте...

Возьмите большой корпус русской википедии (весит 3.5 ГБ): Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов

«Возьмите большой корпус русской википедии (весит 3.5 ГБ): Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов»
  • Высшая математика

Условие:

Возьмите большой корпус русской википедии (весит 3.5 ГБ):

https://dumps.wikimedia.org/ruwiki/20190701/ruwiki-20190701-pages-articles.xml.bz2

Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов, которые имеют пометку одной из следующих категорий:

[[Категория: Сражения по алфавиту]]

[[Категория: Компьютерные игры по алфавиту]]

При условии, что длина каждого выбранного текста больше 200 слов

Решение:

Предварительные оценки.

В категории [[категория:сражения по алфавиту]] находится 3240 статей. Исходя из того, что одна статья весит около 30Кб, то объем обработанного текста будет приблизительно равен 94 МБ. В данном случае объем подкорпуса с ограничением, что статья должна содержать более 200 слов, скорее всего, не сильно уменьшится, т.к. многие исторические события (особенно сражения) достаточно детально описаны в других источниках.

В категории [[категория:компьютерные игры по алфавиту]] находится 6762 статей. Исходя из того, что одна статья весит около 10Кб (статьи в да...

Не нашел нужную задачу?

Воспользуйся поиском

Выбери предмет