1. Главная
  2. Библиотека
  3. Высшая математика
  4. Возьмите большой корпус русской википедии (весит 3.5 ГБ): Выделите текстовое содержание, проведите токенизацию и постройте...
  • 👋 Решение задач

  • 📚 Высшая математика

решение задачи на тему:

Возьмите большой корпус русской википедии (весит 3.5 ГБ): Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов

Дата добавления: 20.06.2024

Условие задачи

Возьмите большой корпус русской википедии (весит 3.5 ГБ):

https://dumps.wikimedia.org/ruwiki/20190701/ruwiki-20190701-pages-articles.xml.bz2

Выделите текстовое содержание, проведите токенизацию и постройте частотные списки первых 10 тысяч словоформ надежными методами для двух подкорпусов, которые имеют пометку одной из следующих категорий:

[[Категория: Сражения по алфавиту]]

[[Категория: Компьютерные игры по алфавиту]]

При условии, что длина каждого выбранного текста больше 200 слов

Ответ

Предварительные оценки.

В категории [[категория:сражения по алфавиту]] находится 3240 статей. Исходя из того, что одна статья весит около 30Кб, то объем обработанного текста будет приблизительно равен 94 МБ. В данном случае объем подкорпуса с ограничением, что статья должна содержать более 200 слов, скорее всего, не сильно уменьшится, т.к. многие исторические события (особенно сражения) достаточно детально описаны в других источниках.

В категории [[категория:компьютерные игры по алфавиту]] находится 6762 статей. Исходя из того, что одна статья весит около 10Кб (статьи в да...

Потяни

Сводка по ответу

  • Загружено студентом
  • Проверено экспертом
  • Использовано для обучения AI
  • Доступно по подписке Кампус+

Купи подписку Кампус+ и изучай ответы

Кампус Библиотека

  • Материалы со всех ВУЗов страны

  • 1 000 000+ полезных материалов

  • Это примеры на которых можно разобраться

  • Учись на отлично с библиотекой