1. Главная
  2. Библиотека
  3. Информационные технологии
  4. При обработке текстов с помощью компьютера есть несколь...
Разбор задачи

При обработке текстов с помощью компьютера есть несколько этапов. Один из них состоит в том, чтобы разбить текст на слова — единицы, которые можно найти в словаре, употреблённые в разных формах. Этот этап называется «токенизация». Представим простой

  • Предмет: Информационные технологии
  • Автор: Кэмп
  • #Алгоритмы и структуры данных
  • #Искусственный интеллект
При обработке текстов с помощью компьютера есть несколько этапов. Один из них состоит в том, чтобы разбить текст на слова — единицы, которые можно найти в словаре, употреблённые в разных формах. Этот этап называется «токенизация». Представим простой

Условие:

При обработке текстов с помощью компьютера есть несколько этапов. Один из них состоит в том, чтобы разбить текст на слова — единицы, которые можно найти в словаре, употреблённые в разных формах. Этот этап называется «токенизация». Представим простой алгоритм токенизации, при котором:

1. удаляются символы из следующего набора: .,!?;
2. словами считаются любые последовательности символов, которые разделены пробелом.

В каких предложениях этот метод токенизации приведёт к ошибке?

Решение:

Давайте разберём каждое предложение по шагам согласно алгоритму токенизации.

Алгоритм:

  1. Удалить символы: . , ! ? ;
  2. Слова — последовательности символов, разделённые пробелом.

a. Кто-то открыл окно.
После удаления знаков препинания: Кто-то открыл окно (точка удалена).
Слова: Кто-то, открыл, окно — всё корректно, дефис остаётся, так как не в списке удаляемых символов.
Ошибки нет.


b. Пако жил на улице Сан-Томе.
Удаляем т...

Внутри — полный разбор, аргументация, алгоритм решения, частые ошибки и как отвечать на каверзные вопросы препода, если спросит

Попробуй решить по шагам

Попробуй один шаг и продолжи в режиме обучения или посмотри готовое решение

Какой из перечисленных недостатков присущ описанному алгоритму токенизации?

Что нужно знать по теме:

Что нужно знать по теме

Алгоритм решения

Топ 3 ошибок

Что спросит препод

Выбери предмет