1. Главная
  2. Библиотека
  3. Информационные технологии
  4. Вы являетесь опытным разработчиком в области NLP-систем...
Решение задачи

Вы являетесь опытным разработчиком в области NLP-систем. Вам дали задачу — реализовать простую бинарную классификацию данных на произвольном текстовом корпусе. Длина корпуса и источник данных не определены заранее, поэтому предполагается высокая

  • Информационные технологии

Условие:

Какие из предложенных действий вы выполните? Расположите их в правильной последовательности:
Вы являетесь опытным разработчиком в области NLP-систем. Вам дали задачу - реализовать простую бинарную классификацию данных на произвольном текстовом корпусе. Длина корпуса и источник данных не определены заранее, поэтому предполагается высокая эффективность решения на любом корпусе при условии, что набор данных собран адекватно (длина текстов не отличается более чем на 20% от среднего значения по корпусу, в выборке для бинарного классификатора представлен только один целевой класс). У вас не определены заранее ни словарь лексем, ни веса признаков, ни набор признаков для векторизации (т.е. изначально Вы работаете с полной матрицей типа «лексемы-документы»). У вас есть только текстовый корпус, а также разметка этого корпуса. Решение должно базироваться на общем конвейере обработки данных без опоры на специфику текста.
Текст уже очищен от знаков препинания, поэтому данный шаг обработки данных не предусматривается.
А Пересчитаю коэффициенты лексем с использованием TF-IDF
Б Выполню фильтрацию по шумовым словам
В Выполню фильтрацию по частеречной разметке
г Применю классификатор типа «случайный лес» на полученной матрице
Д Выполню токенизацию
Е Применю латентное размещение Дирихле на корпусе
Ж Составлю матрицу типа «лексемы-документы» с прямым кодированием
3 Применю классификатор типа «наивный Байес»
и Выполню нормализацию
й Начну задачу
К Выполню поиск и удаление гапаксов
Л Завершу задачу

Решение:

Ниже приведён разбор рассуждений, приводящий к выбору именно следующих шагов и их последовательности. 1. Сначала надо начать задачу – зафиксировать постановку проблемы. Это соответствует шагу “й: Начну задачу”. Именно тут начинается обработка данных. 2. Далее необходимо выполнить токенизацию. Т.к. на входе имеется текстовый корпус, его надо разбить на отдельные лексемы. Это шаг “Д: Выполню токенизацию”. 3. После токенизации разумно выполнить поиск и удаление редко встречающихся лексем (гапаксов), которые могут быть шумом в данных. Это соответствует шагу “К: Выполню поиск и удаление гапаксов...

Не нашел нужную задачу?

Воспользуйся поиском

Выбери предмет