Условие:
Какие из предложенных действий вы выполните? Расположите их в правильной последовательности:
Вы являетесь опытным разработчиком в области NLP-систем. Вам дали задачу - реализовать простую бинарную классификацию данных на произвольном текстовом корпусе. Длина корпуса и источник данных не определены заранее, поэтому предполагается высокая эффективность решения на любом корпусе при условии, что набор данных собран адекватно (длина текстов не отличается более чем на 20% от среднего значения по корпусу, в выборке для бинарного классификатора представлен только один целевой класс). У вас не определены заранее ни словарь лексем, ни веса признаков, ни набор признаков для векторизации (т.е. изначально Вы работаете с полной матрицей типа «лексемы-документы»). У вас есть только текстовый корпус, а также разметка этого корпуса. Решение должно базироваться на общем конвейере обработки данных без опоры на специфику текста.
Текст уже очищен от знаков препинания, поэтому данный шаг обработки данных не предусматривается.
А Пересчитаю коэффициенты лексем с использованием TF-IDF
Б Выполню фильтрацию по шумовым словам
В Выполню фильтрацию по частеречной разметке
г Применю классификатор типа «случайный лес» на полученной матрице
Д Выполню токенизацию
Е Применю латентное размещение Дирихле на корпусе
Ж Составлю матрицу типа «лексемы-документы» с прямым кодированием
3 Применю классификатор типа «наивный Байес»
и Выполню нормализацию
й Начну задачу
К Выполню поиск и удаление гапаксов
Л Завершу задачу
