Вы являетесь опытным разработчиком в области NLP-систем. Вам дали задачу — реализовать простую бинарную классификацию данных на произвольном текстовом корпусе. Длина корпуса и источник данных не определены заранее, поэтому предполагается высокая
- Информационные технологии
Условие:
Какие из предложенных действий вы выполните? Расположите их в правильной последовательности:
Вы являетесь опытным разработчиком в области NLP-систем. Вам дали задачу - реализовать простую бинарную классификацию данных на произвольном текстовом корпусе. Длина корпуса и источник данных не определены заранее, поэтому предполагается высокая эффективность решения на любом корпусе при условии, что набор данных собран адекватно (длина текстов не отличается более чем на 20% от среднего значения по корпусу, в выборке для бинарного классификатора представлен только один целевой класс). У вас не определены заранее ни словарь лексем, ни веса признаков, ни набор признаков для векторизации (т.е. изначально Вы работаете с полной матрицей типа «лексемы-документы»). У вас есть только текстовый корпус, а также разметка этого корпуса. Решение должно базироваться на общем конвейере обработки данных без опоры на специфику текста.
Текст уже очищен от знаков препинания, поэтому данный шаг обработки данных не предусматривается.
А Пересчитаю коэффициенты лексем с использованием TF-IDF
Б Выполню фильтрацию по шумовым словам
В Выполню фильтрацию по частеречной разметке
г Применю классификатор типа «случайный лес» на полученной матрице
Д Выполню токенизацию
Е Применю латентное размещение Дирихле на корпусе
Ж Составлю матрицу типа «лексемы-документы» с прямым кодированием
3 Применю классификатор типа «наивный Байес»
и Выполню нормализацию
й Начну задачу
К Выполню поиск и удаление гапаксов
Л Завершу задачу
Решение:
Ниже приведён разбор рассуждений, приводящий к выбору именно следующих шагов и их последовательности. 1. Сначала надо начать задачу – зафиксировать постановку проблемы. Это соответствует шагу “й: Начну задачу”. Именно тут начинается обработка данных. 2. Далее необходимо выполнить токенизацию. Т.к. на входе имеется текстовый корпус, его надо разбить на отдельные лексемы. Это шаг “Д: Выполню токенизацию”. 3. После токенизации разумно выполнить поиск и удаление редко встречающихся лексем (гапаксов), которые могут быть шумом в данных. Это соответствует шагу “К: Выполню поиск и удаление гапаксов...
Похожие задачи
Не нашел нужную задачу?
Воспользуйся поиском
Выбери предмет
- Правоохранительные органы
- Пожарная безопасность
- Парикмахерское искусство
- Природообустройство и водопользование
- Почвоведение
- Приборостроение и оптотехника
- Промышленный маркетинг и менеджмент
- Производственный маркетинг и менеджмент
- Процессы и аппараты
- Программирование
- Право и юриспруденция
- Психология
- Политология
- Педагогика
- Трудовое право
- Теория государства и права (ТГП)
- Таможенное право
- Теория игр
- Текстильная промышленность
- Теория вероятностей
- Теоретическая механика
- Теория управления
- Технология продовольственных продуктов и товаров
- Технологические машины и оборудование
- Теплоэнергетика и теплотехника
- Туризм
- Товароведение
- Таможенное дело
- Торговое дело
- Теория машин и механизмов
- Транспортные средства