Условие задачи
Нормализация данных
Ответ
Слова в анализируемом тексте могут содержать различные формы одних и тех же частей речи (напр. ёж, ежи и ежам, которые входят в одну лексему набор всех форм одного слова).Однако, в процессе анализа эти слова будут рассматриваться как разные. Во избежание такого дублирования выполним приведение слов к некому каноническому виду нормальной форме слова лемме с учетом словарного и морфологического анализа слов в тексте. Для имен существительных леммой является слово в форме единственного числа именительного падежа. Аналогично, для форм глаголов применяется стемминг (стем неизменяемая часть слов...