Для решения задачи классификации фразы купите облигации для получения стабильности мы можем использовать метод наивного байесовского классификатора....
У нас есть три письма:
- (С) купите золото для защиты от инфляции
- (С) Купите серебро для получения дохода
- (Н) купите акции сбербанка для получения дивидендов
Обозначим:
- - вероятность класса спам
- - вероятность класса не спам
Количество писем:
- Всего писем = 3
- Количество спам-писем = 2
- Количество не спам-писем = 1
Теперь можем рассчитать вероятности классов:
Теперь нам нужно подсчитать вероятности слов в каждом классе. Для этого выделим слова из писем:
:
- купите
- золото
- для
- защиты
- от
- инфляции
- серебро
- получения
- дохода
:
- купите
- акции
- сбербанка
- для
- получения
- дивидендов
Теперь подсчитаем количество уникальных слов в каждом классе:
- Уникальные слова в спаме (С) = 9
- Уникальные слова в не спаме (Н) = 6
Общее количество уникальных слов = 15 (включая все слова из обоих классов).
Теперь мы будем классифицировать фразу купите облигации для получения стабильности. Сначала выделим слова:
- купите
- облигации
- для
- получения
- стабильности
Теперь подсчитаем вероятности для каждого слова в каждом классе.
:
- (так как это слово не встречается в спаме)
- (так как это слово не встречается в спаме)
:
- (так как это слово не встречается в не спаме)
- (так как это слово не встречается в не спаме)
Теперь мы можем рассчитать логарифмы вероятностей для каждого класса:
Теперь добавим логарифмы вероятностей слов для каждого класса:
:
:
Сравнив логарифмы вероятностей для классов спам и не спам, мы можем сделать вывод о принадлежности фразы к классу С или Н. Если , то фраза относится к классу спам. В противном случае - к классу не спам.
Таким образом, мы можем подвести итог:
- Вычислили вероятности классов.
- Подсчитали вероятности слов в каждом классе.
- Рассчитали логарифмы вероятностей для фразы.
- Сделали вывод о принадлежности фразы к классу.
Фраза купите облигации для получения стабильности скорее всего будет классифицирована как не спам (Н), так как в ней присутствуют слова, которые чаще встречаются в не спаме.