1. Главная
  2. Библиотека
  3. Информационные технологии
  4. Кейс 1. Сравнение классификаторов на наборе «Титаник» О...
Разбор задачи

Кейс 1. Сравнение классификаторов на наборе «Титаник» Описание данных Для этой задачи используйте встроенный в seaborn набор данных о пассажирах «Титаника». Он содержит информацию о поле, возрасте, классе обслуживания, цене билета и факте выживания.

  • Предмет: Информационные технологии
  • Автор: Кэмп
  • #Машинное обучение и анализ данных
  • #Введение в искусственный интеллект
Кейс 1. Сравнение классификаторов на наборе «Титаник» Описание данных Для этой задачи используйте встроенный в seaborn набор данных о пассажирах «Титаника». Он содержит информацию о поле, возрасте, классе обслуживания, цене билета и факте выживания.

Условие:

Кейс 1. Сравнение классификаторов на наборе «Титаник»
Описание данных Для этой задачи используйте встроенный в seaborn набор данных о пассажирах «Титаника». Он содержит информацию о поле, возрасте, классе обслуживания, цене билета и факте выживания.
Задания
1. Предобработка. Выберите и заполните или удалите пропуски в столбцах , , . Переведите категориальные признаки , , в числовые (one-hot или label encoding).ageembarkeddecksexembarkedclass
2. Разбиение. Разделите данные на тренировочную (70 %) и тестовую (30 %) выборки с фиксированным .random_state
3. Обучение моделей. Обучите на тренировке три классификатора:\no Логистическую регрессию (LogisticRegression)\no Случайный лес (RandomForestClassifier)\no Метод опорных векторов (, с выводом вероятностей через SVCprobability=True)
4. Оценка. Для каждого классификатора на тестовой выборке рассчитайте следующие метрики: , , , и . Постройте ROC-кривые всех трёх моделей на одном графике.accuracyprecisionrecallF1-scoreROC-AUC
5. Сравнение. Сводно представьте все метрики в таблице и сделайте вывод, какая модель в целом показала наилучшую производительность и в каких аспектах (точность vs полнота vs AUC).

Решение:

Шаг 1. Загрузка и предобработка данных

Сначала импортируем необходимые библиотеки и загрузим датасет «Титаник» из seaborn. Затем изучим пропуски и решим, как их обработать. В данном примере для числового признака age заполним пропуски медианным значением. Для категориальных признаков embarked и deck заполним пропуски наиболее часто встречающимся значением (или для deck можно в качестве альтернативы создать отдельную категорию “Missing”). После этого переведём категориальные признаки sex, embarked и class в числовой формат. В этом примере выполнен label encoding – посредством от...

Внутри — полный разбор, аргументация, алгоритм решения, частые ошибки и как отвечать на каверзные вопросы препода, если спросит

Попробуй решить по шагам

Попробуй один шаг и продолжи в режиме обучения или посмотри готовое решение

Какой из методов предобработки категориальных признаков был использован в решении для столбца 'sex'?

Что нужно знать по теме:

Что нужно знать по теме

Алгоритм решения

Топ 3 ошибок

Что спросит препод

Выбери предмет