1. Главная
  2. Библиотека
  3. Информационные технологии
  4. Напишите функцию mushroomclassification(trainfile, submitfile...
Разбор задачи

Напишите функцию mushroomclassification(trainfile, submitfile, outputfile), которая выполняет задачу бинарной классификации на основе данных из CSV файлов. Параметры функции file (str): путь к CSV файлу с размеченными данными (обучающая выборка). В файле

  • Предмет: Информационные технологии
  • Автор: Кэмп
  • #Машинное обучение и анализ данных
  • #Программирование (языки C++, Java, Python и др.)
Напишите функцию mushroomclassification(trainfile, submitfile, outputfile), которая выполняет задачу бинарной классификации на основе данных из CSV файлов. Параметры функции file (str): путь к CSV файлу с размеченными данными (обучающая выборка). В файле

Условие:

Напишите функцию mushroom_classification(train_file, submit_file, output_file), которая выполняет задачу бинарной классификации на основе данных из CSV файлов.

Параметры функции\ntrain_file (str): путь к CSV файлу с размеченными данными (обучающая выборка). В файле есть следующие колонки:\nid (int): идентификатор записи\ncap-diameter, cap-shape, gill-attachment, gill-color, stem-height, stem-width, stem-color, season - признаки: Диаметр шляпки, Форма шляпки, Прикрепление пластинок, Цвет пластинок, Высота ножки, Ширина ножки, Цвет ножки, Сезон\nclass (int): метки классов (0 соответствует безопасным, 1 соответствует ядовитым).\nsubmit_file (str): путь к CSV файлу с неразмеченными данными (тестовая выборка). В файле должны быть следующие колонки:\nid (int): идентификатор записи
те же признаки, что и в train\noutput_file (str): путь к файлу, в который необходимо сохранить предсказания. Этот файл должен содержать колонки:\nid (int): идентификатор записи\nclass (int): предсказанные метки класса (0 или 1).
Ваше решение будет оцениваться по recall, он должен быть не ниже 0.99 (на кону человеческие жизни!).

Решение:

Шаг 1: Импорт необходимых библиотек\nimport pandas as pd\nimport numpy as np\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.preprocessing import StandardScaler, LabelEncoder\nfrom sklearn.ensemble import RandomForestClassifier\nfrom sklearn.metrics import recall_score, classification_report

Шаг 2: Создание функции mushroom_classification\ndef mushroom_classification(train_file, submit_file, output_file):


Загрузка обучающих данных

train_df = pd.read_csv(train_file)<br />
<br />


# Загрузка тестовых данных для предсказания
test_...

Внутри — полный разбор, аргументация, алгоритм решения, частые ошибки и как отвечать на каверзные вопросы препода, если спросит

Попробуй решить по шагам

Попробуй один шаг и продолжи в режиме обучения или посмотри готовое решение

Какой подход наиболее эффективен для достижения высокого показателя recall в задаче классификации грибов, где ложноотрицательные предсказания (съедобный гриб ошибочно классифицирован как ядовитый) менее критичны, чем ложноположительные (ядовитый гриб ошибочно классифицирован как съедобный)?

Что нужно знать по теме:

Что нужно знать по теме

Алгоритм решения

Топ 3 ошибок

Что спросит препод

Выбери предмет