Условие:
Напишите функцию fill_na, которая принимает на вход данные с тремя переменными:
x_1 - числовой вектор
x_2 - числовой вектор
y - числовой вектор с пропущенными значениями.
Теперь — самое интересное. На первом этапе, используя только наблюдения, в которых нет пропущенных значений, мы построим регрессионную модель (без взаимодействий), где y — зависимая переменная, x_1 и x_2 — независимые переменные. Затем, используя построенную модель, мы заполним пропущенные значения предсказаниями модели.
Функция должна возвращать dataframe c новой переменной y_full. Сохраните в нее переменную y, в которой пропущенные значения заполнены предсказанными значениями построенной модели.
Решение:
Ниже приведён подробный пошаговый разбор алгоритма и реализация функции на языке R. ────────────────────────────── Шаг 1. Подготовка данных Мы получаем на вход три вектора: x_1, x_2 и y. Сначала объединяем их в один dataframe для удобства работы. ────────────────────────────── Шаг 2. Выбор наблюдений без пропущенных значений Нам нужно использовать только те наблюдения, где не отсутствуют (не NA) значения всех переменных. Для построения регрессионной модели отбираем наблюдения, где и x_1, и x_2, и y заданы. ────────────────────────────── Шаг 3. Построение регрессионной модели Используя фу...
