Некоторая ML-модель имеет один параметр , который обучается посредством минимизации функции где имеет стандартное нормальное распределение, а - пуассоновское распределение с параметром 5 и не зависит от . Оптимизируйте эту функцию, используя

Добавлена: 30.04.2026
Обновлена: 30.04.2026
Предмет: Высшая математика
Автор: Кэмп

#Теория вероятностей и математическая статистика
#Стохастический анализ

Некоторая ML-модель имеет один параметр , который обучается посредством минимизации функции где имеет стандартное нормальное распределение, а - пуассоновское распределение с параметром 5 и не зависит от . Оптимизируйте эту функцию, используя

Условие:

Некоторая ML-модель имеет один параметр $\theta$ , который обучается посредством минимизации функции

\mathcal{L}(\theta)=\mathrm{E} \exp \left(-\frac{\xi^{2} \sqrt{\eta}}{1+\theta^{2}}\right)

где

\boldsymbol{\xi}

имеет стандартное нормальное распределение, а

\boldsymbol{\eta}

- пуассоновское распределение с параметром 5 и не зависит от

\eta

. Оптимизируйте эту функцию, используя стохастический градиентный спуск.

Решение:

Рассмотрим, как можно оптимизировать функцию потерь с помощью стохастического градиентного спуска (SGD). Имеется функция

L(θ) = E exp{ – [ξ² √η/(1 + θ²)] },

где ξ распределена по стандартному нормальному закону, а η имеет пуассоновское распределение с параметром 5 (при этом ξ и η независимы).

Шаг 1. Перестановка дифференцирования и математического ожидания
Мы можем поменять порядок дифференцирования и математического ожидания. То есть, градиент функции L(θ) вычисляется как
dL/dθ = E { d/dθ exp[ – (ξ² √η/(1 + θ²)) ] }.

Ш...

Внутри — полный разбор, аргументация, алгоритм решения, частые ошибки и как отвечать на каверзные вопросы препода, если спросит

Попробуй решить по шагам

Попробуй один шаг и продолжи в режиме обучения или посмотри готовое решение

Какой из следующих шагов является ключевым для применения стохастического градиентного спуска (SGD) к функции потерь, включающей математическое ожидание?

Вычисление точного аналитического выражения для математического ожидания градиента.

Оценка градиента функции потерь с помощью метода Монте-Карло.

Использование только детерминированных значений для случайных величин ξ и η.