Условие:
Некоторая ML-модель имеет один параметр

Некоторая ML-модель имеет один параметр
Рассмотрим, как можно оптимизировать функцию потерь с помощью стохастического градиентного спуска (SGD). Имеется функция
L(θ) = E exp{ – [ξ² √η/(1 + θ²)] },
где ξ распределена по стандартному нормальному закону, а η имеет пуассоновское распределение с параметром 5 (при этом ξ и η независимы).
Шаг 1. Перестановка дифференцирования и математического ожидания
Мы можем поменять порядок дифференцирования и математического ожидания. То есть, градиент функции L(θ) вычисляется как
dL/dθ = E { d/dθ exp[ – (ξ² √η/(1 + θ²)) ] }.
Ш...

Внутри — полный разбор, аргументация, алгоритм решения, частые ошибки и как отвечать на каверзные вопросы препода, если спросит
Попробуй решить по шагам
Попробуй один шаг и продолжи в режиме обучения или посмотри готовое решение