18:10 Семинар Международной лаборатории кластерной геометрии: Дмитрий Яроцкий (Сколковский институт науки и технологий (Сколтех)
Решения градиентных потоков с помощью диаграммных разложений
Градиентный спуск является основным алгоритмом машинного обучения, и динамика градиентных потоков в больших задачах представляет значительный интерес. Мы пытаемся развить новый метод ее исследования, основанный на разложении функции потерь в степенной ряд по времени. При стандартной гауссовой инициализации модели коэффициенты такого разложения можно описать с помощью теоремы Вика в виде некоторых диаграмм, аналогичных диаграммам Фейнмана. Далее, переходя к пределу большого размера модели, можно найти различные формальные пределы этого разложения в зависимости от взаимного масштабирования параметров задачи. Эти пределы можно связать с различными качественными режимами обучения - например, свободной эволюцией или т.н. режимом NTK. Кроме того, получаемые предельные разложения в некоторых случаях допускают формальное суммирование, дающее явную аналитическую формулу динамики. Для этого мы записываем рекуррентные соотношения между коэффициентами в виде УрЧП, и если оно имеет первый порядок, решаем его с помощью метода характеристик. В частности, в задаче факторизации тензора порядка 4 характеристики бесконечномерны и их формальное интегрирование дает явную аналитическую функцию, определенную для отрицательных времен, т.е. для "градиентного подъема". Решение показывает, что есть два разных режима подъема, сходящийся и расходящийся, и дает конкретный количественный критерий их разделения. В целом, теория в текущем виде вызывает много математических вопросов, но получаемые результаты хорошо согласуются с численными экспериментами. Работа выполнена совместно с Е. Голиковым и Я. Гусевым. Препринт: https://arxiv.org/abs/2602.04548
