Гиперпараметр (машинное обучение)

Гиперпараметр — параметр машинного обучения, значение которого используется для управления процессом обучения. Его значение устанавливается перед началом обучения, в отличие от значений других параметров (обычно весов узлов), которые определяются во время обучения.

Гиперпараметры могут быть подразделены на гиперпараметры модели — они относятся к задаче выбора модели и не могут быть определены во время обучения машины c помощью обучающего набора, примером таких гиперпараметров являются топология и размер нейронной сети; и гиперпараметры алгоритма, которые в принципе не имеют влияния на производительность модели но оказывают воздействие на скорость и качество процесса обучения, примером таких гиперпараметров являются темп обучения и размер набора данных (batch size)^[1], также как и размер мини-набора данных (mini-batch size). Набором данных часто называться полная выборка данных, а мини-набором данных размер выборки меньших размеров.

Учитывая гиперпараметры, алгоритм обучения с помощью данных настраивает собственные параметры. Для различных алгоритмов обучения модели требуются различные гиперпараметры. Некоторым простым алгоритмам (таким как обычные наименьшие квадраты линейной регрессии) они не требуются, а например, в алгоритме LASSO, в котором в алгоритм регрессии обычных наименьших квадратов добавляется гиперпараметр регуляризации, этот гиперпараметр должен быть установлен перед оценкой параметров с помощью алгоритма обучения^[2].

[1]

[2]