Робастность

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Робастный метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

На практике наличие в выборках даже небольшого числа резко выделяющихся наблюдений (выбросов) способно сильно повлиять на результат исследования, например, метод наименьших квадратов и метод максимального правдоподобия на специфических распределениях подвержены такого рода искажениям, и значения, получаемые в результате, могут перестать нести в себе какой-либо смысл. Для исключения влияния таких помех используются различные подходы для снижения влияния «плохих» наблюдений (выбросов), либо полного их исключения. Основная задача робастных методов — отличить «плохое» наблюдение от «хорошего», притом даже самый простой из подходов — субъективный (основанный на внутренних ощущениях исследователя) — может принести значительную пользу, однако для мотивированной отбраковки все же исследователями применяются методы, имеющие в своей основе некие строгие математические обоснования. Этот процесс представляет собой весьма нетривиальную задачу для статистика и определяет собой одно из направлений статистической науки.

Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами^[1]^[2]. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или намеренные попытки «подогнать» выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и многое другое. Например, наиболее робастной оценкой параметра сдвига закона распределения является медиана, что на интуитивном уровне вполне очевидно (для строгого доказательства следует воспользоваться тем, что медиана является усечённой М-оценкой, см. ниже)^[1]. Помимо непосредственно «бракованных» наблюдений, также может присутствовать некоторое количество наблюдений, подчиняющихся другому распределению. Ввиду условности законов распределений, а это не более, чем модели описания, сама по себе выборка может содержать некоторые расхождения с идеалом.

Тем не менее, параметрический подход настолько вжился, доказав свою простоту и целесообразность, что нелепо от него отказываться. Поэтому и возникла необходимость приспособить старые модели к новым задачам.

Стоит отдельно подчеркнуть и не забывать, что отбракованные наблюдения нуждаются в отдельном, более пристальном внимании. Наблюдения, кажущиеся «плохими» для одной гипотезы, могут вполне соответствовать другой. Наконец, отнюдь не всегда резко выделяющиеся наблюдения являются «браком». Одно такое наблюдение для генной инженерии, к примеру, стоит миллионов других, мало отличающихся друг от друга.

Для того, чтобы ограничить влияние неоднородностей, либо вовсе его исключить, существует множество различных подходов. Среди них выделяются два основных направления.

Группировка данных без удаления отдельных наблюдений (для снижения возможности порчи выборки отдельными выпадами). После чего с достаточной степенью уверенности допустимо использование классических методов статистики.

Отслеживание выбросов непосредственно в процессе анализа. Например, для определения параметров закона распределения возможно использование итерационной процедуры с усечёнными или th-сниженными M-оценками^[1].

Посредством группирования выборки можно резко снизить влияние отдельных наблюдений, не отбрасывая их. Разбиение на интервалы не представляет особых трудностей и даёт весьма ощутимый результат. Существует три наиболее распространённых способа разбиения.

Разбиение на интервалы равной длины. Наиболее простой и потому распространённый способ.

Разбиение на интервалы равной вероятности, также называемое равночастотным группированием, что отражает практическую реализацию этого метода. В результате такого группирования выборки осуществляется максимизация величины информационной энтропии $\sum {-P_{i}}\ln {P_{i}}$ , где $P_{i}=\int \limits _{x_{i-1}}^{x_{i}}f(x)\,\mathrm {d} x$ и достигается наибольшая асимптотическая мощность критерия согласия $\chi ^{2}$ , либо критерия отношения правдоподобия^[3].

Разбиение на асимптотически оптимальные интервалы. При таком разбиении минимизируются потери информации в результате группирования, то есть максимизируется фишеровская информация $\sum \left({\frac {\partial \ln P_{i}}{\partial \theta }}\right)^{2}P_{i}$ , где $\theta$ — оцениваемый параметр закона. Для многих законов распределения удалось получить инвариантные относительно параметров границы интервалов, и были составлены соответствующие таблицы. Такое разбиение позволяет максимизировать мощность критерия.

Один из подходов к созданию робастных методов — оценка параметров распределения по «загрязнённой» выборке, используя методику, разработанную Хампелем^[1]. Для анализа влияния отдельного наблюдения на оценку (или рассматриваемую статистику) определённого параметра распределения, Хампел ввёл так называемую функцию влияния (англ. influence function), которая по сути является производной данной статистики.

Основные понятия

Вводится функционал $T$ , как функция от некоторой выборки $X=(X_{1}\ldots X_{n})\in \mathbb {X}$ из распределения $F$ c параметром $\theta \in \Theta$ (оно же $F_{\theta }$ ). $T$ зависит от $X:F_{\theta }$ . Значит $T$ является функцией от закона $F$ и от параметра $\theta$ . Пусть $T$ также удовлетворяет некоторым условиям состоятельности и регулярности:

T(F)=\theta ,\quad \int T\,\mathrm {d} F=0.

Производная этого функционала $T$ в точке с распределением $F$ :

\exists \,a:\quad \lim _{t\to 0}{\frac {T((1-t)F+tG)-T(F)}{t}}:=\int a\,\mathrm {d} G,

где:

a

— некая функция, смысл которой прояснится на следующем шаге;

G

— некий закон распределения, отличный от

F

.

При подстановке $\Delta _{x}$ , приписывающей единичную массу событию $X=x$ , вместо $G$ , в результате чего от интеграла в правой части выражения останется только $a(x)$ :

IF=\lim _{t\to 0}{\frac {T((1-t)F+t\Delta _{x})-T(F)}{t}}.

Эту функцию и называют функцией влияния.

Смысл функции влияния демонстрируется подстановкой ${\frac {1}{n}}$ вместо $t$ и заменой предела, в результате выражение $F_{t,x}=(1-t)F+t\Delta _{x}$ преобразуется в $F_{{\frac {1}{n}},x}={\frac {(n-1)F+\Delta _{x}}{n}}$ , что соответствует ситуации, когда в выборку, состоящую из $(n-1)$ наблюдения, подчиняющихся распределению $F$ , добавляют ещё одно новое. Таким образом $IF$ отслеживает реакцию используемого функционала $T$ на внесённое добавление, показывая влияние от вклада отдельного наблюдения $x$ на оценку по всей совокупности данных.

Для характеристики влияния отдельных наблюдений также вводят понятие чувствительности к большой ошибке $\gamma$ :

\gamma =\sup _{x\in \mathbb {X} }|IF(x)|.

Если функция влияния ограничена, то соответствующую оценку называют B-робастной.

М-оценки

Наиболее эффективными и широко используемыми оценками параметров законов распределений являются оценки максимального правдоподобия (ОМП), которые определяются одним из следующих условий:

\sum _{i}\ln P_{i}\to \max _{\theta \in \Theta },\qquad \sum _{i}{\frac {\partial \ln P_{i}}{\partial \theta }}=0,\qquad \sum _{i}{\frac {P_{i}'}{P_{i}}}=0,

где в случае негруппированной выборки $P_{i}=f(x_{i},\theta )$ , а в случае группированной — $P_{i}=\left(\int \limits _{x_{i-1}}^{x_{i}}f(x,\theta )\,\mathrm {d} x\right)^{n_{i}}$

М-оценки являются неким обобщеним ОМП. Они формулируются аналогично одному из следующих уравнений:

\sum _{i=1}^{N}\rho (x_{i},\theta )\to \max _{\theta \in \Theta },\qquad \sum _{i=1}^{N}\phi (x_{i},\theta )=0.

Если наложить условие регулярности в подстановке $F_{t,x}=(1-t)F+t\Delta _{x}$ и продифференцировать его по $t$ в 0:

0={\frac {\partial }{\partial {t}}}\int \phi (x,T(F_{t,x}))\,\mathrm {d} F_{t,x}

0=\int {\frac {\partial \phi (x,T(F_{t,x}))}{\partial \theta }}IF\,\mathrm {d} F_{t,x}+\int \phi (x,T(F_{t,x}))\,\mathrm {d} {\frac {\partial ((1-t)F+t\Delta _{x})}{\partial t}}

0=IF\int {\frac {\partial \phi (x,T(F_{t,x}))}{\partial \theta }}\,\mathrm {d} F_{t,x}+\phi (x,T(F_{t,x})),

то не представляет большого труда получить выражение функции влияния для M-оценок:

IF={\frac {-\phi (x)}{\int \phi '_{\theta }(x)\,\mathrm {d} F}}.

Указанное выражение позволяет сделать вывод о том, что M-оценки эквивалентны с точностью до ненулевого множителя-константы.

Thumb — Пример функций влияния для усечённых ОМП параметров сдвига (синяя линия) и параметра масштаба (красная линия) стандартного нормального закона распределения

Несложно проверить, что для ОМП стандартного нормального закона распределения ${\mathcal {N}}(0,1)$ функции влияния $IF$ параметра сдвига и параметра масштаба выглядят соответственно:

IF=x,\quad IF={\frac {1}{2}}\;x^{2}-{\frac {1}{2}}.

Эти функции неограничены, а это значит, что ОМП не является робастной в терминах B-робастности.

Для того, чтобы это исправить, M-оценки искусственно ограничивают, а значит, и ограничивают её $IF$ (см. выражение $IF$ для M-оценок), устанавливая верхний барьер на влияние резко выделяющихся (далеко отстоящих от предполагаемых значений параметров) наблюдений. Делается это введением так называемых усечённых M-оценок, определяемых выражением:

\phi _{b}(z)=\left\{{\begin{array}{lr}\phi (b),&b<z\\\phi (z),&-b<z\leqslant b\\\phi (-b),&z\leqslant -b\end{array}}\right\},

где $z={\frac {x-\theta }{S}}$ , $\theta$ и $S$ — оценки параметров сдвига и масштаба соответственно.

Среди усечённых M-оценок оптимальными с точки зрения B-робастности являются усечённые ОМП^[1].

Процедура оценивания параметров

Чтобы решить уравнение

\sum _{i=1}^{N}\phi (x_{i},\theta )=0

,

необходимо воспользоваться каким-либо численным методом. Для этого понадобится выбрать начальные приближения. Нулевым параметром сдвига обычно служит медиана, параметром масштаба — значение, кратное медиане отклонений от медианы.

Например, если необходимо оценить параметр сдвига, скажем, нормального закона распределения, можно воспользоваться методом Ньютона численного нахождения корней уравнения. В результате вся процедура нахождения параметра сводится к итеративному вычислению выражения:

\theta _{k+1}=\theta _{k}-{\frac {\sum _{i=1}^{N}\phi (x_{i},\theta _{k})}{\sum _{i=1}^{N}\phi '_{\theta }(x_{i},\theta _{k})}}=\theta _{k}-{\frac {\sum _{i=1}^{N}\phi \left((x_{i}-\theta _{k})/S\right)}{\sum _{i=1}^{N}\phi '_{\theta }\left((x_{i}-\theta _{k})/S\right)}}=\theta _{k}+S{\frac {\sum _{i=1}^{N}\phi \left(z\right)}{\sum _{i=1}^{N}\phi '_{z}\left(z\right)}},

где $S$ — некоторая оценка параметра масштаба, используемая для уравнивания распределения с разным размахом.

Переобучение
Теорема Марелье

[1]
Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния = Robust statistics: the approach based on influence functions. — М.: Мир, 1989.
[2]
Хьюбер П. Робастность в статистике. — М.: Мир, 1984.
[3]
Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.

Staudte, Robert G. Robust estimation and testing. — New York : Wiley, 1990. — ISBN 0-471-85547-2.
Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. — San Diego Cal : Academic Press, 1997. — ISBN 0-12-751545-3.

Додонов, Ю. С.; Додонова, Ю. А. Устойчивые меры центральной тенденции: взвешивание как возможная альтернатива усечению данных при анализе времен ответов (рус.).
Лемешко Б. Ю. Публикации по робастным методам оценивания параметров и проверке статистических гипотез (рус.). НГТУ.

[hampel-1] [1]
Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния = Robust statistics: the approach based on influence functions. — М.: Мир, 1989.

[huber-2] [2]
Хьюбер П. Робастность в статистике. — М.: Мир, 1984.

[kendall-3] [3]
Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.

[1]

[2]

[3]