Проверка статистических гипотез

Статические гипотезы

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина \(X\), распределение которой \(\mathbb{P}(X)\) известно полностью или частично. Тогда любое утверждение, касающееся \(\mathbb{P}(X)\) (о виде или параметрах этого распределения), называется статистической гипотезой.

Обычно требуется проверить какую-то конкретную гипотезу \(H_0\). Такую гипотезу принято называть нулевой (или основной). Нулевая гипотеза обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Параллельно рассматривается гипотеза \(H_1\), называемая альтернативной (или конкурирующей).

Гипотезу называют простой, если она содержит только одно предположение. Сложной называют гипотезу, которая состоит из нескольких (или даже бесконечного числа) простых.

Для проверки гипотезы используют статистические критерии, позволяющие принять или опровергнуть гипотезу.

Пример 1. Распознавание цели. Рассматривается радиолокационная задача распознавания цели. Необходимо по сигналам, полученным с радиолокатора, определить, какой объект находится в зоне действия: вражеский бомбардировщик или стая птиц. Нулевая гипотеза в данном случае заключается в том, что в зоне действия радиолокатора находится какой-либо безопасный объект (например, стая птиц). Альтернативная гипотеза говорит о том, что мы наблюдаем вражеский бомбардировщик.

Пример 2. Металлодетектор. Рассматривается работа металлодетектора в аэропорту. Нулевая гипотеза: металлические предметы отсутствуют. Альтернативная гипотеза соответствует срабатыванию металлодетектора (сигнал тревоги).

Пример 3. Медицинская диагностика. Некоторый медицинский тест позволяет определить (с некоторой степенью точности) наличие или отсутствие у пациента определённого заболевания. Нулевая гипотеза: человек здоров. Альтернативная: болен.

Пример 4. Честна ли монетка. В серии из \(n\) подбрасываний монеты орёл выпал \(k\) раз. Можно ли считать монету “честной” (симметричной)? \(H_0\): монета симметричная (вероятности выпадания орла и решки равны). \(H_1\): монета несимметричная (вероятности не равны).

Пример 5. Тест на случайность. Аналитик перед началом торговой сессии для заданного актива предсказывает цвет сегодняшней свечи, т.е. итоговое направление дня (вверх или вниз). Эксперимент продолжался n рабочих дней. Прогноз оказался правильным k раз. Можно ли утверждать, что аналитик умеет правильно прогнозировать направление рынка? Или результаты эксперимента можно объяснить случайным угадыванием, т.е. следовать прогнозам этого аналитика — то же самое, что открывать позиции, подбрасывая монетку? Нулевая гипотеза: прогнозы аналитика совершенно случайны (эквивалентны подбрасыванию монетки). Альтернативная гипотеза: аналитик угадывает направление рынка чаще, чем монетка. Здесь мы видим пример того, что альтернативная гипотеза не обязательно должна быть полностью противоположна нулевой (отброшен вариант, в котором аналитик угадывает направление рынка реже, чем монетка).

Пример 6. Бинарный классификатор. Имеется \(p\) признаков, по которым каждый из рассматриваемых объект относят к одному из двух классов. Например, мы пытаемся прогнозировать на текущий день для некоторого финансового актива тренд вверх (класс 1) или тренд вниз (класс 2). Тогда нулевая гипотеза заключается в том, что рассматриваемый объект, обладающий конкретным набором признаков, относится к классу 1. Альтернативная гипотеза: объект относится к классу 2.

Другой вариант, сводящийся к той же математической постановке задачи: имеется набор признаков, по которым мы оцениваем эффективность любой торговой системы (среднегодовая доходность, профит-фактор, коэффициенты Шарпа, Сортино,...). Требуется принять решение, считать ли данную торговую систему достаточно перспективной для реальной торговли.

Пример 7. Вид и параметры вероятностного распределения. В эксперименте измерены значения случайных интервалов времени между моментами наступления некоторых событий (приезд автобуса на остановку; приход клиента в магазин; время обслуживания клиента у кассы; моменты поломки какого-то устройства,...). Необходимо определить, к какому типу относится распределение вероятности рассматриваемых интервалов времени и оценить параметры этого распределения. Например, нулевая гипотеза: случайная величина распределена по экспоненциальному закону с параметром 10. Альтернативная гипотеза: данное утверждение не верно.

Ошибки первого и второго рода

Если в результате применения некоторого статистического критерия ошибочно отвергнута нулевая гипотеза (т.е. на самом деле она верна, но мы предпочли альтернативную гипотезу), то это называют ошибкой первого рода.

Если в результате применения критерия ошибочно принята нулевая гипотеза (т.е. на самом деле она не верна), то это называют ошибкой второго рода.

Четыре возможных результата при проверке гипотезы
Какая гипотеза в действительности верна
Результат применения критерия Гипотеза \(H_0\) верна Гипотеза \(H_1\) верна
Принята гипотеза \(H_0\) \(H_0\) верно принята; \(H_0\) ошибочно принята;
\(H_1\) верно отвергнута \(H_1\) ошибочно отвергнута
(нет ошибки, true-negative) (ошибка второго рода, false-negative)
Принята гипотеза \(H_1\) \(H_0\) ошибочно отвергнута; \(H_0\) верно отвергнута;
\(H_1\) ошибочно принята \(H_1\) верно принята
(ошибка первого рода, false-positive) (нет ошибки, true-positive)

Для примера 1: если в результате применения некоторого критерия мы определили, что полученный сигнал соответствует бомбардировщику (т.е. мы отвергли нулевую гипотезу и приняли альтернативную), хотя на самом деле приближается безопасный объект (т.е. нулевая гипотеза в действительности верна), то мы совершили ошибку первого рода. Если в результате применения критерия мы определили, что полученный сигнал соответствует безопасному объекту (т.е. мы приняли нулевую гипотезу и отвергли альтернативную), хотя на самом деле мы наблюдаем бомбардировщик (т.е. в действительности верна альтернативная гипотеза), то мы совершили ошибку второго рода.

Ясно, что если перенумеровать гипотезы (бомбардировщик считать нулевой гипотезой, а безопасный объект – альтернативной), то поменяются местами и ошибки первого и второго рода. Но обычно принято нулевой гипотезой считать обычное (безопасное) положение вещей, а альтернативной – экстраординарное событие, требующее срочного вмешательства. Поэтому иногда ошибку первого рода называют ложным срабатыванием или ложной тревогой, а ошибку второго рода – пропуском цели или пропуском события.

В случае медицинской диагностики (пример 3), если тест обнаружил заболевание, когда человек на самом деле здоров (ошибка первого рода), то такой результат называется ложно положительным (false-positive, FP). Обратная ситуация: тест не обнаружил признаков заболевания, когда человек на самом деле болен (ошибка второго рода); такой результат называется ложно отрицательным (false-negative, FN). Здесь термины положительный и отрицательный относятся к диагностированию наличия или отсутствия заболевания, а не к нашему хорошему или плохому отношению к этим результатам. Остальные два возможных случая: если медицинский тест правильно диагностировал отсутствие заболевания (верно принята нулевая гипотеза), то такой результат называют истинно отрицательным (true-negative, TN); наконец, если медицинский тест правильно диагностировал наличие заболевания (верно принята альтернативная гипотеза), то такой результат называют истинно положительным (true-positive, TP).

Уровень значимости и мощность критерия

Вероятность ошибки первого рода \(P(H'_0 \mid H_0) =P(H_1 \mid H_0)\) называют уровнем значимости (significance level) и обычно обозначают греческой буквой \(\alpha\). Она выражает степень неуверенности в справедливости решения.

Вероятность ошибки второго рода \(P(H'_1 \mid H_1) = P(H_0 \mid H_1)\) обозначается греческой буквой \(\beta\).

Разность \((1-\beta)\) называется мощностью критерия (Power of the test). По смыслу это вероятность не совершить ошибку второго рода:

\[1-\beta = 1 - P(H'_1 \mid H_1) = P(H_1 \mid H_1),\]

т.е. вероятность принять альтернативную гипотезу при условии, что она истинна.

Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора в аэропорту повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности – к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Чувствительность, специфичность и точность теста

Применим некоторый статистический тест к каждому объекту из достаточно большой выборки размера \(N\) (например, к каждому пациенту).

Отношение больных, диагностированных положительно, \(\text{TP}\) (т.е. количество истинно положительных случаев) к общему число реально больных пациентов \(\text{P}=\text{TP}+\text{FN}\) называют чувствительностью (sensitivity, true positive rate, TPR) или полнотой (recall) теста:

\[\text{TPR} = \frac{\text{TP}}{\text{P}} = \frac{\text{TP}}{\text{TP}+\text{FN}}.\]

В общем случае можно сказать, что чувствительность — это доля объектов от общего количества носителей признака, верно классифицированных, как несущих признак. При увеличении размера \(N\) рассматриваемой выборки чувствительность \(\text{TPR}\) стремится к мощности \((1-\beta)\).

Отношение здоровых пациентов, диагностированных отрицательно, \(\text{TN}\) (т.е. количество истинно отрицательных случаев) к общему число реально здоровых пациентов \(\text{N}=\text{FP}+\text{TN}\) называют специфичностью теста (specificity, true negative rate, TNR):

\[\text{TNR} = \frac{\text{TN}}{\text{N}} = \frac{\text{TN}}{\text{FP}+\text{TN}}.\]

В общем случае можно сказать, что специфичность — это доля объектов от общего количества объектов, не несущих признака, верно классифицированных, как не несущих признак.

Предсказательная ценность положительных результатов (precision, positive predictive value, PPV) — это доля объектов, верно классифицированных как носителей признака (истинно положительных), от общего количества объектов, классифицированных как носителей признака:

\[\text{PPV} = \frac{\text{TP}}{\text{TP}+\text{FP}}.\]

Предсказательная ценность отрицательных результатов (negative prediction value, NPV) — это доля объектов, верно классифицированных как не несущих признак (истинно отрицательных), от общего количества объектов, классифицированных как не несущих признак:

\[\text{PPV} = \frac{\text{TN}}{\text{TN}+\text{FN}}.\]

Доля ложных положительных классификаций среди всех объектов, не несущих признак, (fall-out, false positive rate, FPR):

\[\text{FPR} = \frac{\text{FP}}{\text{N}} = \frac{\text{FP}}{\text{FP}+\text{TN}} = 1 - \text{TNR}.\]

При увеличении размера \(N\) рассматриваемой выборки доля ложных положительных классификаций \(\text{FPR}\) стремится к вероятности ошибки первого рода \(\alpha\).

Доля ложных отклонений (false discovery rate, FDR):

\[\text{FDR} = \frac{\text{FP}}{\text{FP}+\text{TP}} = 1 - \text{PPV}.\]

Доля ложных отрицательных классификаций среди всех объектов, несущих признак, (miss rate, false negative rate, FNR):

\[\text{FNR} = \frac{\text{FN}}{\text{P}} = \frac{\text{FN}}{\text{FN}+\text{TP}}.\]

Точность теста (accuracy):

\[\text{ACC} = \frac{\text{TP}+\text{TN}}{\text{P}+\text{N}}.\]

F-мера (F-measure, F-score) — гармоническое среднее предсказательной ценности положительных результатов и чувствительности:

\[F_1 = \frac{2\cdot\text{PPV}\cdot{TPR}}{\text{PPV}+\text{TPR}} = \frac{2\cdot\text{TP}}{2\cdot\text{TP}+\text{FP}+\text{FN}}.\]

Распространённость (prevalence) признака — это доля носителей признака от всех рассматриваемых объектов:

\[\text{Pr} = \frac{\text{P}}{N}.\]

Функция выборки (статистика)

Любая проверка гипотезы имеет дело с анализом некоторой выборки (подмножества) объектов или результатов испытаний, взятых из множества всех возможных объектов или результатов. Множество всех возможных объектов или результатов испытаний называется генеральной совокупностью.

Измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения, называется статистикой. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика.

Множество всех возможных значений статистики делится на две области. Критической областью (critical region) называют совокупность значений статистики, при которой нулевую гипотезу отвергают. Областью допустимых значений (областью принятия гипотезы, acceptance region) называют совокупность значений статистики, при которых нулевую гипотезу не отвергают.

После того, как мы вычислили значение статистики для имеющейся выборки, мы смотрим, в какую из этих двух областей попало это значение. Если значение попало в критическую область, мы отвергаем нулевую гипотезу.

Односторонние и двусторонние гипотезы

Плотность распределения статистики обычно имеет вид, показанный на рис.1. Критической области соответствуют значения статистики, которые наименее вероятны (так называемые, хвосты распределения, на рис.1 они заштрихованы). В зависимости от постановки задачи, различают двусторонние гипотезы (two-tailed test, рис.1а) и односторонние гипотезы (one-tailed test). Последние, в свою очередь, бывают левосторонними (left-tailed, рис.1б) и правосторонними (right-tailed, рис.1в).

../_images/CriticalRegion.png

Рис. 1. Плотность распределения статистики для двусторонней (а), левосторонней (б) и правосторонней (в) гипотезы (критическая область заштрихована)

Обобщённая методика проверки статистических гипотез

  1. Формулируется нулевая гипотеза \(H_0\), которую мы хотим опровергнуть, и, возможно, альтернативная гипотеза \(H_1\). Если альтернативная гипотеза явно не формулируется, то подразумевается, что она соответствует утверждению “нулевая гипотеза не верна”, т.е. “не \(H_0\)”. Иногда рассматривают сразу несколько альтернатив.
  2. Задаётся некоторая статистика, т.е. функция выборки.
  3. Для заданной статистики в соответствии с условиями задачи находится функция или плотность распределения.
  4. Фиксируется уровень значимости – допустимая для данной задачи вероятность ошибки первого рода, т.е. того, что нулевая гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число \(\alpha \in (0, 1)\). На практике часто полагают \(\alpha=0{,}05\).
  5. На множестве допустимых значений статистики выделяется критическое множество наименее вероятных её значений, соответствующее тому, что нулевая гипотеза должна быть отвергнута. Остальная часть множества значений является допустимой, т.е. не опровергает нулевую гипотезу.
  6. Проверяется, куда попадает значение статистики. Если в допустимое множество, то принимается нулевая гипотеза. Если в критическое, то нулевая гипотеза отвергается.

Достигаемый уровень значимости

Описанный выше алгоритм сложился в те времена, когда компьютеры ещё не получили широкого распространения. Приходилось заранее выбирать допустимый уровень значимости \(\alpha\) и только потом формировать выборку и вычислять для неё значение статистики. Сейчас большинство статистических тестов, реализованных в виде компьютерных программ, выдают в качестве результата не только рассчитанное по выборке значение статистики, но также предельный (наименьший) уровень значимости \(\alpha\), при котором нулевая гипотеза отвергается в пользу альтернативной. Эту величину называют “достигаемым уровнем значимости” (p-value, p-значение, пи-значение).

Итак, p-значение – это наименьший уровень значимости, при котором нулевая гипотеза отвергается для данного значения статистики критерия.

Другими словами, p-значение – это вероятность (зависящая от значения статистики), с которой, при условии истинности нулевой гипотезы, могла бы реализоваться наблюдаемая выборка или любая другая выборка с ещё менее вероятным значением статистики.

Можно сказать, что p-значение – это такая (достаточно малая) вероятность события, при которой его уже можно считать неслучайным.

Обычно p-значение сравнивают с общепринятыми стандартными уровнями значимости 0,05 или 0,01. Если в результате применения статистического критерия (теста) p-значение окажется меньше, чем выбранный уровень значимости, то нулевая гипотеза отвергается (альтернативная гипотеза может считаться доказанной). А если p-значение окажется больше заданного уровня значимости, то нулевая гипотеза не отвергается.

Данный подход более информативен, поскольку не только говорит, отвергнуть нулевую гипотезу или нет, но также показывает, при каких уровнях значимости это решение останется в силе.

Таким образом, чем p-значение меньше, тем больше наша уверенность в правильности отклонения нулевой гипотезы.

Что на самом деле доказывают статистические критерии

Задав достаточно строгий уровень значимости \(\alpha\), например, 0,05, и применив надлежащий статистический критерий, мы получим один из двух результатов:

  • нулевая гипотеза должна быть отвергнута;
  • нет оснований отвергать нулевую гипотезу.

Многие думают, что второй вариант равносилен доказательству правильности нулевой гипотезы. На самом деле это не так. Мы всего лишь не смогли её опровергнуть. Задавая более строгий уровень значимости (уменьшая \(\alpha\)), мы тем самым уменьшаем вероятность ошибки первого рода, т.е. вероятность отвергнуть нулевую гипотезу, если она вдруг окажется верна. Но для обоснованного принятия нулевой гипотезы мы должны вспомнить о втором параметре \(\beta\), т.е. о вероятности ошибки второго рода (вероятности принять нулевую гипотезу, когда она на самом деле ошибочна). Другими словами, если данный статистический критерий не смог опровергнуть нулевую гипотезу, то мы должны продолжить исследование и выбрать более мощный статистический критерий (который гарантирует меньшее значение вероятности \(\beta\)).

Итак, статистические критерии не используются для доказательства правильности нулевой гипотезы. Они используются для её опровержения.

Почему так? Для этого надо разобраться, как работают статистические критерии. Они сравнивают экспериментальные данные с теоретической моделью и пытаются выявить существенные отклонения данных от модели. Если это удаётся, то мы отвергаем модель (нулевую гипотезу). Если существенные отклонения не обнаружены, то это не значит, что модель безусловно верна. Возможно, что рассмотренная выборка данных оказалась недостаточной, чтобы эти различия в полной мере проявились. Или процедура поиска существенных отклонений требует дальнейших улучшений.

Другими словами, опровергнуть утверждение обычно проще, чем его доказать. Для опровержения достаточно привести всего один контрпример. А для доказательства правильности требуется рассмотреть все возможные следствия.

Выше мы уже затронули вопрос о выборе гипотезы в качестве нулевой. При прочих равных условиях, наиболее выгодно в качестве нулевой гипотезы выбрать ту, ошибочное отклонение которой приведёт к большему ущербу. потому что вероятность этого события мы непосредственно контролируем в ходе проверки и можем выбрать сколь угодно малой. К сожалению, такой выбор не всегда возможен, поскольку не любая гипотеза может рассматриваться как нулевая.

В качестве нулевой гипотезы может выступать только такая гипотеза, которая утверждает, что различие между сравниваемыми величинами отсутствует, а наблюдаемые отклонения объясняются незначительными случайными факторами. Поэтому, например, нельзя выбрать в качестве нулевой гипотезы следующее предположение: “параметр b не равен 10”, а приходится рассматривать только такую нулевую гипотезу: “параметр b равен 10”, т.к. в первом случае просто не с чем было бы сравнивать имеющиеся данные.

Другой пример: мы хотим доказать “правильность” (симметричность) монетки, чтобы судить о равенстве или неравенстве вероятностей выпадения орла и решки. Ясно, что если монетка симметричная, то вероятности должны быть равны. И наоборот, если монетка не симметричная, то вероятности выпадения орла и решки не равны. В данном примере в качестве нулевой гипотезы может выступать только предположение о симметричности монетки, т.к. в этом случае мы знаем вероятности (они обе равны 1/2). В противном случае мы ничего не можем сказать о вероятностях выпадения орла и решки, поэтому нам не с чем сравнить имеющиеся экспериментальные данные о частотах их выпадения.

Итак, мы выяснили, что некорректно заявлять, что в результате статистического исследования “нулевая гипотеза подтверждена”. Правильнее говорить более осторожно: “нет оснований отвергать нулевую гипотезу”. Обратный вариант вполне корректен: “доказана альтернативная гипотеза”.

Ошибки первого и второго рода на графике плотности распределений

На рис.2 изображены плотности распределения, соответствующие нулевой и альтернативной гипотезам.

Две красные области соответствуют ошибке первого рода при двустороннем тесте (т.е. когда нулевая гипотеза \(H_0\) ошибочно отвергается). Синяя область соответствует ошибке второго рода (т.е. ошибочному принятию нулевой гипотезы).

../_images/StatHypothTest01.png

Рис. 2. Плотности распределения для нулевой и альтернативной гипотез при двустороннем тесте

Площадь синей области существенно больше, чем общая площадь красных областей.

Другими словами, если график плотности вероятности, соответствующий альтернативной гипотезе, значительно перекрывается графиком плотностью вероятности, соответствующей нулевой гипотезе, то вероятность ошибки второго рода оказывается велика.

График ROC

ROC-кривая (кривая ошибок, receiver operating characteristic) показывает зависимость мощности \((1-\beta)\) статистического критерия от уровня значимости \(\alpha\) при изменении p-значения, т.е. она позволяет оценить качество теста (алгоритма бинарной классификации). Начало координат соответствует нулевому значению p-значения; при его увеличении мы двигаемся по ROC-кривой вправо и вверх.

Поскольку для достаточно больших выборок \(1 - \beta \approx \text{TPR}\); \(\alpha \approx \text{FPR}\), то можно сказать, что ROC-кривая показывает зависимость \(\text{TPR}\) от \(\text{FPR}\).

Для правильного применения критерия необходимо выбрать оптимальную (в условиях той или иной задачи) точку на графике этой зависимости, которая обеспечивает компромисс между вероятностями ошибок первого и второго рода.

Поскольку вероятности (и относительные частоты) находятся в диапазоне от 0 до 1, то ROC-кривая лежит внутри квадрата единичной длины (рис.3).

../_images/ROC-01.png

Рис. 3. ROC-кривая

Диагональ этого квадрата, выходящая из начала координат, соответствует абсолютно бесполезному тесту, который эквивалентен подбрасыванию монетки: при любом выборе p-значения мощность теста оказывается равной вероятности совершить ошибку первого рода. Иначе говоря, алгоритм классификации работает случайным образом.

ROC-кривые полезных тестов лежат левее и выше этой диагонали. Правее и ниже лежат ROC-кривые тестов, которые хуже монетки (они станут лучше, если принимать решение “наоборот”).

Наибольшее значение имеет площадь под ROC-кривой (Area Under Curve, AUC). У полезных тестов, как нетрудно догадаться, \(\text{AUC}>0{,}5\). Чем значение \(\text{AUC}\) больше, тем с большей вероятностью для случайно взятого носителя признака будет выбрана альтернативная гипотеза. У идеального дискриминатора \(\text{AUC}=1\).

Множественная проверка гипотез

Итак, при проверке статистических гипотез возникает возможность появления ошибки (ложного отклонения нулевой гипотезы, ошибки первого рода). Вероятность такого события ограничивается неким малым значением — уровнем значимости \(\alpha\). При построении \(m\) выводов вероятность того, что хотя бы один из них будет неверным, равна \(1 − ( 1 − \alpha )^m\), что достаточно велико уже при небольших \(m\). Например, при \(\alpha = 0.05\) и \(m = 5\) эта вероятность составляет около \(22.6\%\). Данная проблема получила название проблемы множественных сравнений (multiple comparisons; multiple testing problem).

Классический пример проявления проблемы: в 1950 году Джозеф Райн проводил эксперименты по выявлению людей с экстрасенсорными способностями. Каждый испытуемый должен был угадать цвет каждой карты в последовательности из 10 карт. В таком опыте вероятность случайно угадать 9 или 10 карт из 10 составляет \(11*2^{-10} \approx 0.01\) (т.е. 1%) — достаточно редкое событие, чтобы признать его маловероятным, поэтому Райн считал его свидетельством того, что испытуемый является экстрасенсом. Однако, поскольку в опыте участвовало 1000 человек, вероятность того, что хотя бы один из них случайно угадает 9 или 10 карт составляла \(1-(1-11*2^{-10})^{1000} \approx 0.9998\). Действительно, из 1000 испытуемых 12 человек угадали 9 из 10 карт, двое — все 10 карт. Но в последующих экспериментах ни один из них не подтвердил свои способности.

А теперь вернёмся к нашей теме. Пусть инвестор выбирает, в какой инвестиционный фонд вложить свои деньги. Для оценки инвестиционной привлекательности каждого фонда он использует статистический критерий, чтобы отделить фонды, получившие в прошлом прибыль за счёт правильной стратегии управления, от тех, которые получили прибыль только в силу влияния случайных факторов. Чем больше число фондов, из которых инвестор выбирает, тем больше вероятность того, что какие-то из них покажутся ему потенциально прибыльными, даже если их успех на самом деле имел случайный характер.

Другой пример: трейдер проводит тестирование множества торговых систем с целью отбора наиболее перспективных для использования на своём торговом счёте. Чем больше систем тестируется, тем больше шансов выбрать ту, которая лишь случайно оказалась прибыльной на рассматриваемом отрезке истории.

Для решения проблемы множественных сравнений было разработано несколько подходов. Процедура принятия или отклонения гипотез перестраивается таким образом, чтобы некая величина, являющаяся многомерным обобщением ошибки первого рода, была ограничена сверху наперёд заданным числом.

(продолжение следует...)

Список литературы

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.
  4. E.L. Lehmann, J. P. Romano. Testing statistical hypotheses. — Springer, New York, 2005 (3rd edition). — 786 p.

Ссылки



Комментарии (1)

Вы просматриваете: StatHypoTest.rst
Facebookdel.icio.usStumbleUponDiggGoogle+Twitter
Gravatar
Владимир говорит...
Пример расчёта достигаемого уровня значимости в MS Excel можно найти на http://arhiuch.ru
17th November 2016 4:29pm
Страница 1 из 1

* Обязательные поля
(Не публикуется)
 
Жирный Курсив Подчеркнутый Перечеркнутый Степень Индекс Код PHP Код Кавычки Вставить линию Вставить маркированный список Вставить нумерованный список Вставить ссылку Вставить e-mail Вставить изображение Вставить видео
 
Улыбка Печаль Удивление Смех Злость Язык Возмущение Ухмылка Подмигнуть Испуг Круто Скука Смущение Несерьёзно Шокирован
 
1000
Captcha
Refresh
 
Введите код:
 
Запомнить информацию введенную в поля формы.