3.6. Статистическая проверка статистических гипотез. Что такое уровень значимости статистической гипотезы


4. Уровни статистической значимости

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р<0,05, то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р<0,01, то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р<0,05 или р<0,01, а α<0,05 или α<0,01.

Если вероятность ошибки - это α, то вероятность правильного решения: 1—α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н1).

Правило отклонения Hо и принятия h2

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H0 отклоняется, но мы еще не можем определенно принять h2.

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H0 отклоняется и принимается Н1.

Исключения: критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.

Критические значения критерия обозначены как Qо,о5 и Q0,01, эмпирическое значение критерия как Qэмп. Оно заключено в эллипс.

Вправо от критического значения Q0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0,01 и, следовательно, безусловно, значимые.

Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.

Мы видим, что Q0,05=6; Q0,01=9; Qэмп.=8;

Эмпирическое значение критерия попадает в область между Q0,05 и Q0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н0), но еще не можем принять гипотезы об их достоверности (h2).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р<0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ2r Фридмана, L Пейджа, φ* Фишера.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р<0,05, теперь соответствует лишь уровню р<0,10.

Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.

studfiles.net

Уровень статистической значимости

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержением нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости. Уровнем значимости называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимости — это вероятность ошибки первого рода при принятии решения. Для обозначения этой вероятности, как правило, употребляют либо греческую букву α, либо латинскую букву р. В дальнейшем мы будем употреблять букву р.

Исторически сложилось так, что в прикладных науках, использующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень р = 0,05; достаточным — уровень р = 0,01 и высшим уровень р = 0,001. Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются таблич­ные значения для уровней р = 0,05, р = 0,01 и р = 0,001. Иногда даются табличные значения для уровней р — 0,025 и р = 0,005.

Величины 0,05, 0,01 и 0,001 — это так называемые стандартные уровни статистической значимости. При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уровень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 — это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двад­цати элементов (случаев, испытуемых). Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответ­ствующим статистическим методом. Эти уровни, обозначаемые буквой р, могут иметь различное числовое выражение в интервале от 0 до 1, например, р = 0,7, р = 0,23 или р = 0,012. Понятно, что в первых двух случаях полученные уровни значимости слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных. Это достоверный уровень.

Правило принятия статистического вывода таково: на основании полученных экспериментальных данных психолог подсчи­тывает по выбранному им статистическому методу так называе­мую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Чэмп. Затем эмпирическая стати­стика Чэмп сравнивается с двумя критическими величинами, ко­торые соответствуют уровням значимости в 5% и в 1% для выб­ранного статистического метода и которые обозначаются как Чкр. Величины Чкр находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к любому учебнику по статистике. Эти величины, как правило, всегда различны и их в дальнейшем для удобства можно назвать как Чкр1 и Чкр2. Найденные по таблицам величины критических значений Чкр1 и Чкр2 удобно представлять в следующей стандартной форме записи:

Подчеркнем, однако, что мы использовали обозначения Чэмп и Чкр как сокращение слова «число». Во всех статистических методах приняты свои символические обозначения всех этих вели­чин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответ­ствующим таблицам критических величин. Например, при подсчете рангового коэффициента корреляции Спирмена по таблице критических значений этого коэффициента были найдены сле­дующие величины критических значений, которые для этого метода обозначаются греческой буквой ρ («ро»). Так для р = 0,05 по таб­лице найдена величина ρкр1 = 0,61 и для р = 0,01 величина ρкр2 = 0,76.

В принятой в дальнейшем изложении стандартной форме записи это выглядит следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значе­ние с двумя найденными по таблицам критическими значения­ми. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости». «Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это при­вычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Одна крайняя зона называется зоной незначимости, вторая крайняя зона — зоной значимости, а промежуточная — зоной неопреде­ленности. Границами всех трех зон являются Чкр1 для р = 0,05 и Чкр2 для р = 0,01, как это показано на рисунке.

В зависимости от правила принятия решения (правила вывода), предписанного в данном статистическом методе возможно два варианта.

Первый вариант: альтернативная гипотеза принимается, если Чэмп≥Чкр.

Или второй вариант: альтернативная гипотеза принимается, если Чэмп≤Чкр.

Подсчитанное Чэмп по какому либо статистическому методу должно обязательно попасть в одну из трех зон.

Если эмпирическое значение попадает в зону незначимости, то принимается гипотеза Н0 об отсутствии различий.

Если Чэмп попало в зону значимости, принимается альтернативная гипотеза Н1 о на­личии различий, а гипотеза Н0 отклоняется.

Если Чэмп попадает в зону неопределенности, перед исследователем стоит дилемма. Так, в зависи­мости от важности решаемой задачи он может считать полученную статистическую оценку достоверной на уровне 5%, и принять, тем самым гипотезу Н1, отклонив гипотезу Н0, либо — недостоверной на уровне 1%, приняв тем самым, гипотезу Н0. Подчеркнем, одна­ко, что это именно тот случай, когда психолог может допустить ошибки первого или второго рода. Как уже говорилось выше, в этих обстоятельствах лучше всего увеличить объем выборки.

Подчеркнем также, что величина Чэмп может точно совпасть либо с Чкр1 либо Чкр2. В первом случае можно считать, что оценка достоверна точно на уровне в 5% и принять гипотезу Н1, или, напротив, принять гипотезу Н0. Во втором случае, как пра­вило, принимается альтернативная гипотеза Н1 о наличии разли­чий, а гипотеза Н0 отклоняется.

studfiles.net

7.4 Уровни статистической значимости

Уровень значимости– это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в том, что мы отклонили нулевую гипотезу, в то время как она верна, как уже указывалось, называется ошибкой I рода (). Если вероятность ошибки – это,,то вероятность правильного решения – 1-. Чем меньше, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень ( 0,05), достаточным – 1%-ый уровень( 0,01), высшим – 0,1%-ый уровень ( 0,001).

Замечание

В таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической зна­чимости: 0,05 и0,01, иногда0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. До тех пор, однако, пока уровень статистической значимости не достигнет=0,05, мы еще не имеем права отклонить нулевую гипотезу. В настоящем пособии будем придерживаться следующего правила отклонения гипотезы об отсутст­вии различий (Н0) и принятия гипотезы о статистической достоверности различий (h2).

7.5 Правило отклонения нулевой и принятия альтернативной гипотезы

Если эмпирическое значение критерия равняется критическому значению, соответствующему  0,05, или превышает его, тоН0отклоняется, но мы еще не можем определенно принятьН1.

Если эмпирическое значение критерия равняется критическому значению, соответствующему  0,01, или превышает его, тоН0 отклоняется и принимаетсяН1.

Исключения составляют критерий знаков G, критерийТВилкоксона и критерийUМанна-Уитни. Для них устанавливаются обратные соотношения.

Для облегчения процесса принятия решения можно всякий раз вычерчивать «ось значимости»:

«Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это привычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Левая зона называется «зоной незначимости», правая – «зоной значимости», а промежуточная –«зоной неопределенности». Границами всех трех зон являются критическое значение, соответствующее0,05 (обозначается какЧ0,05) икритическое значение, соответствующее0,01 (обозначается какЧ0,05).

Вправо от критического значения Ч0,01 простирается«зона значимости»– сюда попадают эмпирические значения, превышающиеЧ0,01, и, следовательно, значимые. В этом случае принимается альтернативная гипотезаh2:

Влево от критического значения Ч0,05простирается«зона незначимости»– сюда попадают эмпирические значения, которые нижеЧ0,05следовательно, незначимы, и в этом случае принимается гипотезаН0 об отсутствии различий:

Если эмпирическое значение попадает в «зону неопределенности», то отклоняется гипотеза о недостоверности различий (Н0), но гипотеза об их достоверности(Н1) не принимается:

Практически, однако, исследователь может считать достоверными уже те различия, которые попадают в «зону неопределенности», заявив, что они достоверны при  0,05, или указав точный уровень значимости полу­ченного эмпирического значения критерия, например:=0,02.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе – двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости 0,05, теперь соответствует лишь уровню0,10.

studfiles.net

30. Статистические гипотезы, ошибки 1-го и 2-го рода, уровень значимости.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Поскольку проверку производят статистическими методами, ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т. е. могут быть допущены ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Вероятность совершить ошибку первого рода принято обозначать через ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0.05 или 0.01. Если, например, принят уровень значимости, равный 0.05, то это означает, что в пяти случаях из ста мы рискуем допустить ошибку первого рода (отвергнуть правильную гипотезу).

Пусть дана выборка из неизвестного совместного распределения, и поставлена бинарная задача проверки статистических гипотез:

где —нулевая гипотеза, а —альтернативная гипотеза. Предположим, что задан статистический критерий

,

31. Статистический критерий проверки нулевой гипотезы.

Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Эту величину обозначают через U или Z, если она распределена нормально, F или v2 – по закону Фишера-Снедекора, T – по закону Стьюдента, c² – по закону «хи квадрат» и т. д. Все эти случайные величины обозначим через К.

Статистическим критерием (или просто критерием) называют случайную величину К, которая служит для проверки нулевой гипотезы.

Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин, и таким образом получают частное (наблюдаемое) значение критерия.

Наблюдаемым значением Кнабл назначают значение критерия, вычисленное по выборкам.

32. Критическая область. Область принятия гипотезы, критические точки.

После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества, одно из которых содержит значения критерия, при которых нулевая гипотеза отвергается, а другое – при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.

Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают.

Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия принадлежит критической области – гипотезу отвергают, если области принятия гипотезы – гипотезу принимают.

Так как критерий K – одномерная случайная величина, то все ее возможные значения принадлежат некоторому интервалу и, соответственно, должны существовать точки, разделяющие критическую область и область принятия гипотезы. Такие точки называются критическими точками.

Различают одностороннюю (правостороннюю и левостороннюю) и двустороннюю критические области.

Правосторонней называют критическую область, определяемую неравенством , где– положительное число.

Левосторонней называют критическую область, определяемую неравенством , где– отрицательное число.

Двусторонней называют критическую область, определяемую неравенствами , где. В частности, если критические точки симметричны относительно нуля, двусторонняя критическая область определяется неравенствамиили равносильным неравенством. Различия между вариантами критических областей иллюстрирует следующий рисунок.

Рис. 1. Различные варианты критических областей a) правосторонняя, b) левосторонняя, с) двусторонняя

Резюмируя, сформулируем этапы проверки статистической гипотезы:

Формулируется нулевая гипотеза ; Определяется критерий K, по значениям которого можно будет принять или отвергнутьи выбирается уровень значимости; По уровню значимости определяется критическая область; По выборке вычисляется значение критерия K, определяется, принадлежит ли оно критической области и на основании этого принимаетсяили.

studfiles.net

3.6. Статистическая проверка статистических гипотез

Математика как наука дает возможность изучить некоторое явление, объект или систему с помощью определенной математической модели. Задача исследователя – на основе полученных результатов выдвинуть “гипотезу” (предположение) и проверить, насколько эта модель соответствует опытным данным.

В различных областях знаний – в экономике и медицине, технике и естествознании формулируют статистические гипотезы, которые затем проверяются статистическими методами. Современная наука весьма часто пользуется результатами проверки статистических гипотез: при предсказании погоды и стихийных бедствий, при анализе политической и экономической жизни, при поиске подземных ископаемых и т.д.

3.6.1 Статистические гипотезы. Основные понятия

Типы статистических гипотез. Гипотезы имеют огромное значение во всех областях жизни, т.к. их главная задача – помочь выбрать правильное решение из двух альтернативных.

Статистическая гипотеза – это утверждение о виде неизвестного распределения или о параметрах известного распределения. Статистические гипотезы проверяются по результатам выборки статистическими методами в ходе эксперимента (эмпирическим путем) с помощью статистических критериев.

Статистической проверкой статистической гипотезы называется процедура обоснованного сопоставления сформулированной гипотезы с полученными в ходе эксперимента выборочными данными x1,x2,…,xn.

В тех случаях, когда известен закон, но неизвестны значения его параметров (дисперсия или математическое ожидание) в конкретной ситуации, статистическую гипотезу называют параметрической. Гипотеза о предполагаемой величине параметра этого распределения проверяется статистическими методами. Так, предположения об ожидаемом среднем доходе по акциям или о разбросе дохода являются параметрическими гипотезами.

В других случаях, когда закон распределения генеральной совокупности неизвестен, но есть основания предположить, каков его конкретный вид, выдвигается статистическая гипотеза о виде распределения. Тогда, установив вид распределения, можно делать дальнейшие выводы и принимать решения. В этих случаях гипотезу называют непараметрической. Например, можно выдвинуть гипотезу о том, что число дневных продаж в магазине, доход населения или объем выпуска продукции на предприятии подчинены закону нормального распределения.

Итак, к статистическим будем относить гипотезы, возникающие в ходе некоторых исследований, которые можно проверить с помощью экспериментальных данных.

По содержанию статистических гипотез их можно классифицировать:

  1. Гипотезы о типе вероятностного закона распределения случайной величины, характеризующего явление или процесс.

Некоторое свойство экономического характера имеет определенный закон распределения, зависящий от некоторых параметров. Проверка статистической гипотезы о законе распределения случайной величины может установить его с точностью до параметров, характеризующих неизвестный исследователю закон распределения.

  1. Гипотезы об однородности двух или более обрабатываемых выборок, т.е. некоторых характеристик исследуемой совокупности (гипотезы о равенстве или различии законов распределения случайной величины, характеризующих изучаемое свойство).

Изучаемое свойство исследуется с помощью двух или более генеральных совокупностей, отличающихся между собой некоторыми факторами. Результатом статистического анализа статистической гипотезы такого типа может быть один из двух возможных выводов: исследуемые выборочные характеристики различаются между собой статистически , т.е. выборка взята из

  1. Гипотезы о свойствах числовых значений параметров исследуемой генеральной совокупности.

С помощью гипотезы такого типа проверяются свойства некоторого числового параметра (среднего, дисперсии и т.д.) о том, что его значение не меньше (не больше) некоторого заданного значения – номинала или находится в заданных пределах.

  1. Гипотезы о вероятностной зависимости двух или более признаков (факторов) характеризующих различные свойства рассматриваемого явления или процесса.

Два или более свойства рассматриваемого экономического процесса вероятностно зависимы. Определенные факторы оказывают влияние на изучаемый процесс и, значит, на его свойства. Эта стохастическая зависимость подчиняется некоторому общему закону. Задача исследователя заключается в определении характера этой функциональной зависимости (например, линейного) между компонентами этого исследуемого многомерного признака.

Сравнивая эмпирическую и теоретическую функции распределения необходимо различать простые и сложные гипотезы о характере закона:

гипотезу, содержащую предположение(й), называютгипотезой.

Выдвинутую гипотезу называют основной или нулевой и обозначают H0. Противоречащую ей гипотезу h2 называют альтернативной или конкурирующей. Выбор альтернативной гипотезы определяется формулировкой решаемой задачи.

Пусть некоторый закон распределения случайной величины X зависит от некоторого параметра : ƒ(X,). Сформулирована некоторая основная гипотеза, например, о величине параметра , т.е.

H0: , где 0 – конкретное значение параметра .

Тогда, в зависимости от условия задачи, альтернативная гипотеза h2, противоположная суждению H0, может иметь вид h2: (ненаправленная гипотеза) или , а также 0 (направленная гипотеза).

Статистические критерии. Уровень значимости. Проверка статистической гипотезы осуществляется по данным выборки. Случайную величину К, служащую для проверки нулевой гипотезы, называют статистическим критерием или просто критерием. Статистический критерий дает возможность по результатам выборки принять либо отвергнуть основную гипотезу H0 .

В то же время под статистическим критерием понимают однозначно определенное правило, устанавливающее условие, при котором проверяемая гипотеза отвергается либо не отвергается.

Пример 4. Увеличение числа заболевших некоторым заболеванием дает возможность выдвинуть гипотезу о начале эпидемии. Для сравнения доли заболевших в обычных и экстремальных условиях используются статистические данные, на основании которых делается вывод о том, является ли данное массовое заболевание эпидемией. Предполагается, что существует некоторый критерий – уровень доли заболевших, критический для этого заболевания, который устанавливается по ранее имевшимся случаям.

Различают три вида критериев:

  1. Параметрические критерии – критерии значимости, которые служат для проверки гипотез о параметрах распределения генеральной совокупности (например, о значениях m и при гипотезе о нормальном распределении).

  2. Критерии согласия служат для проверки гипотез о соответствии распределений генеральной совокупности с известной теоретической моделью.

  3. Непараметрические критерии используют в гипотезах, когда не требуется знаний о конкретном виде распределений.

Проверку параметрических гипотез проводят на основе критериев значимости, с помощью затабулированных статистик t, ,F, u и др. Проверку непараметрических гипотез проводят на основе критериев согласия, используя статистики, Колмогорова-Смирнова и др.

Задача проверки статистических гипотез статистическими методами сводится к исследованию генеральной совокупности по выборке, содержащей n независимых случайных величин X1, X2 …, Xn. Таким образом, статистическими методами проверяются гипотезы о значении некоторого признака генеральной совокупности.

Сущность проверки статистических гипотез заключается в том, чтобы установить, согласуются ли между собой данные выборочных наблюдений и сформулированной гипотезы.

Все возможные значения случайной величины X могут быть разбиты на два непересекающихся подмножества: Iкр – критическую область и область принятия гипотезы –.

Областью принятия гипотезы или областью допустимых значений Iдоп называется совокупность значений критерия, при которых эту гипотезу H0 принимают.

Критической областью Iкр для данного статистического критерия K называется множество значений критерия, при которых нулевую гипотезу H0 отвергают.

Наблюдаемым значением критерия (статистикой) kнабл= kВ называется такое значение критерия, которое находят по данным выборки.

Основной принцип проверки статистических гипотез состоит в следующем: если наблюдаемое значение статистики критерия – kнаблв критическую область, то гипотезу– , а гипотезу –в качестве одного из возможных решений поставленной задачи с формулировкой «гипотезаH0выборочным данным на уровне значимости».

Границы критической области, отделяющие ее от области принятия гипотезы называют критическими точками и обозначают kкр.

Для определения критической области задается уровень значимости  – некая (малая) вероятность (обычно от 0 до 0.1) попадания критерия К в критическую область. Уровень значимости – вероятность принять h2, тогда как справедлива Н0­. В соответствии с нашими обозначениями для условной вероятности имеем

. (3.34)

В зависимости от содержания альтернативной гипотезы h2 осуществляется выбор критической области: левосторонней, правосторонней или двусторонней.

Если смысл исследования заключается в доказательстве конкретного изменения наблюдаемого параметра (его уменьшения или увеличения), то говорят об односторонней критической области.

Если смысл исследования заключается в выявлении различий в изучаемых параметрах, но характер их отклонений от контрольных (или теоретических) не известен, то говорят о двухсторонней критической области и двухсторонних критериях.

Так, при сравнении дисперсий двух нормально распределенных совокупностей, например, при сравнении экспериментальной совокупности с контрольной (теоретической), если основная гипотеза H0: , то в качестве альтернативной может быть выбрана гипотезаh2: .

Пример 5. При решении вопроса об инвестициях в одну из двух отраслей возникает проблема риска вложений. Предполагается, что распределение ежегодных прибылей на инвестиции подчиняются нормальному закону распределения. Исследуются ожидаемые дисперсии ежегодных прибылей от этих инвестиций. Если мы предполагаем, что они взяты из нормально распределенных генеральных совокупностей с равными дисперсиями, то нулевая гипотеза H0: , а в качестве альтернативной может быть выбрана гипотезаh2: , т.е. дисперсии различны. В то же время в качестве альтернативной может быть выбрана гипотезаh2: , т.е. дисперсия первой отрасли превышает дисперсию второй.

Выбор критерия осуществляется до начала эксперимента, но важно учесть, что более точные результаты дают односторонние критерии.

Границы критической области – значения критерия kкр – определяются с помощью уровня значимости  и предположения о характере распределения соответствующей статистики (Таблица 6):

Таблица 6

Критическая область Мкр

Чертеж

Определение

Условие

Значение kкр

через 

Левосторонняя

K< kкр

kкр< 0

P(K< kкр)= 

Правосторонняя

K>kкр

kкр> 0

P(K> kкр)= 

Двусторонняя симметричная

K< kкр1, K>kкр2

илиK>kкр

kкр1< kкр2

Mk (kкр1;kкр2)

P(K<kкр1)=

=P(K> kкр2)= /2

Однако принятие той или иной гипотезы не дает оснований утверждать, что она доказана, т.к. один положительный результат не может служить основанием для того, чтобы считать некоторое утверждение достоверным. Так, в процессе сбора и обработки экспериментальных данных могли закрасться ошибки по различным причинам, мог оказаться недостаточным объем эмпирических данных и т.д. Результаты проверки статистической гипотезы лишь устанавливают на определенном уровне значимости  ее соответствие (или несоответствие) результатам эксперимента.

Ошибки первого и второго рода. Поскольку результатом исследования гипотезы служит управленческое решение, необходимо в ситуации выявленной неопределенности знать последствия возможных ошибок.

Возможны ошибки двух родов:

– можно отвергнуть H0 , а принять неправильную гипотезу h2 – допустить ошибку I рода.

– можно отвергнуть правильную альтернативную гипотезу h2 и принять неправильную нулевую H0 – допустить ошибку II рода.

Заметим, что уровень значимости  – есть вероятность ошибки I рода. Ошибки I рода называют -риском. Вероятности допустить ошибку I рода соответствует так называемая “ошибка поставщика” (“ложная тревога”). Обычно (в таблицах для конкретных видов распределений)  задается некоторыми стандартными значениями: 0.05; 0.01; 0.005; 0.001.

Ошибки II рода принято называть -риском, а вероятность ее допустить обозначают : итак,  – вероятность того, что принята гипотеза H0, если на самом деле справедлива альтернативная гипотеза h2:

. (3.35)

Мощностью критерия называется вероятность попадания критерия в критическую область, при условии справедливости конкурирующей гипотезы. Очевидно, что она равна

M=. (3.36)

Понятно, что для лучшего (наиболее приближенного к действительности) результата нужно, чтобы мощность была более приближена к 1. Однако при заданном объеме выборки одновременно уменьшить вероятности ошибок I и II рода невозможно: единственный способ — увеличение выборки до масштабов, сравнимых со всей генеральной совокупностью — сопряжен с техническими и экономическими трудностями. Поэтому на практике приходится “из двух зол” выбирать меньшее: пытаться подбирать значения параметров  и  опытным путем с целью минимизировать суммарный эффект от возможных ошибок.

Анализ решений в задачах такого вида удобно проводит с помощью таблицы (Таблица 7).

Таблица 7

Принятое решение

Истинное положение

h2 – ложная

H0 – истинная

H0 – ложная

h2 – истинная

H0 – отвергнутое

h2 – принятое

 - риск (ложная тревога)

Ошибка 1 рода

правильное решение

h2 – отвергнутое

H0 – принятое

правильное решение

 - риск (пропуск брака)

Ошибка 2 рода

Существуют формулы для расчетов статистик гипотез, например, о среднем нормального распределения при неизвестном  или о дисперсии нормального распределения и т.д., которые лежат в основе так называемой теории оценок.

45

studfiles.net

1. Понятие статистической гипотезы.

2. Принцип проверки гипотез.

1. В физическом воспитании и спорте часто приходится делать вывод об общих закономерностях проявления какого-либо показателя: нормально или нет распределены результаты измерений этого показателя в генеральной совокупности, отличается ли среднее арифметическое значение результатов измерения в генеральной совокупности после тренировок от аналогичного параметра до тренировок, а обнаруженное расхождение между результатами не выходит за пределы случайных ошибок (эффективна или нет методика тренировок), отличается ли дисперсия генеральной совокупности результатов измерения показателя после тренировок от такого же показателя до тренировок (изменилась или нет стабильность результатов спортсмена) и т.д.

Так как указанные выводы делаются на основании относительно небольшого числа результатов измерения показателя (n = 30), необходима проверка достоверности (бесспорности) таких выводов.

Для этого применяются статистические гипотезы.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки. Статистическую гипотезу обозначают символом H.

Обычно выдвигают и проверяют две противоречащие друг другу гипотезы:

  1. нулевую (основную) H0;

  2. конкурирующую (альтернативную) h2.

Примеры статистических гипотез:

1) Нулевая гипотеза H0: закон распределения результатов измерения является нормальным. Конкурирующая гипотеза h2: закон распределения результатов измерения отличен от нормального.

2) Нулевая гипотеза H0: среднее арифметическое значение генеральной совокупности результатов измерения показателя после цикла тренировок не изменилось. Конкурирующая гипотеза h2: среднее арифметическое значение увеличилось.

2. Для проверки выдвинутых нулевых гипотез применяют статистические критерии, разработанные математиками и носящие, как правило, их имена.

Статистическим критерием называют определенное правило, задающее условия, при которых проверяемую нулевую гипотезу следует либо отклонить, либо принять. При отклонении нулевой гипотезы принимается конкурирующая. Критерий обозначается буквой К.

Значение критерия, вычисленное по данным выборки, называют наблюдаемым значением критерия (Кнабл). Совокупность значений критерия, при которых отвергают нулевую гипотезу, называют критической областью. Совокупность значений критерия, при которых нулевую гипотезу принимают, называют областью принятия гипотезы (областью допустимых значений). Указанные области разграничены критическим (граничным) значением критерия, который находится по соответствующей таблице.

Односторонняя критическая область используется, если, согласно конкурирующей гипотезе, одна рассматриваемая величина может быть только больше (или только меньше) другой величины.

Двусторонняя критическая область используется, если, согласно конкурирующей гипотезе, одна рассматриваемая величина может быть как больше, так и меньше (не равна) другой.

Отклонение нулевой гипотезы, когда она фактически верна, называется ошибкой первого рода. Принятие нулевой гипотезы, когда фактически она не верна, называется ошибкой второго рода.

Уровень значимости  – это вероятность попадания критерия К в критическую область, если верна нулевая гипотеза, другими словами, уровень значимости – это вероятность ошибки первого рода. Он служит для определения по таблицам критических значений критерия (Ккрит), которые указывают положение критических точек, отделяющих критическую область от области принятия гипотезы. Обычно величина  выбирается малой. Поэтому попадание критерия К в критическую область при справедливости нулевой гипотезы мало вероятно. В этом случае, при попадании критерия К в критическую область считают, что должна быть принята конкурирующая гипотеза.

Часто  принимают равной 0,05. Это означает, что вероятность ошибочно принять гипотезу h2, если справедлива гипотеза H0, равна только 5 %.

Сформулируем основные этапы проверки статистических гипотез:

1) Исходя из задач исследования, формулируются статистические гипотезы.

2) Выбирается уровень значимости, на котором будут проверяться гипотезы.

3) На основе выборки, полученной из результатов измерения, определяется статистическая характеристика гипотезы.

4) Определяется критическое значение статистического критерия по соответствующей таблице на основании выбранного уровня значимости и объема выборки.

5) Вычисляется наблюдаемое (фактическое) значение статистического критерия.

6) На основе сравнения наблюдаемого и критического значения критерия в зависимости от результатов проверки нулевая гипотеза либо принимается, либо отклоняется в пользу альтернативной.

Для проверки статистических гипотез используются параметрические и непараметрические методы.

Параметрические методы служат для проверки гипотез о неизвестных параметрах генеральной совокупности, когда закон распределения случайной величины известен.

Непараметрические методы применяются в тех случаях, когда закон распределения случайной величины неизвестен, или когда условия применения параметрических методов не выполняются.

Параметрические методы эффективнее непараметрических.

Перейдем к ознакомлению с основными положениями теории надежности тестов.

Контрольные вопросы для самопроверки:

1. Что называют статистической гипотезой?

2. Принцип выдвижения статистических гипотез.

3. В чём заключается основной принцип проверки статистических гипотез?

4. Односторонняя и двусторонняя критическая область.

5. Ошибки при проверке гипотез. Уровень значимости.

6. Основные этапы проверки статистических гипотез.

7. Параметрические и непараметрические методы проверки статистических гипотез.

Литература:

1. Основы математической статистики. Уч. пособие для ин-тов физической культуры (под общ. ред. В.С. Иванова). – М.: Физкультура и спорт, 1990. – С. 81 – 90.

2. Рукавицына С.Л., Волков Ю.О., Солтанович Л.Л. Спортивная метрология. Проверка эффективности методики тренировки с применением методов математической статистики. Практикум для студентов БГУФК. – Минск: БГУФК, 2006. – С. 49 – 51.

ЛЕКЦИЯ 9.

Тема: Статистические гипотезы и достоверность статистических характеристик. Сравнение средних арифметических.

Вопросы для рассмотрения:

studfiles.net

4. Уровень значимости | Кинезиолог

Уровни статистической значимости

 

Уровень значимости – это вероятность того, что мы сочли различия существенными, в то время как они на самом деле случайны.

Итак, уровень значимости имеет дело с вероятностью.

Уровень значимости показывает степень достоверности выявленных различий между выборками, т.е. показывает, насколько мы можем доверять тому, что различия действительно есть.

Современные научные исследования требуют обязательных расчётов уровня статистической значимости результатов.

Обычно в прикладной статистике используют 3 уровня значимости.

 

Уровни значимости

1. 1-й уровень значимости: р ≤ 0,05.

Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,95. Общий смысл критерия останется тем же.

2. 2-й уровень значимости: р ≤ 0,01.

Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,99. Смысл останется тем же.

3. 3-й уровень значимости: р ≤ 0,001.

Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это — самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,999. Смысл опять-таки останется тем же.

 

Уровень значимости – это вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идёт об отклонении нулевой гипотезы Но.

Уровень значимости – это допустимая ошибка в нашем утверждении, в нашем выводе.

 

Ошибки

 

Возможны ошибки двух родов: первого рода (α ) и второго рода (β).

Ошибка I рода – мы отклонили нулевую гипотезу, в то время как она верна.

α – ошибка I рода.

р ≤ 0,05, уровень ошибки α ≤ 0,05

Вероятность того, что принято правильное решение: 1 – α = 0,95, или 95%.

 

Уровни значимости для ошибок I рода

 

1. α ≤ 0,05 – низший уровень

Низший уровень значимости – позволяет отклонять нулевую гипотезу, но еще не разрешает принять альтернативную.

2. α ≤ 0,01 – достаточный уровень

Достаточный уровень – позволяет отклонять нулевую гипотезу и принимать альтернативную.

Исключение:

G – критерий знаков

T – критерий Вилкоксона

U – критерий Манна – Уитни.

Для них обратное соотношение.

3. α ≤ 0,001 – высший уровень значимости.

 

На практике различия считают достоверными при р ≤ 0,05.

Для ненаправленной статистической гипотезы используется двусторонний критерий значимости. Он более строгий, так как проверяет различия в обе стороны: в сторону нулевой гипотезы и в сторону альтернативной. Поэтому для него используется критерий значимости 0,01.

 

Мощность критерия – его способность выявлять даже мелкие различия если они есть. Чем мощнее критерий, тем лучше он отвергает нулевую гипотезу и подтверждает альтернативную.

 

Здесь появляется понятие: ошибка II рода.

Ошибка II рода – это принятие нулевой гипотезы, хотя она не верна.

Мощность критерия: 1 – β

Чем мощнее критерий, тем он привлекательнее для исследователя. Он лучше отвергает нулевую гипотезу.

 

Чем привлекательны маломощные критерии?

 

Достоинства маломощных критериев

  • Простота

  • Широкий диапазон, по отношению к самым разным данным

  • Применимость к неравным по объему выборкам.

  • Большая информативность результатов.

Самый популярный статистический критерий в России - Т-критерий Стьюдента. Но всего в 30% статей его используют правильно, а в 70% - неправильно, т.к. не проверяют предварительно выборку на нормальность распределения.

Второй по популярности — критерий хи-квадрат, χ2

 

За рубежом:

Т-критерий Вилкоксона

U-критерий Манна – Уитни

χ2 - хи-квадрат.

Т-критерий Стьюдента – это частный случай дисперсионного анализа для более маленькой по объёму выборки.

kineziolog.su