6.6. Статистическая проверка гипотез

Во многих случаях результаты наблюдений используются для проверки предположений (гипотез) относительно либо самого вида распределения генеральной совокупности, либо значения параметров уже известного распределения — статистических гипотез. Пусть известно распределение СВ X (например, это нормальный закон), и по выборке необходимо проверить гипотезу о значении некоторого параметра (хг, Dr или стг) этого распределения.

В дальнейшем выдвигаемую и проверяемую гипотезу будем называть нулевой гипотезой (или основной) и обозначать ее через Н0. Наряду с Н0 рассматривают также одну из альтернативных (конкурирующих) гипотез Н1. Например, если проверяется гипотеза о равенстве параметра в некоторому заданному значению в0, т. е. Н0'. в = в0, то в качестве альтернативной гипотезы можно рассмотреть одну из следующих: а) Н1: в > в0;

б) Н1: в < в0; в) Н1: в ф в0; г) Н1: в = в1, где в1 — другое заданное значение параметра в.

Выдвинутая гипотеза Н0 может соответствовать истине или нет. При проверке гипотезы Н0 по результатам выборки могут быть допущены ошибки двух родов: 1) ошибка первого рода — отвергнута правильная гипотеза; 2) ошибка второго рода — принята неправильная гипотеза. Последствия этих ошибок неравнозначны, и роль каждой оценивается до конца по условиям конкретной задачи. Например, если при проверке качества партии деталей по выборке из нее в качестве Н0 принята гипотеза, что доля брака не более 0,1%, то при допущении здесь ошибки первого рода будет забракована годная продукция, а допустив ошибку второго рода, выпустим потребителю партию деталей с долей

брака больше допустимого. Перед началом анализа выборки фиксируют очень малое число а. Вероятность совершить ошибку первого рода называется уровнем значимости а. Обычно берут а = 0,05; 0,01; 0,005.

Правило, по которому принимается решение принять или отклонить гипотезу #0, называется критерием или статистическим критерием К. Выбор К зависит от конкретной задачи.

Обычно критерий проверки гипотезы реализуется с помощью некоторой статистической характеристики, определенной по выборке, т. е. с помощью некоторой статистики в. Здесь в — некоторая СВ, закон распределения которой известен.

В множестве всех возможных значений статистики д критерия К выделим подмножество а 0, при котором гипотеза #0 отклоняется. Это подмножество называется критической областью. То подмножество значений в, при котором гипотезу #0 не отклоняют, называется областью принятия гипотезы (допустимой областью). Точки, разделяющие эти области, называются критическими точками. Для определения критических точек используют принцип практической невозможности событий, имеющих малую вероятность. При этом задаются достаточно малой величиной а, называемой уровнем значимости критерия, и определяют критическую область как множество тех значений в, вероятность которых принадлежать к области а 0 равнялась бы а, т. е.

Р {в е а0 } = а.

Если по данным выборки при данном уровне значимости получается, что в £ а 0, то это может служить основанием для отклонения гипотезы #0.

Рассмотрим проверку гипотезы о нормальном распределении генеральной совокупности X. Пусть распределение X неизвестно, но есть основание предположить, что X имеет нормальное распределение, т. е. выдвигается нулевая гипотеза #0 о нормальности СВ X. Статистический критерий, с помощью которого проверяется нулевая гипотеза, называется критерием согласия. Имеется несколько критериев согласия. Обычно в них используют статистики, имеющие таблицы распределений, подготовленные заранее: статистику с нормальным нормированным распределением, статистику у и статистику Фишера. Рассмотрим критерий согласия Пирсона (критерий согласия у Пирсона, у2 — «хи квадрат»).

Пусть для X получена выборка объема п, заданная в виде статистического ряда с равноотстоящими вариантами:

Найдем по данным выборки величины хв и стБ. Предполагая, что X имеет нормальное распределение, вычислим величины п :

называемые теоретическими частотами, в противоположность чему п; здесь называют эмпирическими частотами.

В качестве статистики в выбирают СВ % 2:

2 =^ (п; - пі )2

% Пі '

;=1 ;

Она подчиняется распределению % 2 с числом степенной свободы п = ^ - г - 1, где ^ — число различных значений х;; г — число параметров, от которых зависит распределение. Для нормального за-

кона таких параметров два: а = хв = М(X) и <у = $ = Вв--, т. е.

V п-1’

г = 2, и п = $ - 3. Если эмпирическое и теоретическое распределения совпадают, то с2 = 0. По данному уровню значимости а и числу степеней свободы пв таблице распределения с 2 находят критическое значение Срит. и определяют критическую область: с2 < скурит., «0 = {с2 : С2 ^ скурит.}. Затем вычисляют наблюдаемое значение с 2, т. е. с^абл. по формуле

(п - п )2

г =1

Если окажется, что < Х2рит. то нулевую гипотезу Н0 о том, что X имеет нормальное распределение, принимают. В этом случае опытные данные выборки хорошо согласуются с гипотезой о нормальном распределении генеральной совокупности.

Пример 6.37. При уровне значимости a = 0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты:

Так как %набл. < %2р. то нулевая гипотеза о нормальности генеральной совокупности принимается.

Решение. Число различных вариант m равно 7, значит число степеней свободы распределения с2 равно 7 - 3 = 4. По таблице критических точек распределения %2, по уровню значимости a = 0,05 и числу степеней свободы 4 находим %^р = 9,5. Вычислим %набл., для чего составим расчетную таблицу.

Пример 6.38. Дано статистическое распределение выборки:

Решение.

1.Найдем методом произведений выборочные: среднюю, дисперсию и среднее квадратическое отклонение. Воспользуемся методом произведений, для чего составляем табл. 1.

Таблица 1

В качестве ложного нуля принимаем С = 5,8 — варианта с наибольшей частотой 35. Шаг выборки h = х2 - х1 = 3,0 - 1,6 = 1,4. Тогда условные варианты определяем по формуле

Подсчитываем условные варианты щ и заполняем все столбцы.

Последний столбец служит для контроля вычислений по тождеству:

Контроль: 339 = 189 + 2 ¦ 25 + 100.

Вычисления произведены верно. Найдем условные моменты.

Вычисляем выборочную среднюю:

Находим выборочную дисперсию:

Определяем выборочное среднее квадратическое отклонение:

2. Строим нормальную кривую.

Для облегчения вычислений все расчеты сводим в табл. 2.

Заполняем первые три столбца.

В четвертом столбце записываем условные варианты по формуле, указанной в «шапке» таблицы. В пятом столбце находим значения функции

Функция j (u.) четная, т. е. j (u.) = j (-u.).

Значения функции j (u.) в зависимости от аргумента u. (берутся положительные u., т. к. функция j (u.) четная) находим из таблицы.

Теоретические частоты теоретической кривой находим по формуле

и заполняем последний столбец. Отметим, что в последнем столбце частоты n' округляются до целого числа и

В системе координат (x.; y. = n') строим нормальную (теоретическую) кривую (рис. 81) по выравнивающим частотам n' (они

отмечены кружками) и полигон наблюдаемых частот (они отмечены крестиками). Полигон наблюдаемых частот построен в системе координат (x.; y. = n.).

3. Проверяем гипотезу о нормальности X при уровне значимости a = 0,05.

Вычислим, для чего составим расчетную таблицу 3.

Суммируя числа пятого столбца, получаем Суммируя числа последнего столбца, получаем 102,78.

Контроль:

Совпадение результатов подтверждает правильность вычислений.

Найдем число степеней свободы, учитывая, что число групп выборки (число различных вариантов) 7. v = 7 - 3 = 4.

По таблице критических точек распределения % 2, по уровню значимости a = 0,05 и числу степеней свободы v = 4 находим %Кр. = 9,5.

Так как %набл. < %Кр. то нет оснований отвергать нулевую гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.

4. Найдем доверительный интервал для оценки неизвестного МО М (X), полагая, что X имеет нормальное распределение, среднее квадратическое отклонение s = sx = стВ = 1,89 и доверительная вероятность g = 0,95.

Известен объем выборки: n = 100, выборочная средняя хВ= 6,15.

Из соотношения 2Ф (t) = g получим Ф (t) = 0,475. По таблице находим параметр t = 1,96.

Найдем точность оценки

Доверительный интервал таков:

или

Надежность g = 0,95 указывает, что если произведено достаточно большое число выборок, то 95% из них определят такие доверительные интервалы, в которых параметр действительно заключен.

© 2011-2024 Контрольные работы по математике и другим предметам!