38. Критерий Уилкоксона

Область применения. Критерий Уилкоксона применяется в той же ситуации, что и критерий Манна-Уитни. В отличие от этого критерия и критерия знаков, он имеет дело не со знаками некоторых случайных величин, а с их рангами. Исторически критерий Уилкоксона был одним из первых критериев, основанных на рангах (о рангах см. п. 3).

Рассмотрим ранги элементов объединения двух выборок И . ДЛЯ получения рангов совокупность всех наблюдений следует упорядочить в порядке возрастания. (Напомним, что если функции распределения F и G выборок Х и У непрерывны, то в их совокупности нет совпадающих значений и, следовательно, результат упорядочивания однозначен. Как поступать в противном случае, будет сказано ниже, в разделе «совпадения».

Пусть, например, первая выборка состоит из чисел 6, 17 и 14, вторая — из чисел 5 и 12. Тогда ранги величин первой группы есть 2, 5, 4, второй — 1, 3.

Нетрудно понять, что последовательность рангов совокупности oБъема Т+N является некоторой перестановкой чисел 1,..., M+N. Верно и обратное: любая перестановка чисел 1,..., M + П может оказаться ранговой последовательностью. Так что множество возможных ранговых последовательностей — это совокупность перестановок чисел 1, 2,..., M+n. Их общее число равно (M+N)!.

Зная распределения случайных величин и , мы можем (по крайней мере, теоретически) вычислить вероятность того, что результат их ранжирования будет заданной перестановкой. ПоэтоМу Каждое распределение случайных величин и поРождает некоторое распределение вероятностей на указанном множесТве Перестановок. Ясно, что если исходные данные однородны ( И в совокупности являются независимыми и одинаково Распределенными случайными величинами), то в качестве Последовательности рангов с равными шансами может появиться любая Перестановка Чисел от 1 до M+N. Число таких перестановок равно (M+N)!, поэтоМу Вероятность каждой равна . Заметим, что этот результ никак не зависит от распределения самих наблюдений.

Посмотрим, как изменяется распределение вероятностей среди ранговых последовательностей (т. е. среди перестановок) при отступлениях от однородности выборок. В качестве нарушений однородности мы будем рассматривать те же ситуации, что и при обсуждении критерия Манна-Уитни в предыдущем пункте: левосторонние альтернативы и правосторонние альтернативы F ³ G. Для правосторонних альтернатив , то есть наблюдения из второй группы имеют тенденцию превосходить наблюдения из первой. Поэтому ранг наблюдений из второй группы чаще будет принимать значения из правой части ряда чисел 1,2,..., M + П. Если же отступление таково, что , то ранги игреков чаще будут принимать значения из левой части ряда чисел 1,2,..., M+n. Переход от рангов игреков к их сумме позволяет резче отметить эти закономерности.

Таким образом, ранги в какой-то мере способны характеризовать, например, положение одной выборки по отношению к другой и в то же время они не зависят от неизвестных нам распределений выборок Х и У. Это обстоятельство и легло в основу ранговых методов, широко применяемых в настоящее время в различных задачах. Вернемся к непосредственному обсуждению критерия Уилкоксона.

Назначение. Критерий Уилкоксона используется для проверки Гипотезы об однородности двух выборок. Нередко одна из выборок ПреДСтавляет характеристики объектов, подвергшихся перед тем какому-то воздействию (обработке). В этом случае гипотезу однородности можно назвать Гипотезой об Отсутствии эффекта обработки.

Данные. Рассматриваются две выборки и , объемов M и П. Обозначим закон распределения первой выборки через F, а второй — через G.

Допущения. 1. Выборки и независимы между собой.

2. Законы распределения выборок F и G непрерывны.

Гипотеза. В введенных выше обозначениях гипотезу об однородности выборок можно записать в виде Н : F = G.

Метод. 1. Рассмотрим ранги игреков в общей совокупности выборок Х и У. Обозначим их через .

2. Вычислим величину

,

Называемую статистикой Уилкоксона.

3. Зададим уровень значимости A или выберем метод, связанный с определением наименьшего уровня значимости, приведенный ниже.

4. Для проверки Н на уровне значимости A против правосторонних альтернатив найдем по таблице верхнее критическое значение W(A, M, N), т. е. такое значение, для которого

Гипотезу следует отвергнуть против правосторонней альтернативы при уровне значимости A, если .

5. Для проверки H на уровне значимости A против левосторонних альтернатив , необходимо вычислить нижнее критическое значение статистики W. В силу симметричности распределения W Нижнее критическое значение есТЬ N(M+N+1)-W(A, m, п). Гипотеза H должна быть отвергнута на уровне значимости A против левосторонней альтернативы, если .

6. Гипотеза H отвергается на уровне 2A против двусторонней альтернативы , если

или .

Напомним, что альтернативы должны выбираться из содержательных соображений, связанных с условиями получения экспериментальных данных.

7. Более гибкое правило проверки Н связано с вычислением наименьшего уровня значимости, на котором гипотеза Н может быть отвергнута. Для разных альтернатив речь идет о вычислении вероятностей:

Гипотеза отвергается, если соответствующая вероятность оказывается малой.

Приближение для больших выборок. На практике часто приходится сталкиваться с ситуацией, когда объемы выборок Т и П выходят за пределы, приведенные в таблицах. В этом случае используют аппроксимацию распределения W предельным распределением статистики W при и . Перейдем от величины W к . Ниже будет показано, что . Так же можно показать, что . Доказано, что в условиях H, при допущениях 1 и 2 и при больших Т, п случайная величина W* распределена приблизительно по нормальному закону с параметрами (0, 1).

Обозначим через ZA верхнее критическое значение стандартного нормального распределения. Его можно найти с помощью таблицы квантилей нормального распределения для любого 0 < A < 0.5. Благодаря симметрии распределения нижнее критическое значение равно - ZA. Правило проверки H перефразируем так:

отвергнуть H на уровне A против альтернативы , есЛИ ;

отвергнуть H на уровне A против альтернативы , ЕСли ;

отвергнуть H на уровне 2A против альтернативы , если .

Правило, связанное с вычислением наименьшего уровня значимости, при использовании нормального приближения выглядит так: отвергнуть H (против соответствующих альтернатив), если оказывается малой вероятность для альтернативы , дЛЯ альтернативы , и длЯ Альтернативы , где Ф(U) — функция нормального распределения (функция Лапласа), равная

.

Функция нормального распределения и ей обратная, которая Называется функцией квантилей стандартного нормального распределЕния, подробно табулированы. Упомянутое ранее верхнее критическое значение ZA С помощью функции Ф можно определить как решение уравнения

Замечание. Указанное выше нормальное приближение для вычисления критических значений статистики W хорошо действует даже для небольших значений M и П, если только A не слишком мало. (Так, для Т = П = 8 приближенные квантили практически не отличаются от точных.)

Обсуждение. Рассмотрим подробнее свойства статистики W и соображения положенные в основу критерия Уилкоксона.

ОблаСТь опредеЛЕния. Случайная величина W может принимать все целые значения от минимального значения до максимального . Минимальное значение W мы получаем, когда рангами игреков служат (в той или иной последовательности) числа 1, 2,... ,П. Максимальное значение W возникает, когда этими рангами служат M+1, M+2,..., Т+п.

Заметим, что W не изменится, если произвольно переменить порядок следования чисел, служащих рангами игреков (как не изменится и при перенумерации самих игреков). Чтобы упростить обсуждение, можно поэтому говорить далее о рангах игреков, упорядоченных по возрастанию. Пусть Обозначают именно упорядоченные ранги, так что .

Распределение вероятностей. Статистика Уилкоксона была определена нами как сумма (упорядоченного) набора рангов игреков . Вероятность каждого такого упорядоченного набора при выдвинутой гипотезе Н — Одна и та же и равна . Таким образом, при гипотезе Н распределение W не зависит от закона распределения выборок х и У, так как от них не зависит распределение упорядоченной последовательности рангов. Для каждой пары (M, N) распределение W можно рассчитать. Покажем на примере, как это делается.

Пусть M = 3 и N = 2. Вычислим число всех возможных пар рангов игреков. Оно равно Следовательно, вероятность каждого упорядоченного набора рангов равна 0.1. Выпишем всевозможные наборы рангов S1, S2 и соответствующую им сумму:

Таким образом, получаем следующее распределение W:

Отметим, что распределение W симметрично относительно точки — середины отрезка . Из этого свойства легко вывести, что .

Рассмотрим случайную величину . Согласно симметрии закона распределения относительно точки , вероятность , что эта величина примет некоторое значение K, равна вероятности , что она примет значение -K. Согласно определению математического Ожидания, . Учитывая, Что Математическое ожидание разности равно разности математических Ожиданий, а математическое ожидание константы равно самой константе, получаТ .

РаспредеЛЕние статистики W при нарушении гипотезы. ЧтоБы Оправдать сделанный выше выбор критических событий (критериев) для ПроВерки Н против рассмотренных альтернатив, надо изучить распределение стаТистик U и W при этих альтернативах. Когда F и G не одинаковы, распределеНия U и W уже не свободны от их влияния. Поэтому точно вычислить и Указать Распределения U и W можно (в принципе) только для каждой конкретной Пары F и G. Тем не менее, характер изменения распределений статистик U и W при переходе от гипотезы к альтернативам — не всем, но некоторым, — установИть Можно. Это легко сделать для односторонних альтернатив. Например, Когда (правосторонняя альтернатива), распределение вероятноСтей W «перетекает» от середины к правому концу того множества значений, которОе Может принимать W. Для левосторонних альтернатив аналогичное «перетеКание» вероятности происходит влево — тем сильнее, чем больше Отличается от 0.5.

На рис. 1 мы попытались наглядно представить это положение, Условно Представляя распределение статистики W при гипотезе и при альтернативаХ с Помощью плотностей, — хотя искомые распределения дискретны и плотноСтей Не имеют. Но так получается выразительнее. (При желании можно считаТь, Что нарисованные непрерывные кривые изображают что-то вроде Огибающих Графиков дискретных вероятностей.)

Из рис. 1 ясно, что гипотеза Н должна отвергаться при слишком большЕ Или при слишком малых значениях W в зависимости от того, какие альтернативы мы рассматриваем. При том выборе критериев, который был описан выШе Их мощность возрастает при удалении от 0.5. Это правило и лежит в основе описанного выше метода.

Связь со статистикой Манна-Уитни. Нетрудно проверить, что для всех M, N: . Это соотношение показывает эквивалентноСть Статистик U и W. Поэтому их применения приводят к одинаковым результатам.

СоВПадения. Мы описали критерий Уилкоксона для проверки гипотезы об однородности двух выборок в условиях, когда функции распределений Данных Непрерывны и, тем самым, в выборках не должно быть совпадающих наблюдений. Однако на практике совпадающие наблюдения — не редкость. Чаще всего это происходит не потому, что нарушается условие непрерывности, а из-за ограниченной точности записи результатов измерений (например, рост человека обычно измеряется с точностью до 1 см). Применение критерия Уилкоксона к таким данным приводит к приближенным выводам, точность которых тем ниже, чем больше совпадающих значений.

Когда среди наблюдений встречаются одинаковые, им приписываются Средние ранги. По определению, средний ранг числа в совокупности чисел есть среднее арифметическое из тех рангов, которые были бы назначены и всем остальным значениям, совпадающим с , если бы они оказались различными. После такого назначения рангов применяются описанные ранее процедуры.

Упомянутые группы одинаковых наблюдений называют Связками. Количество элементов в связке называют ее размером. Наличие связей влияет на асимптотические распределения статистики Уилкоксона. Так, при использовании нормальной аппроксимации следует в формуле для вычисления W* заменить DW на

,

Где размеры наблюденных связок среди игреков, G общее число связок среди игреков. Наблюдение, не совпавшее с каким-либо другим наблюдением, рассматривается как связка размера 1, и в формуле, заменяющей DW не учитывается.

При больших по размеру связках и (или) большом их числе применение критерия Уилкоксона сомнительно.

© 2011-2024 Контрольные работы по математике и другим предметам!