Рассчитать значение статистики для критерия колмогорова. Случайной величины. Критерий Колмогорова. Пример Получена случайная выборка объема. Построим вариационный ряд и эмпирическую функцию распределения


Критерий Колмогорова для простой гипотезы является наиболее простым критерием проверки гипотезы о виде закона распределения. Он связывает эмпирическую функцию распределения с функци­ей распределения
непрерывной случайной величиныX .

Пусть
- конкретная выборка из распределения с неизвестной непрерывной функцией распределения
и
- эмпирическая функция распределения. Выдвигается простая гипотеза
:
(альтернативная :
,
).

Сущность критерия Колмогорова состоит в том, что вводят в рассмотрение функцию

(7)

называемой статистикой Колмогорова, представляющей собой максимальное отклонение эмпирической функции распределения
от гипотетической (т. е. соответствующей теоретической) функции распределения
.

Колмогоров доказал, что при
закон распределения случайной величины
независимо от вида распределения с. в.X стремится кзакону распределения Колмогорова:

где К(х) - функция распределения Колмогорова, для которой составлена таблица, ее можно использовать для расчетов уже прип ≥ 20:

Найдем такое, что

Рассмотрим уравнение
С помощью функции Колмогорова найдем значение (корень) этого уравнения. Тогда по теореме Колмогорова,

откуда

Если
, то гипотезунет оснований опровергнуть; в противном случае - ее опровергают.

Пример 3. Монету бросали 4040 раз (Бюффон). Получили
выпадений герба и
выпадений решётки. Проверить, используя

а) критерий Колмогорова;

б) критерий Пирсона, согласуются ли эти данные с гипотезой о симметричности монеты (
0.05).

Случайная величина X принимает два значения:
(решётка);
(герб). Гипотеза :.

а) По таблице распределения Колмогорова находим корень урав­нения
при
. Следует
. Тогда

Для нахождения по выборке строим функции
и
и вычисляем величину
.

= -1

= -1


x i

x 1 = -1

x 2 = -1

n i

p i

0,493

0,507

Максимальное отклонение
от
равно 0,007, т.е.= 0,007. Поскольку
, то нет оснований отвергать, гипотезу
; опытные данные согласуются с гипотезой
о симметричности монеты.

б) Вычисляем статистику χ 2

По таблице
распределения находим критическую точку
Так как
, то опытные данные согласуются с гипотезой о симметричности монеты.

7. Критерий однородности Смирнова

Для проверки гипотез вида (2) (см. 20.2) об однородности двух или более выборок применяют критерий однородности :

Здесь, мы ограничимся частным случаем этой критерии для двух выборок (т.е.
). В качестве критической статистики применяется критерий однородности Смирнова, которая имеет вид:

(9)

где
число элементов выборок;
количество элементов соответственно первой и второй выборок, попавших в
й интервал.

При условии справедливости гипотезы
величинабудет распределена приблизительно по законус
степенью свободы. Гипотезаопровергается, если
или
ипринимается при всех остальных значениях критерия .

Рассмотрим следующую производственную задачу.

Пример 4. Ниже в таблице приведены условные данные о заработной плате работников двух видов предприятий: текстильной и машиностроительной отраслей, полученные в результате социологического опроса. Объёмы двух выборок выразятся как
.

Интервал зарплаты

Количество элементов выборки, попавших в данный интервал

Текстиль

Машиностроение

Решение. Проверим гипотезу (при уровнезначимости
) о том, что распределения вероятностей по заработной плате в анализируемых отраслях не отличаются друг от друга.

Далее вычисления величины по формуле критерии Смирнова (9) с учётом данных в таблице даёт

(10)

Задание. Самостоятельно проверьте это равенство.

Из таблицы значений -распределения (см. приложение) определяем критическую точку:
. Следовательно, гипотезу о совпадении вероятностных распределений заработной платы в двух отраслях необходимо отвергнуть, т.к.
. При этом, вероятность допускаемой ошибки равна 0,05.

Критерий однородности Смирнова относится к непараметрическим критериям (в отличие от критерия Пирсона), так как используемая в нём критическая статистика никак не зависит от наших предположений относительно распределения закона случайной величины.

На практике кроме критерия χ 2 часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения

называемое статистикой критерия Колмогорова.

Задавая уровень значимости α, можно найти соответствующее критическое значение

В таблице приводятся критические значения , критерия Колмогорова для некоторых α.

Таблица 4.2.

Схема применения критерия Колмогорова

1.Строится эмпирическая функция распределения и предполагаемая теоретическая функция распределения F(x) .

2.Определяется статистика Колмогорова D – мера расхождения между теоретическим и эмпирическим распределением и вычисляется величина

3. Если вычисленное значение λ больше критического , то нулевая гипотеза Н 0 о том, что случайная величина Х имеет заданный закон распределения, отвергается.

Если , то считают, что гипотеза Н 0 не противоречит опытным данным.

Пример. С помощью критерия Колмогорова на уровне значимости α=0,05 проверить гипотезу Н 0 о том, что случайная величина Х – выработка рабочих предприятия – имеет нормальный закон распределения.

Решение . 1. Построим эмпирическую и теоретическую функции распределения.

Эмпирическую функцию распределения строят по относительным накопленным частотам.

Теоретическую функцию распределения построим согласно формуле

где

Результаты вычислений сведем в таблицу:

Таблица 4.3.

Для применения критерия А.Н. Колмогорова ЭД требуется представить в виде вариационного ряда (ЭД недопустимо объединять в разряды). В качестве меры расхождения между теоретической F(x ) и эмпирической F* n (x) функциями распределения непрерывной случайной величины Х используется модуль максимальной разности

А.Н. Колмогоров доказал, что какова бы ни была функция распределения F(x) величины Х при неограниченном увеличении количества наблюдений n функция распределения случайной величины d n асимптотически приближается к функции распределения

Иначе говоря, критерий А.Н. Колмогорова характеризует вероятность того, что величина d n не будет превосходить параметр l для любой теоретической функции распределения. Уровень значимости a выбирается из условия

в силу предположения, что почти невозможно получить это равенство, когда существует соответствие между функциями F(x) и F* n (x) . Критерий А.Н. Колмогорова позволяет проверить согласованность распределений по малым выборкам, он проще критерия хи-квадрат, поэтому его часто применяют на практике. Но требуется учитывать два обстоятельства.

1. В соответствии с условиями его применения необходимо пользоваться следующим соотношением

2. Условия применения критерия предусматривают, что теоретическая функция распределения известна полностью – известны вид функции и значения ее параметров. На практике параметры обычно неизвестны и оцениваются по ЭД. Но критерий не учитывает уменьшение числа степеней свободы при оценке параметров распределения по исходной выборке. Это приводит к завышению значения вероятности соблюдения нулевой гипотезы, т.е. повышается риск принять в качестве правдоподобной гипотезу, которая плохо согласуется с ЭД (повышается вероятность совершить ошибку второго рода). В качестве меры противодействия такому выводу следует увеличить уровень значимости a, приняв его равным 0,1 – 0,2, что приведет к уменьшению зоны допустимых отклонений.

Последовательность действий при проверке гипотезы следующая.

1. Построить вариационный ряд.

2. Построить график эмпирической функции распределения F *(x ).

3. Выдвинуть гипотезу:

H 0: F (x ) = F 0(x ) ,

H 1: F (x ) F 0(x ) ,

где F 0(x ) - теоретическая функция распределения типового закона: равномерного, экспоненциального или нормального. Ниже приведены формулы для расчета F 0(x).

Равномерный закон

Экспоненциальный закон

5. По графику определить максимальное по модулю отклонение между функциями F* n (x ) и F 0(x ).



6. Вычислить значение критерия

7. Принимают тот или иной уровень значимости (чаще всего 0,05 или 0,01). Тогда доверительная вероятность = 1 - .

8. Из таблицы вероятностей Колмогорова выбрать критическое значение.

9. Если > , то нулевая гипотеза H 0отклоняется, в противном случае - принимается, хотя она может быть неверна.

Достоинства критерия Колмогорова по сравнению с критерием 2: возможность применения при очень маленьких объемах выборки (n < 20) , более высокая "чувствительность", а следовательно, меньшая трудоемкость вычислений.

Недостаток: критерий можно использовать в том случае, если параметры Q 1, ..., Qk распределения заранее известны, а эмпирическая функция распреде­ления F *(x ) должна быть построена по несгруппированным выборочным данным.

Пример 3.3 . По критерию Колмогорова проверить гипотезу о равно­мерном законе распределения R (0,5; 5,25) случайной величины по выборке объема 10: 2,68 1,83 2,90 1,03 0,90 4,07 5,05 0,94 0,71 1,16, уровень значимости 0,5.

Решение . Вариационный ряд данной выборки имеет вид:

0,71 0,90 0,94 1,03 1,16 1,83 2,68 2,90 4,07 5,05.

После этого строим график эмпирической функции распределения F *(x ).

Теоретическая функция распределения F 0(x ) равномерного закона R (0,5;5,25) равна

Максимальная разность по модулю между графиками F *(x ) и F 0(x ) равна 0,36 при х = 1,16.

Вычислим значение статистики

Из таблицы Колмогорова выбираем критическое значение Так как < 1,36 , то гипотеза о равномерном законе распределения принимается.

Критерий Колмогорова.

На практике кроме критерия часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения
и соответствующей теоретической функцией распределения

, (1)

называемой статистикой критерия Колмогорова .

Доказано, что какова бы ни была функция распределения
непрерывной случайной величины
, при неограниченном увеличении числа наблюдений вероятность неравенства
стремится к пределу

Задавая уровень значимости
, из соотношения

(3)

можно найти соответствующее критическое значение .

Схема применения критерия Колмогорова следующая:

. (4)

Замечание

Можно отметить, что решение подобных задач можно было бы найти с помощью критерия . Потенциальное преимущества критерия Колмогорова в том, что он не требует группирования данных (с неизбежной потерей информации), а дает возможность рассматривать индивидуальные наблюдаемые значения. Этот критерий можно успешно применять для малых выборок. Считается, что его мощность, вообще говоря, выше, чем у критерия .

Пример Получена случайная выборка объема
. Построим вариационный ряд и эмпирическую функцию распределения:

Проверим гипотезу, что эти наблюдения образуют случайную выборку из распределения
с уровнем значимости
. Затем мы можем определить
графически либо аналитически, причем эти значения должны появиться в точке , соответствующей одной из наблюдаемых величин. С этой целью необходимо вычислить пары величин и (см. рис. 1) для каждого значения выборки.

Для вычисления вспомним: , где - функция стандартного нормального распределения. Результаты всех вычислений представим в виде таблицы:

Из таблицы результатов следует: . Из статистических таблиц получим
. Поскольку
, то принимается гипотеза
, т.е. можно считать, что данные подчиняются распределению .

Проверка гипотез об однородности выборок

Гипотезы об однородности выборок – это гипотезы о том, что рассматриваемые выборки извлечены из одной и той же генеральной совокупности.

Пусть имеются две независимые выборки, произведенные из генеральных совокупностей с неизвестными теоретическими функциями распределения
и
.

Проверяемая нулевая гипотеза имеет вид
против конкурирующей
. Будем предполагать, что функции и непрерывны.

Критерий Колмогорова-Смирнова использует ту же самую идею, что и критерий Колмогорова, но только в критерии Колмогорова сравнивается эмпирическая функция распределения с теоретической, а в критерии Колмогорова-Смирнова сравниваются две эмпирические функции распределения.

Статистика критерия Колмогорова-Смирнова имеет вид:

,

где
и
– эмпирические функции распределения, построенные по двум выборкам c объемами и . отвергается на уровне значимости , если фактически наблюдаемое значение больше критического , т.е.
, и принимается в противном случае.

Критерий Колмогорова-Смирнова в программе STATISTICA в среде Windows

Пример основан на исследовании агрессивности четырехлетних мальчиков и девочек (Siegel, S. (1956) Nonparametric statistics for the behavioral sciences (2nded.) New York: McGraw-Hill). Данные содержатся в файле Aggressn.sta.

Двенадцать мальчиков и двенадцать девочек наблюдались в течение 15-минутной игры; агрессивность каждого ребенка оценивалась в баллах (в терминах частоты и степени проявления агрессивности) и суммировалась в один индекс агрессивности, который вычислялся для каждого ребенка.

Задание анализа . Выберите Nonparametrics из меню Statistics. Затем выберете Comparing two independent samples (groups). Появится диалоговое окно Comparing Two Groups . Нажмите на кнопку Variables . Здесь выберете переменную variable Aggressn в Dependent variable list и переменную Gender в Indep . (grouping ) variable . Коды для однозначного отнесения каждого наблюдения к определенному полу будут автоматически выбраны программой.

Как видно из таблицы результатов, различие между агрессивностью мальчиков и девочек в этом исследовании высокозначимо.

Критерий Колмогорова-Смирнова. Проверка гипотезы об однородности выборок

Гипотезы об однородности выборок – это гипотезы о том, что рассматриваемые выборки извлечены из одной и той же генеральной совокупности.

Пусть имеются две независимые выборки, произведенные из генеральных совокупностей с неизвестными теоретическими функциями распределения и .

Проверяемая нулевая гипотеза имеет вид против конкурирующей . Будем предполагать, что функции и непрерывны и для оценки используем статистику Колмогорова – Смирнова .

Критерий Колмогорова-Смирнова использует ту же самую идею, что и критерий Колмогорова. Однако различие заключается в том, что в критерии Колмогорова сравнивается эмпирическая функция распределения с теоретической, а в критерии Колмогорова-Смирнова сравниваются две эмпирические функции распределения.

Статистика критерия Колмогорова-Смирнова имеет вид:

, (9.1)

где и – эмпирические функции распределения, построенные по двум выборкам c объемами и .

Гипотеза отвергается, если фактически наблюдаемое значение статистики больше критического , т.е. , и принимается в противном случае.

При малых объемах выборок критические значения для заданных уровней значимости критерия можно найти в специальных таблицах. При (а практически при ) распределение статистики сводится к распределению Колмогорова для статистики . В этом случае гипотеза отвергается на уровне значимости , если фактически наблюдаемое значение больше критического , т.е. , и принимается в противном случае.

Пример 1. ^ ПРОВЕРКА ОДНОРОДНОСТИ ДВУХ ВЫБОРОК

Были осуществлены две проверки торговых точек с целью выявления недовесов. Полученные результаты сведены в таблицу:


^ Номер интервала

Интервалы недовесов, г

Частоты

Выборка 1

Выборка 2

1

0 – 10

3

5

2

10 – 20

10

12

3

20 – 30

15

8

4

30 – 40

20

25

5

40 – 50

12

10

6

50 – 60

5

8

7

60 – 70

25

20

8

70 – 80

15

7

9

80 – 90

5

5

Объем первой выборки был равен , а второй – .

Решение :

Обозначим и – накопленные частоты выборок 1 и 2;
, – значения их эмпирических функций распределения соответственно. Обработанные результаты сведем в таблицу:














10

3

5

0.027

0.050

0.023

20

13

17

0.118

0.170

0.052

30

28

25

0.254

0.250

0.004

40

48

50

0.436

0.500

0.064

50

60

60

0.545

0.600

0.055

60

65

68

0.591

0.680

0.089

70

90

88

0.818

0.880

0.072

80

105

95

0.955

0.950

0.005

90

110

100

1.000

1.000

0.000

Из последнего столбца таблицы видно, что . По формуле (9.1) получим . Из статистических таблиц известно, что . Так как , то принимается нулевая гипотеза , т.е. недовесы покупателям описываются одной и той же функцией распределения.

^

СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ И ВЫЯВЛЕНИЕ ТРЕНДА


При анализе случайных данных часто возникает ситуации, когда требуется выяснить, являются ли наблюдения или оценки параметров статистически независимыми или же они подвержены тренду. Это особенно важно при анализе нестационарных данных.

Такие исследования, обычно, проводят на основе свободных от распределений или непараметрических методов , в которых относительно функции распределения исследуемых данных не делается никаких предположений.
^

Критерий серий


Рассмотрим последовательность наблюдённых значений случайной величины , причём каждое наблюдение отнесено к одному из двух взаимно исключаемых классов, которые можно обозначить просто (+) или
(–). Рассмотрим ряд примеров:

В каждом из этих примерах образуется последовательность вида:

^ Серией называется последовательность однотипных наблюдений, перед и после которой следуют наблюдения противоположного типа или же вообще нет никаких наблюдений.

В приведенной последовательности число наблюдений равно ; а количество серий равно .

Если последовательность наблюдений состоит из независимых исходов одной и той же случайной величины, т.е. если вероятность отдельных исходов [(+) или (−)] не меняется от наблюдения к наблюдению, то выборочное распределение числа серий в последовательности является случайной величиной со средним значением и дисперсией:

(9.2)

(9.3)

Здесь число исходов (+), а число исходов (−), естественно . В частном случае если , то:

. (9.4)

Предположим, что есть основание подозревать наличие тренда в последовательности наблюдений, т.е. есть основание считать, что вероятность появления (+) или (−) меняются от наблюдения к наблюдению. Существование тренда можно проверить следующим образом. Примем в качестве нулевой гипотезы тренда нет, т.е. предположим, что наблюдений являются независимыми исходами одной и той же случайной величины. Тогда для проверки гипотезы с любым требуемым уровнем значимости необходимо сравнить наблюденное число серий с границами области принятия гипотезы равными и , где .

Если наблюденное число серий окажется вне области принятия гипотезы, то нулевая гипотеза должна быть отвергнута с уровнем значимости . В противном случае нулевую гипотезу можно принять.

Пример 2. ^ ПРИМЕНЕНИЕ КРИТЕРИЯ СЕРИЙ

Имеется последовательность независимых наблюдений :


5.5

5.1

5.7

5.2

4.8

5.7

5.0

6.5

5.4

5.8

6.8

6.6

4.9

5.4

5.9

5.4

6.8

5.8

6.9

5.5

Проверим независимость наблюдений, подсчитав число серий в последовательности, полученной путем сравнения наблюдений с медианой. Применим критерий с уровнем значимости .

Из анализа данных получим, что значение является медианой. Тогда введем обозначения (+) при , (–) при . Итак, получим:

В нашем примере , а область принятия гипотезы имеет вид:

.

По статистическим таблицам находим . Т.к.









2024 © voenkvm.ru.