23. Методические указания к выполнению задания № 5

Математическая статиcтика изучает массовые явления и процессы, ставя целью получение выводов по данным наблюдений за ними. В результате появляются утверждения об общих характеристиках таких явлений в предположении постоянства начальных условий явления. Теоретической основой математической статистики является теория вероятностей.

Поскольку число наблюдений конечно, их результаты можно записать в таблицу аналогично дискретной случайной величине, только в нижней строке не вероятности, а частоты тех или иных значений, а чаще – диапазонов. При этом при анализе такой таблицы нередко возникает предположение, что данная величина распределена по одному из известных непрерывных законов (см. комментарии к задаче № 4), чаще всего – нормальному (гауссовскому).

Типовой пример

Получены статистические данные (N=500) зависимости результатов измерения роста студентов (Х) от окружности груди (Y). Измерения проводились с точностью до 1 см.

Таблица 1

Статистические данные типового примера

N	1	2	3	4	5	6	7	8	9	10	11	12
X	172	172	163	187	172	161	176	164	166	168	162	163
Y	88	91	89	99	90	85	88	84	82	82	82	89

…………..

N	489	490	491	492	493	494	495	496	497	498	499	500
X	165	173	166	175	158	174	178	170	167	168	161	161
Y	85	89	84	98	83	86	90	86	93	94	89	88

Требуется:

1 часть.

1) произвести выборку из 200 значений;

2) построить эмпирическую функцию распределения, полигон, гистограмму для случайной величины Х;

3) построить точечные и интервальные оценки для мат. ожидания и дисперсии генеральной совокупности Х;

4) сделать статистическую проверку гипотезы о законе распределения случайной величины Х;

Часть 2.

1) нанести на координатную плоскость данные выборки (X;Y) и по виду корреляционного облака подобрать вид функции регрессии;

2) составить корреляционную таблицу по сгруппированным данным;

3) вычислить коэффициент корреляции;

4) получить уравнение регрессии;

Решение.

1) Произведём из генеральной совокупности N=500 выборку N=200 значений. Для этого воспользуемся таблицей случайных чисел (Приложение А). Выберите столбец, номер которого соответствует месяцу Вашего рождения. В этом столбце отсчитайте порядковый номер даты дня рождения. В полученном случайном числе определите номера ещё трёх столбцов. Для данного примера выбрана дата 31 декабря. В 12 столбце определили 31 номер случайного числа. Это число 0436. Значит выбранными будут столбцы №12;4;13;16. (№12 – месяц Вашего рождения, №4 – первая или вторая цифра в случайном числе, которая не использовалась, №13 – третья цифра в случайном числе +10, №16 – четвёртая цифра в случайном числе +10). Если цифры повторяются, то нужно взять со3седние номера. Например, случайное число во втором столбце - 4422. Нужно выбрать номера 2,4,12,13.

Для осуществления выборки берутся последние три цифры в случайном числе, которые определяют порядковый номер выборочного значения. Если в выборке встретился номер, которого нет в генеральной совокупности, то необходимо вычислить разность между этим числом и 500. Если полученный номер уже выбрали, то необходимо выбрать следующий за ним номер.

Для представленного примера получилась выборка:

Таблица 2

Выборочные данные X и Y

N	106	493	66	201	274	158	223	336	362	162	96	20
X	162	166	172	169	176	167	167	168	167	169	167	69
Y	100	84	82	91	86	90	92	88	89	88	89	83

N	288	251	257	152	279	478	86	439	368	203	271	395
X	169	163	164	164	164	178	176	167	165	172	168	170
Y	91	92	84	89	85	91	82	85	90	87	88	88

N	396	94	305	341	12	128	492	407	172	87	441	29
X	187	165	171	171	169	163	161	175	172	163	180	172
Y	86	87	94	91	79	80	88	95	89	91	98	90

N	140	59	70	453	487	447	105	232	95	456	80	225
X	174	164	169	157	178	176	161	176	165	161	182	176
Y	97	89	88	90	90	93	94	90	87	84	90	93

N	147	101	373	51	343	355	195	463	260	183	326	282
X	168	164	160	178	170	168	173	176	170	163	165	165
Y	93	91	83	89	90	81	89	95	81	93	84	88

N	139	483	399	467	266	372	356	290	241	273	450	329
X	170	166	165	181	172	165	172	178	173	165	174	159
Y	86	84	85	92	88	91	98	90	90	87	96	81

Продолжение таблицы 2

N	469	423	242	475	168	365	107	428	367	457	224	199
X	171	169	169	170	170	165	190	175	157	148	172	159
Y	92	92	87	91	88	94	105	91	82	87	99	83

N	404	363	192	109	429	60	13	291	400	337	100	187
X	162	167	167	160	175	163	164	180	164	169	169	170
Y	92	85	88	87	90	91	89	85	84	87	91	93

N	88	292	283	52	45	358	252	62	130	286	361	184
X	179	167	162	169	172	166	164	173	161	159	166	158
Y	99	81	80	91	99	82	84	84	82	86	84	91

N	79	371	378	419	307	56	374	169	43	298	239	145
X	163	165	170	172	161	171	166	164	183	173	166	167
Y	88	87	91	94	84	97	87	97	90	90	89	85

N	325	65	153	375	9	340	142	193	261	116	26	253
X	162	156	167	168	170	171	174	179	161	170	172	166
Y	89	88	86	92	90	91	90	85	79	95	91	88

N	61	202	440	21	200	221	332	275	287	108	468	103
X	173	172	179	155	175	173	170	171	171	167	165	173
Y	89	96	85	86	89	96	96	83	90	91	91	90

N	240	110	424	414	296	284	83	435	81	54	397	134
X	167	165	169	171	181	164	164	176	163	165	174	177
Y	89	94	82	89	89	86	91	87	88	93	86	87

N	303	430	34	144	277	451	179	472	342	293	327	448
X	180	170	168	175	171	170	168	160	169	164	171	164
Y	90	91	82	85	89	90	87	85	91	87	91	83

N	154	438	297	219	196	204	230	258	262	213	89	357
X	164	163	170	174	161	167	173	164	174	168	176	156
Y	83	88	92	88	91	91	87	90	91	83	93	85

N	426	480	156	127	295	115	36	7	473	376	157	254
X	162	168	176	184	165	176	163	167	169	186	172	175
Y	90	93	88	98	94	92	89	88	89	92	91	90

N	98	126	265	443	82	110	432	479
X	170	173	160	171	169	165	185	168
Y	90	91	89	85	87	94	91	90

Составим ранжированный (по увеличению) ряд для случайной величины Х.

Таблица 3

Ранжированный ряд случайной величины Х

X	148	155	156	156	157	157	158	159	159	159	160	160
Y	87	86	85	88	82	90	91	81	83	86	83	85

X	160	161	161	161	161	161	161	162	162	162	162	162
Y	87	79	82	84	84	88	91	80	89	90	92	94

X	162	163	163	163	163	163	163	163	163	163	164	164
Y	100	80	88	88	88	89	91	91	92	93	83	83

X	164	164	164	164	164	164	164	164	164	164	164	164
Y	84	84	84	85	86	87	89	89	89	90	90	91

X	164	164	165	165	165	165	165	165	165	165	165	165
Y	91	97	84	85	87	87	87	87	88	90	91	91

X	165	165	165	165	165	166	166	166	166	166	166	166
Y	93	94	94	94	94	82	84	84	84	87	88	89

X	166	167	167	167	167	167	167	167	167	167	167	167
Y	89	81	85	85	85	86	88	88	89	89	89	90

X	167	167	167	168	168	168	168	168	168	168	168	168
Y	91	91	92	81	82	83	87	88	88	90	92	93

X	168	169	169	169	169	169	169	169	169	169	169	169
Y	93	79	83	87	87	87	88	88	89	91	91	91

X	169	169	169	169	170	170	170	170	170	170	170	170
Y	91	91	92	92	81	86	88	88	90	90	90	90

X	170	170	170	170	170	170	170	171	171	171	171	171
Y	91	91	91	92	93	95	96	83	85	89	89	90

X	171	171	171	171	171	171	172	172	172	172	172	172
Y	91	91	91	92	94	97	82	87	88	89	90	91

X	172	172	172	172	172	172	173	173	173	173	173	173
Y	91	94	96	98	99	99	84	87	89	89	90	90

X	173	173	173	174	174	174	174	174	174	175	175	175
Y	90	91	96	86	88	90	91	96	97	85	89	90

Окончание таблицы 3

X	175	175	175	176	176	176	176	176	176	176	176	176
Y	90	91	95	82	86	87	88	90	92	93	93	93

X	176	177	178	178	178	178	179	179	179	180	180	180
Y	95	87	89	90	90	91	85	85	99	85	90	98

X	181	181	182	183	184	185	186	187	190
Y	89	92	90	90	98	91	92	86	105

Cоставим новую таблицу, в которой отразим частоты появления случайных величин и относительные частоты .

Таблица 4

Дискретный вариационный ряд

I	1	2	3	4	5	6	7	8	9	10	11	12
	148	155	156	157	158	159	160	161	162	163	164	165
	1	1	2	2	1	3	3	6	6	9	15	15

I	13	14	15	16	17	18	19	20	21	22	23	24
	166	167	168	169	170	171	172	173	174	175	176	177
	8	14	10	15	15	11	12	9	6	6	10	1

I	25	26	27	28	29	30	31	32	33	34	35
	178	179	180	181	182	183	184	185	186	187	190
	4	3	3	2	1	1	1	1	1	1	1

В данном примере случайные величины сплошь заполняют промежуток (148;190). Число возможных значений велико. Их нельзя представить в виде случайных величин, принимающих отдельные, изолированные значения, тем самым отделить одно возможное значение от другого промежутком, не содержащим возможных значений случайной величины. Поэтому для построения вариационного ряда будем использовать интервальный ряд распределения. Весь возможный интервал варьирования разобьём на конечное число интервалов и подсчитаем частоту попадания значений величины в каждый интервал. Минимальное и максимальное значения случайной величины: Тогда интервал варьирования R («размах») будет равен R= Длину интервала рассчитывают по формуле:

(6)

При этом значение признака, находящегося на границе интервалов относят к правой границе интервала.

На практике считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов. Часто интервальный вариационный ряд заменяют дискретным вариационным рядом, выбирая средние значения интервала (таблица №7).

Для данного примера , округлим до 3, т. е. размер интервала H=3, а число интервалов будет равно 14. Соответствующий интервальный вариационный ряд приведён в таблице №5.

Таблица 5

Интервальный вариационный ряд

Индекс интервала I	Число покупателей (интервалы)	Частота	Относительная частота
1	148-151	1	1/200
2	151-154	0	0
3	154-157	5	5/200
4	157-160	7	7/200
5	160-163	21	21/200
6	163-166	38	38/200
7	166-169	39	39/200
8	169-172	38	38/200
9	172-175	21	21/200
10	175-178	15	15/200
Окончание таблицы 5
Индекс интервала I	Число покупателей (интервалы)	Частота	Относительная частота
11	178-181	8	8/200
12	181-184	3	3/200
13	184-187	3	3/200
14	187-190	1	1/200

2) После составления вариационного ряда необходимо построить функцию распределения выборки или эмпирическую функцию F*(X)=, то есть функцию найденную опытным путём. Здесь – относительная частота события Х< х, n - общее число значений.

Эмпирическое распределение можно изобразить в виде полигона, гистограммы или ступенчатой кривой.

Построим выборочную функцию распределения. Очевидно, что для функция так как . На концах интервалов значения функции рассчитаем в виде «нарастающей относительной частоты» (Таблица 6).

Таблица 6

Расчёт эмпирической функции распределения

Индекс интервала I
1	1/200
2	1/200
3	1/200+5/200=6/200
4	6/200+7/200=13/200
5	13/200+21/200=34/200
6	34/200+38/200=72/200
Окончание таблицы 6
Индекс интервала I
7	72/200+39/200=111/200
8	111/200+38/200=149/200
9	149/200+21/200=170/200
10	170/200+15/200=185/200
11	185/200+8/200=193/200
12	193/200+3/200=196/200
13	196/200+3/200=199/200
14	199/200+1/200=200/200

Табличные значения не полностью определяют выборочную функцию распределения непрерывной случайной величины, поэтому при графическом изображении её доопределяют, соединив точки графика, соответствующие концам интервала, отрезками прямой (рис.1).

Полученные данные, представленные в виде вариационного ряда, изобразим графически в виде ломаной линии (полигона), связывающей на плоскости точки с координатами , где - среднее значение интервала , а - относительная частота.(таблица 7 и рис.2). На этом же рисунке отобразим пунктирной линией выравнивающие (теоретические) частоты.

Таблица 7

Дискретный вариационный ряд

Номер интервала I	Среднее значение интервала	Относительная частота	Выборочная Оценка плотности вероятности
1	149,5	0,005	0,002
2	152,5	0	0
3	155,5	0,025	0,008
Окончание таблицы 7
4	158,5	0,035	0,012
5	161,5	0,105	0,035
6	164,5	0,19	0,063
7	167,5	0,195	0,065
8	170,5	0,19	0,063
9	173,5	0,105	0,035
10	176,5	0,075	0,025
11	179,5	0,04	0,013
12	182,5	0,015	0,005
13	185,5	0,015	0,005
14	188,5	0,005	0,002

Рис.1

Рис.2

На основании полученных выборочных данных необходимо сделать предположение, что изучаемая величина распределена по некоторому определённому закону. Для того чтобы проверить, согласуется ли это предположение с данными наблюдений, вычисляют частоты полученных в наблюдениях значений, т. е. находят теоретически сколько раз величина Х должна была принять каждое из наблюдавшихся значений, если она распределена по предполагаемому закону. Для этого находят выравнивающие (теоретические) частоты по формуле:

(7)

Где N – число испытаний,

- вероятность наблюдаемого значения , вычисленная при допущении, что Х имеет предполагаемое распределение.

Эмпирические (полученные из таблицы) и выравнивающие частоты сравнивают, и при небольшом расхождении данных делают заключение о выбранном законе распределения.

Предположим, что случайная величина Х распределена нормально (см. комментарии к задаче № 4). В этом случае выравнивающие частоты находят по формуле:

(8)

Где N-число испытаний,

H-длина частичного интервала,

-выборочное среднее квадратичное отклонение,

( - середина I – го частичного интервала)

– функция Лапласа (9)

Результаты вычислений отобразим в таблице №8.

Сравнение графиков (рис.2) наглядно показывает близость выравнивающих частот к наблюдавшимся и подтверждает правильность допущения о том, что обследуемый признак распределён нормально.

Таблица 8

Расчёт выравнивающих частот

149,5

152,5

155,5

158,5

161,5

164,5

167,5

170,5

173,5

176,5

179,5

182,5

185,5

188,5

-19,5

-16,5

-13,5

-10,5

-7,05

-4,05

-1,05

1,95

4,95

7,95

10,95

13,95

16,95

19,95

-3

-2,53

-2,06

-1,59

-1,11

-0,64

-0,17

0,31

0,78

1,25

1,73

2,2

2,67

3,15

0,004

0,02

0,048

0,11

0,22

0,33

0,396

0,38

0,3

0,18

0,09

0,04

0,011

0,003

0,42

1,55

4,54

10,68

20,37

31,0

37,48

36,0

28,0

17,34

8,44

3,37

1,06

0,26

0,05

0,01

0,025

0,055

0,1

0,155

0,185

0,18

0,14

0,085

0,04

0,015

0,005

Интервальный вариационный ряд графически изобразим в виде гистограммы (рис.3). На оси Х отложим интервалы длиной H=3, а на оси Y значения ,расчёт которых представлен в таблице №7. Площадь под гистограммой равна сумме всех относительных частот, т. е. единице.

Графическое изображение вариационных рядов в виде полигона и гистограммы позволяет получать первоначальное представление о закономерностях, имеющих место в совокупности наблюдений.

Рис.3

3) Найдём числовые характеристики вариационного ряда, используя таблицу №4.

Выборочная средняя ():

или , (10)

Где - частоты,

А -объём выборки. Выборочная средняя является оценкой математического ожидания (среднего значения теоретического закона распределения).

В некоторых случаях удобнее рассчитать с помощью условных вариант. В нашем случае варианты - большие числа, поэтому используем разность:

(11)

Где С – произвольно выбранное число (ложный нуль). В этом случае

. (12)

Для изменения значения варианты можно ввести также условные варианты путём использования масштабного множителя:

, (13)

Где (B выбирается положительным или отрицательным числом).

. Здесь С – середина 8-го интервала.

Выборочная дисперсия ():

(14)

также может быть рассчитана с помощью условных вариант:

(15)

=(1*441+0*324+…+1*324)- 1,95²=40,21

Среднеквадратическое отклонение:

= (16)

==6,34

Найдем несмещённую оценку дисперсии и среднеквадратического отклонения («исправленную» выборочную дисперсию и среднеквадратическое отклонение) по формулам:

и (17)

==40,41 и S=6,34=6,36

Доверительный интервал для оценки математического ожидания с надёжностью 0,95 определяют по формуле:

P(-TФ(t)= (18)

Из соотношения Ф(Z)=/2 вычисляют значение функции Лапласа: Ф(Z)=0,475. По таблице значений функции Лапласа ( Приложение А) находят Z=1,96. Таким образом,

168,55-1,96,

167,67<A<169,43.

Доверительный интервал для оценки среднего квадратичного отклонения случайной величины находят по формуле:

, (19)

Где S – несмещённое значение выборочного среднего квадратичного отклонения;

Q – параметр, который находится по таблице (Приложение В) на основе известного объёма выборки n и заданной надёжности оценки .

На основании данных значений =0,95 и N=200 по таблице (Приложение В) можно найти значение Q=0,099. Таким образом,

5,79<

V= (20)

4) Проведём статистическую проверку гипотезы о нормальном распределении. Нормальный закон распределения имеет два параметра (R=2): математическое ожидание и среднее квадратическое отклонение. По выборочным данным (таблицы 5 и 7) полученные оценки параметров нормального распределения, вычисленные выше:

, , S=6,36.

Для расчёта теоретических частот используют табличные значения функции Лапласа Ф(Z). Алгоритм вычисления состоит в следующем:

- по нормированным значениям случайной величины Z находят значения Ф(Z), а затем :

, =0,5+Ф().

Например,

; ; Ф(-3,0)=-0,4987;

;

- далее вычисляют вероятности =P(;

- находят числа , и если некоторое <5, то соответствующие группы объединяются с соседними.

Результаты вычисления , , и приведены в таблице 9.

По формуле

= (21)

можно сделать проверку расчетов.

По таблице (приложения Г) можно найти число по схеме: для уровня значимости α=0,05 и числа степеней свободы L=K-R-1=9-2-1=6=12,6. Следовательно, критическая область - (12,6;). Величина =15,61 входит в критическую область, поэтому гипотеза о том, что случайная величина Х подчинена нормальному закону распределения, отвергается.

При α=0,1 =10,6. Критическая область - (10,6;). Величина =15,61 также входит в критическую область и гипотеза о нормальном законе распределения величины Х отвергается.

При α=0,01 =16,8, (16,8;). В этом случае нет оснований отвергать гипотезу о нормальном законе распределения.

Таблица 9

Определение

I			Ф()
0	149,5	0	-0,500	0,000	0,0013	0,0013	0,26	-
1	149,5 152,5	1	-0,449	0,0013	0,0059	0,0046	0,92	-
2	152,5 155,5	0	-0,494	0,0059	0,02	0,014	2,8	-
3	155,5 158,5	5	-0,48	0,02	0,057	0,037	7,4	2,54
4	158,5 161,5	7	-0,44	0,057	0,134	0,077	15,4	4,58
5	161,5 164,5	21	-0,37	0,134	0,26	0,126	25,2	0,7
6	164,5 167,5	38	-0,24	0,26	0,433	0,1725	34,5	0,36
7	167,5 170,5	39	-0,07	0,433	0,62	0,188	37,6	0,06
8	170,5 173,5	38	0,12	0,62	0,78	0,16	32	1,125
9	173,5 176,5	21	0,28	0,78	0,89	0,11	22	0,045
10	176,5 179,5	15	0,39	0,89	0,96	0,07	14	0,071
11	179,5 182,5	8	0,46	0,96	0,99	0,03	6	6,125
12	182,5 185,5	3	0,49	0,99	0,996	0,006	1,2	-
13	185,5 188,5	3	0,496	0,996	0,999	0,003	0,6	-
14	188,5	1	0,5	0,999	1,0	0,001	0,2	-

,0000

2 часть

1) Данные таблицы 3 сгруппируем в корреляционную таблицу 10.

2) Строим в системе координат множество, состоящее из 200 экспериментальных точек (рисунок 4).

По расположению точек делаем заключение о том, что экономико-математическую модель можно искать в виде .

3) Найдём выборочные уравнения линейной регрессии.

Для упрощения расчётов разобьём случайные величины на интервалы и выберем средние значения. Для величины Х указанные действия были выполнены в 1 части задания.

Таблица 10

Корреляционная таблица

	105	100	99	98	97	96	95	94	93	92	91	90	89	88	87	86	85	84	83	82	81	80	79	Y/X
1															1									148
1																1								155
2														1			1							156
2												1								1				157
1											1													158
3																1			1		1			159
3															1		1		1					160
6											1			1				2		1			1	161
6		1						1		1		1	1									1		162
9									1	1	2		1	3								1		163
15					1						2	2	3		1	1	1	3	2					164
15								4	1		2			1	4		1	1						165
8													2	1	1			3		1				166
14										1	2	1	3	2		1	3				1			167
10									2	1		1		2	1				1	1	1			168
15										2	5		1	2	3				1				1	169
15						1	1		1	1	3	4		2		1					1			170
Продолжение таблицы 10
11					1			1		1	3	1	2				1		1					171
12			2	1		1		1			2	1	1	1	1					1				172
9						1					1	3	2		1			1						173
6					1	1					1	1		1		1								174
6							1				1	2	1				1							175
10							1		3	1		1		1	1	1				1				176
1															1									177
4											1	2	1											178
3			1														2							179
3				1								1					1							180
2										1			1											181
1												1												182
1												1												183
1				1																				184
1											1													185
1										1						1								186
1																								187
1	1																							190
200	1	1	3	3	3	4	3	7	8	11	28	24	19	18	17	7	12	10	7	6	4	2	2

Рис.4

Для случайной величины Y, используя (1), получим H=2, число интервалов равно 13. Результаты внесём в таблицу со сгруппированными данными №11.

Находим средние значения , по формулам:

, (22)

, (23)

, (24)

. (25)

149,5*86+155,5(82+…+90)+…+188,5*104=2986101

Используя формулы:

, (26)

, (27)

Получим

=,=

Таблица 11

Сгруппированные данные выборки

№		1	2	3	4	5	6	7	8	9	10	11	12	13	14
	XY	149,5	152,5	155,5	158,5	161,5	164,5	167,5170,5173,5	170,5	173,5	176,5	179,5	182,5	185,5	188,5
1	80				1	3		3	1							8
2	82			1	2	1	3	3	2		1					13
3	84			1	1	2	9	3	1	2		3				22
4	86	1		1	2		7	5	1	1	3			1		24
5	88			1		6	7	10	6	4	2	1				37
6	90			1	1	4	6	9	14	9	4	1	2	1		52
7	92					3	1	6	3		4	1		1		19
8	94					1	4		3	1	1					10
9	96						1		3	3						7
10	98								3			2	1			6
11	100					1										1
12	102
13	104														1	1
		1		5	7	21	38	39	38	21	15	8	3	3	1	200

4) Вычисляем выборочный коэффициент корреляции по формуле:

. (28)

Принято считать, что если 0,1<<0,3 – связь слабая, если 0,3<<0,5 – связь умеренная, если 0,5<<0,7 – связь заметная, если 0,7<<0,9 – связь высокая, если 0,9<<0,99 – связь весьма высокая.

Для данного примера связь между X и Y умеренная.

Затем получают выборочное уравнение линейной регрессии Y на X в виде:

(29)

И выборочное уравнение линейной регрессии X на Y :

. (30)

или

Вычисления сумм рекомендуем проводить с помощью пакетов прикладных математических программ (сегодня их существует много).

< Предыдущая		Следующая >