книги / Прикладная статистика
..pdf2. Из большого мешка, содержащего монеты одинакового достоинства, случайным образом отобраны КО монет. Каждая монета была взвешена, и для каждой определен сс возраст:
Монета |
|
1 |
2 |
|
3 |
4 |
5 |
б |
7 |
8 |
|
9 |
10 |
Время |
обра |
5 |
9 |
|
14 |
17 |
23 |
31 |
35 |
42 |
|
46 |
50" |
щения, лет (х,) |
|
|
|
|
|
|
|
|
|
|
|
|
|
Масса, г (у;) |
2,82 |
2,85 |
2,80 |
2,80 |
2,79 |
2,78 |
2,77 |
2.79 |
|
2,75 |
2,72 |
||
3. Результаты подбрасывания двух кубиков: |
|
|
|
|
|||||||||
Кв подбрасывания |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
||
Число |
очков, |
выпав |
4 |
б |
5 |
1 |
1 |
5 |
1 |
5 |
б |
6 |
|
шее на 1-м кубике |
|
|
|
|
|
|
|
|
|
|
|
||
Число |
очков, |
выпав |
5 |
1 |
2 |
3 |
6 |
1 |
1 |
б |
2 |
6 |
|
шее на 2-м кубике |
|
|
|
|
|
|
|
|
|
|
|
3 .2 . Г Р А Ф И Ч Е С К О Е П Р Е Д С Т А В Л Е Н И Е
ДВ У М Е Р Н Ы Х В Ы Б О Р О К —
ДИ А Г Р А М М Ы Р А С С Е Я Н И Я
Графическое представление одномерной выборки — это гис тограмма. Двумерные выборки удобно представлять с помощью так называемых диаграмм рассеяния. Каждый элемент двумерной выборки представляется точкой на плоскости с координатами (хр у), /= 1 ,2 ......п. Диаграммы рассеяния, представляющие дву мерные выборки из наших примеров, приведены на рис. 3Л -3.3.
На рис. 3.] хорошо видно, что точки на диаграмме рассеяния группируются относительно некоторой прямой, причем чем боль ше слов в предложении, тем больше в нем букв. В таком случае говорят, что между числом слов и числом букв в предложении существует положительная линейная корреляция (слово «кор реляция» означает связь). Во втором случае (см. рис. 3.2) хоро шо заметна отрицательная линейная корреляция между массой монеты и ес возрастом. Точки на третьей диаграмме рассеяния
41
(см. рнс. 3.3) расположены хаотически Следует допустить от сутствие связи между числом очков, выпавшим на первом ку бике, н числом очков, выпавшим на втором. Другими словами разумно предположить, что случайные величины Х и У— числа очков, выпавшие на нервом и втором кубике соответственно, независимы.
Слова и предложения
У
42
|
1 V |
х у |
|
2 л л - |
|
г |
«/»! |
|
|
|
Нетрудно убедиться в следующих свойствах выборочного коэффициента корреляции:
1. И < 1 .
2. | г | = ] тогда и только тогда, когда точки (х, у ) лежат на одной прямой.
3. Если точки {хку) расположены на диаграмме рассеяния ха отически* то значение г весьма близко к нулю. Значение г может оказаться близким к нулю и б случае группировки точек относи тельно некоторой кривой, например, параболы.
Вычислим значениевыборочногокоэффициента корреляции для нашихтрех случаев. Для удобства будем использовать таблицы.
Пример с текстом (табл. 3.1). |
|
|
|
||
|
|
|
|
|
Таблица 3.1 |
I |
** |
у, |
ВД |
V |
Я* |
1 |
3 |
12 |
36 |
9 |
144 |
2 |
8 |
41 |
328 |
64 |
1681 |
3 |
19 |
122 |
2318 |
261 |
14884 |
4 |
41 |
203 |
8323 |
1681 |
41209 |
5 |
22 |
106 |
2332 |
484 |
(1236 |
6 |
12 |
52 |
624 |
144 |
2704 |
7 |
35 |
197 |
6895 |
1225 |
38809 |
8 |
9 |
42 |
378 |
81 |
1764 |
9 |
72 |
439 |
31608 |
5184 |
192721 |
10 |
53 |
247 |
13091 |
2809 |
61009 |
Сумма |
274 | |
М61 |
65933 |
12042 |
366161 |
Отсюда: |
|
|
|
|
|
ж= 27,4; |
% = 1204,2 - 27,4» |
= 453,44; |
5 |
= 21,3; |
|
у = 146,1; |
8 * = 36616,1 - 146’ = 15270,9; |
/ |
= 123,58; |
44
I 10 |
= 6593,3; г = |
6593,3 - 27,4 х 146,1 |
|
Гг Х л ^ |
21,3x123,58 |
“ °>984 • |
|
|
|
Это знамение весьма близко к единице. Число букв и число слов в предложении почти линейно зависят друг от друга.
Пример с монетами (табл. 3.2)
|
|
|
|
|
Таблица 3.2 |
1 |
------- |
У* |
*<У. |
.т,1 |
у} |
1 |
5 |
2,82 |
14,1 |
25 |
7,95 |
2 |
9 |
2,85 |
25.65 |
81 |
8,12 |
3 |
14 |
2,80 |
39,2 |
196 |
7,84 |
4 |
17 |
2,80 |
47,6 |
289 |
7.84 |
5 |
23 |
2,79 |
64.17 |
529 |
7,78 |
6 |
31 |
2,78 |
86,18 |
961 |
7,73 |
7 |
35 |
2,77 |
96,95 |
1225 |
7,67 |
8 |
42 |
2,79 |
117,18 |
1764 |
7,78 |
9 |
46 |
2,75 |
126,5 |
2116 |
7,56 |
10 |
50 |
2,72 |
136 |
2500 |
7,40 |
Сумма |
272 |
27,87 |
753,53 |
9686 |
77,67 |
75,353-27,2x2,787
Г = — -------------- ------= -0,83 15,13x0,036
Такое значение г указывает на достаточно сильную отрица тельную линейную зависимость между возрастом монеты к ее
массой. |
|
|
|
|
|
Пример с кубиками (табл. 3.3). |
|
|
|
||
|
|
|
|
|
Таблица3.3 |
1 |
*| |
У. |
ад |
*,2 |
У,2 |
1 |
4 |
5 |
20 |
16 |
25 |
2 |
6 |
1 |
6 |
36 |
1 |
3 |
5 |
2 |
10 |
25 |
4 |
4 |
1 |
3 |
Э |
1 |
9 |
5 |
1 |
6 |
6 |
1 |
36 |
6 |
5 |
1 |
5 |
25 |
1 |
45
|
|
|
|
О к о н 4 0 1 Ш С IТ М & 1. 3 . 3 |
|
|
X, |
У, |
х,У. |
х.1 |
у! |
7 |
1 |
1 |
1 |
] |
1 |
8 |
5 |
6 |
30 |
25 |
36 |
9 |
б |
2 |
12 |
36 |
4 |
10 |
б |
6 |
36 |
36 |
36 |
Сумма |
40 |
33 |
129 |
202 |
153 |
|
Ц |
9 - 4 х у , |
|
|
|
2.05x2,1
Такое маленькое значение г указывает на отсутствие связи между результатами бросании кубиков, что соответствует инту итивному представлению о независимости бросаний.
I |
“ |
- х у будем обозначать |
В дальнейшем выражение — X |
||
п |
I |
|
через 8^ и назовем его выборочной ковариацией.
3 .4 . М Е Т О Д Н А И М Е Н Ь Ш И Х К В А Д Р А Т О В
Обратимся к примеру с текстом. На рис. 3.1 хорошо видно, что точки (ХрУ) группируются около прямой. Естественным об разом возникает задача подбора уравнения этой прямой. Напри мер, для того, чтобы предсказать, скольхо примерно букв будет содержать предложение с заданным количеством слов, можно подобрать два уравнения:
у = ах + Ь (независимая переменная — число слов, функция — число букв);
х ^ с у + с1(независимая переменная — число букв, функция — число слов).
Каэдос из таких уравнений называется уравнением регрес сии, (Слово «прогресс» означает развитие, движение вперед, слово «регресс» означает упрощение, движение назад). В случае уравнения^ = ах + Ь говорят о регрессии^на х\ в случае уравне ния х = су + </говорят о регрессия х на у.
46
В нашем примере каждая из переменных, как г, так и у, мо жет быть объявлена независимой. Возможны ситуации, когда независимая переменная определяется однозначно. Например, можно исследовать растворимость некоторого вещества (пере менная^) в зависимости от температуры растворителя (перемен ная дг). Здесь х — независимая переменная, ее значение можно установить заранее, а у — статистически зависимая переменная. Исследуется только зависимость у от х.
Допустим, мы хотим подобрать коэффициенты уравнения у = ах + Ь так, чтобы это уравнение паилучшим образом соот ветствовало экспериментальным данным (хр р); / = 1 , 2 Но ведь понятие «па илучшим образом» нс является строгим. Меж ду точками на рис. 3.1 можно провести бесконечно много «хоро ших» прямых. Какая же из них «лучшая»?
Общепринятым способом определения неизвестных коэффи циентов уравнения регрессии является метод наименьших квад ратов, разработанпый А. Лежандром (1806) и К. Гауссом (1821). Идея метода наименьших квадратов такова. Пусть нужно подоб рать неизвестные коэффициенты а, а2,.. .%акуравнения регрессии у =Лах,а2,...,ак>х). Рассмотрим экспериментальную точку (.эд) и вычислим отклонение ординаты уточки от теоретического зна- ч е н и я Д о ,,^ ...^ дг,) (рис. 3.4).
<*= У<-Аа \*а2'"*ак' *) » *
47
Неизвестные значения а{>а2Г..}ал подберем из условия мини мизации суммы квадратов отклонений </.:
5 = Т/*} = М1 /=]
Необходимое (здесь и достаточное) условие существова ния экстремума функции нескольких переменных — равенство
нулю всех частных производных. |
зд |
ЙУ |
Если приравнять к нулю частные производные |
|
Я», » |
получится система из к уравнений для определения к неизвест ных чисел а^а2,.„,ак.
Составим эту систему и решим ее в случае линейного урав нения регрессии. Нужно определить два неизвестных коэффи циента а к Ь уравнения прямой у = ах + Ь, Имеем:
~ (щ +6)Г ----- |
>щш, |
» --| |
|
Раскрывая скобки, подучаем: |
|
АС |
ГГ |
до |
Я |
|
— |
=>~2^х,[у, - (ах, + Ь ) ] = 0 ,- = -2 'Ё Ь’<~ |
+ *)]= О |
||
“* |
!=\ |
дь |
/=| |
|
Разделим второе уравнение системы на ш Уравнение примет вид у = ах + 6, откуда 6 = у-<?х.
Разделим на п первое уравнение системы и подставим в него полученное выражение Ь через а. После несложных преобразо
ваний имеем; |
„ |
^ = • ^ = > 0 = ^ 2 . |
|
Итак, 0=^/5/; |
Ь=у-ах. * |
Уравнение у = ах + Ь можно переписать в виде:
(У -У ) = ^ - ( х ~ П
Следовательно, наша прямая проходит через точку (У; у).
48
Аналогично определяют коэффициенты с и с1 линейного уравнения регрессии х на у> х = су + с1.
|
с ~ К у |
с?=х-су. |
Само уравнение можно записать так: |
||
|
( * - Я = % |
0 - Я . |
В этом случае минимизируется сумма квадратов отклонении |
||
по координате х: |
|
|
•? = 1 Х |
= Е [ * , - < * У ]-»"•»» |
|
Ы |
|=| |
|
Наилем коэффициенты линейных уравнения регрессия у на * и* иду для примеров с текстом и монетами. Вес необходимые расчеты уже были сделаны при вычислении коэффициентов
корреляции (ем. пункт 3.3). |
|
|
Пример с текстом; |
] ю |
|
х = 27,4; |
у = 146,1; |
= 6593,3; |
■У2= 453,44; |
5 2= 15270,9. |
и |
Тогда |
|
|
Я, = 6593,3 - 27,4 * 146,1 = 2590,3;
а% = 2 5 * У б =5>71. 453,44
Ь = у - а х = 146,1 - |
5,71 * 27,4 = -10,36. |
|
|
|
||||
Уравнение регрессии у на х таково: у |
- 5,71* - |
10,36, |
||||||
Вычислим несколько значений^ для разных х\ |
|
|
||||||
X |
10 |
20 |
30 |
40 |
50 |
|
60 |
70 |
У |
46,7 |
103,8 |
160,9 |
218,0 |
275,1 |
332,2 |
389,3 |
|
Найдем коэффициенты с я |
уравнения регрессии х на у: |
49
с = |
2590,16 |
= 0,17;*/=х - су = 2,56. |
|
|
||
|
15270,9 |
|
|
|
|
|
Тогда х = 0,17/ +■2,56. |
|
|
|
|
||
Вычислим несколько значений х для разных у: |
|
|||||
У |
10 |
50 |
100 |
200 |
300 |
400 |
X |
4,3 |
12,1 |
19,6 |
36,6 |
53,6 |
70,6 |
Эти прямые приведены на рис, 4.1. Прямые почти совпада ют — еще одно доказательство сильной линейной зависимости между числом слов и числом букв в предложении.
Пример с монетами:
х = 27,2;у=2,ПТ, — ^ х , у , = 75,353; 5 2= 228,76;
10 н
$ / = 0,00129;
5 ; = 75.353 - 27,2 * 2,787 = -0,45; й = | т = |
= - 0-002: |
Ь= у - а х =2,787 + 0,002 х 27,2= 2,84. Тогда/ - -0,002* + 2,84.
Коэффициент а отрицателен и очень мал. Несколько значе
ний/;
X |
5 |
20 |
35 |
50 |
У |
2,83 |
2,80 |
2,77 |
2,74 |
с = - * - = - ° ‘4— = -348,84: |
4 = х - с у = 9 99,4. |
|||
8 * 0,00129 |
|
|
|
Уравнение регрессии * на/: х - -348,84/ + 999,4. Несколько значений х:
У |
2,85 |
2,80 |
2,79 |
2,78 |
2,77 |
2,75 |
X |
5.2 |
22,6 |
26,1 |
29,6 |
33,1 |
40,1 |
50