Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладная статистика

..pdf
Скачиваний:
7
Добавлен:
12.11.2023
Размер:
9.53 Mб
Скачать

2. Из большого мешка, содержащего монеты одинакового достоинства, случайным образом отобраны КО монет. Каждая монета была взвешена, и для каждой определен сс возраст:

Монета

 

1

2

 

3

4

5

б

7

8

 

9

10

Время

обра­

5

9

 

14

17

23

31

35

42

 

46

50"

щения, лет (х,)

 

 

 

 

 

 

 

 

 

 

 

 

Масса, г (у;)

2,82

2,85

2,80

2,80

2,79

2,78

2,77

2.79

 

2,75

2,72

3. Результаты подбрасывания двух кубиков:

 

 

 

 

Кв подбрасывания

 

1

2

3

4

5

6

7

8

9

10

Число

очков,

выпав­

4

б

5

1

1

5

1

5

б

6

шее на 1-м кубике

 

 

 

 

 

 

 

 

 

 

 

Число

очков,

выпав­

5

1

2

3

6

1

1

б

2

6

шее на 2-м кубике

 

 

 

 

 

 

 

 

 

 

 

3 .2 . Г Р А Ф И Ч Е С К О Е П Р Е Д С Т А В Л Е Н И Е

ДВ У М Е Р Н Ы Х В Ы Б О Р О К —

ДИ А Г Р А М М Ы Р А С С Е Я Н И Я

Графическое представление одномерной выборки — это гис­ тограмма. Двумерные выборки удобно представлять с помощью так называемых диаграмм рассеяния. Каждый элемент двумерной выборки представляется точкой на плоскости с координатами (хр у), /= 1 ,2 ......п. Диаграммы рассеяния, представляющие дву­ мерные выборки из наших примеров, приведены на рис. 3Л -3.3.

На рис. 3.] хорошо видно, что точки на диаграмме рассеяния группируются относительно некоторой прямой, причем чем боль­ ше слов в предложении, тем больше в нем букв. В таком случае говорят, что между числом слов и числом букв в предложении существует положительная линейная корреляция (слово «кор­ реляция» означает связь). Во втором случае (см. рис. 3.2) хоро­ шо заметна отрицательная линейная корреляция между массой монеты и ес возрастом. Точки на третьей диаграмме рассеяния

41

(см. рнс. 3.3) расположены хаотически Следует допустить от­ сутствие связи между числом очков, выпавшим на первом ку­ бике, н числом очков, выпавшим на втором. Другими словами разумно предположить, что случайные величины Х и У— числа очков, выпавшие на нервом и втором кубике соответственно, независимы.

Слова и предложения

У

42

 

1 V

х у

 

2 л л -

г

«/»!

 

 

 

Нетрудно убедиться в следующих свойствах выборочного коэффициента корреляции:

1. И < 1 .

2. | г | = ] тогда и только тогда, когда точки (х, у ) лежат на одной прямой.

3. Если точки {хку) расположены на диаграмме рассеяния ха­ отически* то значение г весьма близко к нулю. Значение г может оказаться близким к нулю и б случае группировки точек относи­ тельно некоторой кривой, например, параболы.

Вычислим значениевыборочногокоэффициента корреляции для нашихтрех случаев. Для удобства будем использовать таблицы.

Пример с текстом (табл. 3.1).

 

 

 

 

 

 

 

 

Таблица 3.1

I

**

у,

ВД

V

Я*

1

3

12

36

9

144

2

8

41

328

64

1681

3

19

122

2318

261

14884

4

41

203

8323

1681

41209

5

22

106

2332

484

(1236

6

12

52

624

144

2704

7

35

197

6895

1225

38809

8

9

42

378

81

1764

9

72

439

31608

5184

192721

10

53

247

13091

2809

61009

Сумма

274 |

М61

65933

12042

366161

Отсюда:

 

 

 

 

 

ж= 27,4;

% = 1204,2 - 27,4»

= 453,44;

5

= 21,3;

у = 146,1;

8 * = 36616,1 - 146’ = 15270,9;

/

= 123,58;

44

I 10

= 6593,3; г =

6593,3 - 27,4 х 146,1

 

Гг Х л ^

21,3x123,58

“ °>984 •

 

 

Это знамение весьма близко к единице. Число букв и число слов в предложении почти линейно зависят друг от друга.

Пример с монетами (табл. 3.2)

 

 

 

 

 

Таблица 3.2

1

-------

У*

*<У.

.т,1

у}

1

5

2,82

14,1

25

7,95

2

9

2,85

25.65

81

8,12

3

14

2,80

39,2

196

7,84

4

17

2,80

47,6

289

7.84

5

23

2,79

64.17

529

7,78

6

31

2,78

86,18

961

7,73

7

35

2,77

96,95

1225

7,67

8

42

2,79

117,18

1764

7,78

9

46

2,75

126,5

2116

7,56

10

50

2,72

136

2500

7,40

Сумма

272

27,87

753,53

9686

77,67

75,353-27,2x2,787

Г = -------------- ------= -0,83 15,13x0,036

Такое значение г указывает на достаточно сильную отрица­ тельную линейную зависимость между возрастом монеты к ее

массой.

 

 

 

 

 

Пример с кубиками (табл. 3.3).

 

 

 

 

 

 

 

 

Таблица3.3

1

*|

У.

ад

*,2

У,2

1

4

5

20

16

25

2

6

1

6

36

1

3

5

2

10

25

4

4

1

3

Э

1

9

5

1

6

6

1

36

6

5

1

5

25

1

45

 

 

 

 

О к о н 4 0 1 Ш С IТ М & 1. 3 . 3

 

X,

У,

х,У.

х.1

у!

7

1

1

1

]

1

8

5

6

30

25

36

9

б

2

12

36

4

10

б

6

36

36

36

Сумма

40

33

129

202

153

 

Ц

9 - 4 х у ,

 

 

 

2.05x2,1

Такое маленькое значение г указывает на отсутствие связи между результатами бросании кубиков, что соответствует инту­ итивному представлению о независимости бросаний.

I

- х у будем обозначать

В дальнейшем выражение — X

п

I

 

через 8^ и назовем его выборочной ковариацией.

3 .4 . М Е Т О Д Н А И М Е Н Ь Ш И Х К В А Д Р А Т О В

Обратимся к примеру с текстом. На рис. 3.1 хорошо видно, что точки (ХрУ) группируются около прямой. Естественным об­ разом возникает задача подбора уравнения этой прямой. Напри­ мер, для того, чтобы предсказать, скольхо примерно букв будет содержать предложение с заданным количеством слов, можно подобрать два уравнения:

у = ах + Ь (независимая переменная — число слов, функция — число букв);

х ^ с у + с1(независимая переменная — число букв, функция — число слов).

Каэдос из таких уравнений называется уравнением регрес­ сии, (Слово «прогресс» означает развитие, движение вперед, слово «регресс» означает упрощение, движение назад). В случае уравнения^ = ах + Ь говорят о регрессии^на х\ в случае уравне­ ния х = су + </говорят о регрессия х на у.

46

В нашем примере каждая из переменных, как г, так и у, мо­ жет быть объявлена независимой. Возможны ситуации, когда независимая переменная определяется однозначно. Например, можно исследовать растворимость некоторого вещества (пере­ менная^) в зависимости от температуры растворителя (перемен­ ная дг). Здесь х — независимая переменная, ее значение можно установить заранее, а у — статистически зависимая переменная. Исследуется только зависимость у от х.

Допустим, мы хотим подобрать коэффициенты уравнения у = ах + Ь так, чтобы это уравнение паилучшим образом соот­ ветствовало экспериментальным данным (хр р); / = 1 , 2 Но ведь понятие «па илучшим образом» нс является строгим. Меж­ ду точками на рис. 3.1 можно провести бесконечно много «хоро­ ших» прямых. Какая же из них «лучшая»?

Общепринятым способом определения неизвестных коэффи­ циентов уравнения регрессии является метод наименьших квад­ ратов, разработанпый А. Лежандром (1806) и К. Гауссом (1821). Идея метода наименьших квадратов такова. Пусть нужно подоб­ рать неизвестные коэффициенты а, а2,.. .%акуравнения регрессии у =Лах,а2,...,ак>х). Рассмотрим экспериментальную точку (.эд) и вычислим отклонение ординаты уточки от теоретического зна- ч е н и я Д о ,,^ ...^ дг,) (рис. 3.4).

<*= У<-Аа \*а2'"*ак' *) » *

47

~ Д а]»«2-■-П)г-^)]2----->п“ п-

Неизвестные значения а{>а2Г..}ал подберем из условия мини­ мизации суммы квадратов отклонений </.:

5 = Т/*} = М1 /=]

Необходимое (здесь и достаточное) условие существова­ ния экстремума функции нескольких переменных — равенство

нулю всех частных производных.

зд

ЙУ

Если приравнять к нулю частные производные

 

Я», »

получится система из к уравнений для определения к неизвест­ ных чисел а^а2,.„,ак.

Составим эту систему и решим ее в случае линейного урав­ нения регрессии. Нужно определить два неизвестных коэффи­ циента а к Ь уравнения прямой у = ах + Ь, Имеем:

~ (щ +6)Г -----

>щш,

» --|

 

Раскрывая скобки, подучаем:

 

АС

ГГ

до

Я

 

=>~2^х,[у, - (ах, + Ь ) ] = 0 ,- = -2 'Ё Ь’<~

+ *)]= О

“*

!=\

дь

/=|

 

Разделим второе уравнение системы на ш Уравнение примет вид у = ах + 6, откуда 6 = у-<?х.

Разделим на п первое уравнение системы и подставим в него полученное выражение Ь через а. После несложных преобразо­

ваний имеем;

^ = • ^ = > 0 = ^ 2 .

Итак, 0=^/5/;

Ь=у-ах. *

Уравнение у = ах + Ь можно переписать в виде:

(У -У ) = ^ - ( х ~ П

Следовательно, наша прямая проходит через точку (У; у).

48

Аналогично определяют коэффициенты с и с1 линейного уравнения регрессии х на у> х = су + с1.

 

с ~ К у

с?=х-су.

Само уравнение можно записать так:

 

( * - Я = %

0 - Я .

В этом случае минимизируется сумма квадратов отклонении

по координате х:

 

 

•? = 1 Х

= Е [ * , - < * У ]-»"•»»

Ы

|=|

 

Наилем коэффициенты линейных уравнения регрессия у на * и* иду для примеров с текстом и монетами. Вес необходимые расчеты уже были сделаны при вычислении коэффициентов

корреляции (ем. пункт 3.3).

 

Пример с текстом;

] ю

х = 27,4;

у = 146,1;

= 6593,3;

■У2= 453,44;

5 2= 15270,9.

и

Тогда

 

 

Я, = 6593,3 - 27,4 * 146,1 = 2590,3;

а% = 2 5 * У б =5>71. 453,44

Ь = у - а х = 146,1 -

5,71 * 27,4 = -10,36.

 

 

 

Уравнение регрессии у на х таково: у

- 5,71* -

10,36,

Вычислим несколько значений^ для разных х\

 

 

X

10

20

30

40

50

 

60

70

У

46,7

103,8

160,9

218,0

275,1

332,2

389,3

Найдем коэффициенты с я

уравнения регрессии х на у:

49

с =

2590,16

= 0,17;*/=х - су = 2,56.

 

 

 

15270,9

 

 

 

 

 

Тогда х = 0,17/ +■2,56.

 

 

 

 

Вычислим несколько значений х для разных у:

 

У

10

50

100

200

300

400

X

4,3

12,1

19,6

36,6

53,6

70,6

Эти прямые приведены на рис, 4.1. Прямые почти совпада­ ют — еще одно доказательство сильной линейной зависимости между числом слов и числом букв в предложении.

Пример с монетами:

х = 27,2;у=2,ПТ, — ^ х , у , = 75,353; 5 2= 228,76;

10 н

$ / = 0,00129;

5 ; = 75.353 - 27,2 * 2,787 = -0,45; й = | т =

= - 0-002:

Ь= у - а х =2,787 + 0,002 х 27,2= 2,84. Тогда/ - -0,002* + 2,84.

Коэффициент а отрицателен и очень мал. Несколько значе­

ний/;

X

5

20

35

50

У

2,83

2,80

2,77

2,74

с = - * - = - ° ‘4— = -348,84:

4 = х - с у = 9 99,4.

8 * 0,00129

 

 

 

Уравнение регрессии * на/: х - -348,84/ + 999,4. Несколько значений х:

У

2,85

2,80

2,79

2,78

2,77

2,75

X

5.2

22,6

26,1

29,6

33,1

40,1

50