Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладная статистика

..pdf
Скачиваний:
7
Добавлен:
12.11.2023
Размер:
9.53 Mб
Скачать

Эти прямые показаны на рис. 3.2. Прямые не так близки, как в случае с текстом, масса монеты нс столь жестко связана с ее возрастом, как число слов и букв в предложении.

3.5 . ДРУГИЕ УРАВНЕНИЯ РЕГРЕССИИ

3.5Л. Парабола второго порядка

Уравнение имеет вид у ~ аж7+ Ьх + с, Метод ианмсЕ1Ы11нх квадратов дает такую систему линейных

уравнений относительно неизвестных коэффициентов я, Ь, с;

/

I

 

+ СЛ Х? = Т ,Х?У:>

 

I

/

« 5 > 3 + * 2 > ? + с 1 > ;

I

/

>

 

*

« 2 > ? +

I

+

с я = Н у ,-

. I

 

^

 

3,5.2,

Показательная функция

Уравнение имеет вид у

= Ьх°.

 

Прологарифмируем левую и правую части, для определен­

ности вычислим натуральные логарифмы

 

Ы{у) - аЩ х) + !п(Ь):

Обозначим /«(у) через/,, /л(д) через

1п(Ь) через Получа­

ем уравнение относительно неизвестных коэффициентов а и

^ ,= 0*1+ 6,.

Определив ПО методу наименьших квадратов числа а и А,,

найдем:

6 = е \

51

3.5.3.Степенная функция

Уравнение имеет вид у = Ьа\ Прологарифмировав левую и правую части, получим линей­

ное уравнение относительно неизвестных параметров:

 

У, = Я]Х-Мр,,

где у х= 1п[у),

ах= Ы{а)г

Ьх= Ы(Ь).

После определения параметров д, и Ьхнаходим числа а и Ь: а = е°1, Ь =

3.5.4.Гиперболическая функции

Уравнение имеет вид: у = — *— ,

ах +Ь

Положив у, = —. получим линейное уравнение относитель­

но а и Ь\

У

ух = ах + Ь>

Оболее сложных уравнениях регрессии можно прочитать в специальной литературе по корреляционному к регрессионному анализу.

3.5.5.0 квазилинейном уравнении регрессии

Уравнение регрессии будем называть квазилинейным. сели оно имеет вид:

У( ° \ . а2 >•••> а к>х)ш а , 1\{х) + а г 12 (х) + ... + а к А /* _ ,

Здесь 0| , а 2 ,...э — неизвестные параметры уравнения регрессии,//*),

/ 2 ( * ) , / ^_| (х) — заданные функции аргумента х.

Это уравнение линейно относительно неизвестных парамет­ ров, метод наименьших квадратов дает такую линейную систе­ му уравнений для определения значений а \ , а 2

52

«IЕ / 2 (*,-)<••••+вм Е Л (л ,)л .,(^ )+акХ/1 (*,)=2 Л (л )л ;

'

1

I

I

0|Е / |^ ) / 2(*<) + -

+0ы Е / 1(Л|)Л-|(Лг) +^ Е / 1(дг() =Е / 1<*ОЛ-

*

'

I

*

« .Е /|(^ )Л ч (л,)+...+<7*и ЕЛ :!-1(л,)+ ^ Е Л - 1 ^ )= 1 /* - |( л/)л ;

1

I

I*

I

« Е Л ( \ ) + - + «л-| Е Л - М

+акп=5> ,.

 

. I

I

I

 

Обозначим теоретические значения у(.в\> Я 2 ''" *а к* х г)

через З'Дл*, ) ИЛИ просто У;.

Левая часть последнего уравнения системы— сумма теорети­ ческих значении величины^, правая часть этого уравнения— сум­ ма выборочных (экспериментальных) значении этой величины. Таким образом, в случае квазилинейного уравнения регрессии, суммы теоретических и экспериментальных значений всличи-

ип

ны у равны: ^ у . = ^ у .л

/=1 /=1

Умножим теперь первое уравнение системы на а{>второе — на а ?1.п о с л е д н е е к-ь уравнение умножим на ак.. и сложим все уравнения. В результате получим равенство:

Е

у} = Е у>у>, или X Ъ( л - угУ= °-

г=1

(=1

' - 1

53

Рассмотри*!разность у , - у = {у — у / ) + (у$ ~~ у)- Обоз­

начим через и{разность у^ - у ^.. Из доказанных свойств вели­

чин У] вытекает, что

" = : ~ Х " ; = 0;

1 л № - ) 0 =О;

= Р

и/=|

/-)

 

 

" >-]

 

Отсюда следует равенство

 

 

 

- ю 2 = - 1 > 2

 

- у )2

 

Другими словами,

2

2

2,

 

 

2

 

 

 

 

2

где З у — дисперсия экспериментальных значении у ,

А'р —

дисперсия теоретических значении

У*. Она называется объяс­

ненной: дисперсией, ведь значения у г однозначно определяют­ ся уравнением регрессни и обладают диенерепей только в том

смысле, что разным значениям архумента х соответствуют раз­

ные значения функции (.V). Число называется остаточной

(необъясненнонЧ дисперсией. Это — дисперсия разностей (ос­

татков, отклонений) у ( — У[. Эти разности нс имеют никако­ го отношения к уравнению регрессии и поэтому нс могут быть объяснены с точки зрения уравнения регрессии. Чем сильнее эк­

спериментальные значения отклоняются от теоретических, тем

больше число тем хуже уравнение регрессии соответству­

ет экспериментальным данным (объясняет экспериментальные данные).

Из сказанного вытекает, что всегда х 2 ^ Л

и равенство

достигаете*,если у { ~У;, / = 1,2...... п. ' у

у

 

54

3.5.6. Пример построения нелинейного уравнения регрессии

В качестве примера рассмотрим данные из табл. 3.4, где указаны объемы производства (хр 1000 т) и фермерская цена (^доллар за I т), скорректированная на индекс потребительских цен вишни в СШЛ в 1954-1969 гг.

Таблица 3.4

Год 1954 1955 1956 1957 1958 1959 1960 1961 1962 196) 1964 1965 1966 1967 1968 1969 204 260 168 239 192 218 185 266 276 150 344 248 200 198 228 278

У, 267 174 228 208 225 243 227 217 163 345 154 165 299 325 294 188

Как правило, зависимость между ценой и объемом произ­ водства товара нелинейна. Диаграмма рассеяния для данного примера показана на рис. 3.5. Какой-либо отчетливой зависи­ мости между значениями величин лг и_у на диаграмме рассеяния не видно. Но о приблизительно линейной пли параболической зависимости сказать вес же можно. Подкрепим эти рассуждения расчетами.

Рис. 3.5

Если вычислить по этим данным выборочный коэффициент корреляции, то получим, что г = -0,738, а это достаточно близ­ ко к 1. Ниже мы постараемся обосновать, почему парабола всетаки несколько лучше описывает эти данные, чем прямая. Коэф­ фициенты системы пикейных уравнений таковы:

55

» = 16;

5 > , =3654;

= 870918;

=216509904;

^ Х *

=56063591922;

^ У , = 3 7 2 2 ; х,у, = 817695;

=187221051.

Система для определения коэффициентов а , Ь, с параболического уравнения регрессии у = ах? + Ъх+ с получилась такой:

560635919220 + 2165099046 + 870918с=187221051;

2 16509904л + 8709186 + 3654с = 8 17695,

870918а 4-36546 + 16с = 3722.

Решение этой системы:

 

 

а = 0,00173;

Ь= -1,723;

с -532,00.

Следовательно, у - 0,00173л2 - 1,723л + 532. Коэффициента близок кнулю, это означпет, что полученная

парабола не слишком отличается от прямой линии.

Линейное уравнение регрессии, полученное по методу на­ именьших квадратов, таково: у = -0,887х + 435,18.

Графики функций ^(х) = -0,00173л2- 1,723т + 532 и уа(х) = -0,887л + 435,18 показаны на рис. 3.5, Если теперь рассчитать суммы квадратов отклонений:

которые миннмиэируются при использовании метода наимень­ ших квадратов, то после округления ^ = 23953; Д2= 23481. Раз­ ница, конечно, невелика, но рассеянно экспериментальных то­ чек вокруг параболы всо-такк меньше, чем вокруг прямой.

56

3 * 6 Ь Р А С Ч Е Т К О Э Ф Ф И Ц И Е Н Т О В

ЛИ Н Е Й Н О ГО у р а в н е н и я р е г р е с с и и

ПО С ГРУ П П И РО ВАН Н Ы М Д А Н Н Ы М

При большом объеме и двумерной выборки ес группируют, получая так называемую корреляционную таблицу (табл. 3.5). Каждый из диапазонов значений составляющих двумерной вы­ борки разбивают на несколько интервалов, как поавмло, оди­ наковой ширины. Затем подсчитывают частоты каждого из получившихся прямоугольников группировки— число пар дву­ мерной выборки, попавших в данный прямоугольник.

Обозначения:

к — число интервалов группировки по составляющей л дву­ мерной выборки;

x, — середина /-го интервала группировки по составляющей х; «. — частота /-го интервала группировки по составляющейх, I = 1, 2,.., к; ш — число интервалов группировки по состав­

илющей у\

y. — серединау-го интервала группировки но составляющейу\ ( — частотау-го интервала группировки по составляющей^,

}*•*2,...»

п— частоты прямоугольников группировки;

п— объем двумерной выборки.

 

 

Таблица 3.5

Середины интервалов х,

Середини интервалову,

Сум.ма частот

 

У У 1.У ,-У ш

 

 

л„ л|Г

 

 

"и ли ...

"1

 

л„

 

'Т*

»„ " а - " * - “и

«1

Сумма частот

 

и

57

Следующие соотношения очевидны:

 

2 > , = 1 Л = Х 5 Х =

/

Е « « = ><■

/

' /

г

Расчеты, выполненные по сгруппированной выборке, отлича­ ются, конечно, от расчетов, выполненных непосредственно по ис­ ходным данным. Разнила получается вследствие перехода к сере­ динам интервалов. Но ода, как правило, невелика, а вычисления по сгруппированной выборке получаются намного проще.

3 .7 . И Н Д Е К С К О Р Р Е Л Я Ц И И

Выборочный коэффициент корреляции г является мерой ли­ нейной связи между составляющими двумерной выборки. Если такая связь существует, но нс является линейной, значение г нс может служить ее мерой. Чтобы оценить, насколько хорошо со­ ответствует экспериментальным данным некоторое квазилиней­ ное уравнение регрессия у =/(х), используют индекс корреля­ ции Д , определяемый формулой:

д а , ) - я 2

* * - Ни-л*

Если экспериментальные числам, совладают с теоретически­ ми значениями X*;) (точки у ) на диаграмме рассеяния лежат на кривой у =/(х)), то Я)х = 1.

Так как всегда ^ 2

2, то 0 < Л < ],

Чем ближе к 1 число

, тем точнее уравнение регрессии

соответствует эхелериментальным данным, тем сильнее связь между значениями составляющих двумерной выборки.

58

Пример, Найдем индекс корреляции между объемом произ­ водства ватин к ценой вишни (пункт 3.5.6) при описании зави­ симости многочленом второго порядка. Расчетные дэесныс:

« =

= 3722;

у = 232,625;

= 13853284;

 

2 > (3 = 918446;

»Т.(Лх^ ~ у)2

= 471442,88;

*I

Я= 0,748, что несколько больше, чем модуль выборочно­ го коэффициента корреляции г (г = -0,738). Мы получили под? тнержделие, что параболическое уравнение лучше соответству­ ет опытным данным, чем линейное.

Индекс корреляции нс позволяет определить, положитель­ ной или отрицательной является корреляция между величинами у и х (растут или убывают значения у с ростом *)? Эго можно сделать по виду диаграммы рассеяния и графика соответствую­ щего уравнения рирессни.

Взаключение отмелем, что, построив уравнение регрессии х

ту (х=#(у)), можно рассчитать индекс корреляции к^Ф Я ^ т.е. оценить, как х зависит от у.

3 .8 . И Н Д Е К С Ф Е Х Н Е Р А И К О Р Р Е Л Я Ц И О Н Н Н О Е О Т Н О Ш Е Н И Е

Здесь будут описаны два способа оценки степени связи меж­ ду составляющими двумерной выборки без использования урав­ нения регрессии. Прежде всего постараемся уточнить, что под­ разумевается под термином «связь». Бедь если нет уравнения

у=/(х), связывающего аргумент * и зависимую переменную у, понятие «связь» становится расплывчатым, Будем говорить, что между составляющими двумерной выборки существует положи­ тельная корреляция (связь), если с ростом значений .т значения

упроявляют тенденцию к возрастанию. Соответственно говорят об отрицательной корреляции между я и у, если с ростом значс-

59

ннк х значения у проявляют тенденцию к убыванию. Конечно, н формулировку «проявлять тенденцию к» нельзя назвать стро­ гой. Ко на интуитивном уровне она представляется пошпион.

Г. Фехлер (1801-1887), немецкий психолог, предложил очень простой способ оценки степени такого рода связи. Для оп­ ределения индекса Фехнера вычисляют средние х, у, а затем для каждой пары (*г у) определяют знаки отклонений х, - х, у,-у . Дм каждой пары (х^у) возможны четыре сочетания знаков: + +; + - • - + ; — . Обозначим через V количество совладений, через №— количество несовпадений знаков. Половину случаев хй= х нлну,= у относят к У%половину — к }У. Индекс Фехнера / определяется формулой I = (у-\У)/(У+\У).

Ясно, что -I < Г < 1 и что при / > 0 имеем положительную корреляцию, при / < 0 — отрицательную, при г = 0 связь в ука­ занном нами смысле отсутствует. Найдем индексы Фехнера для примеров из §3.1.

Пример с текстом. Пары знаков получаются такими:

(- -), (- -X (- -х (+ +х (- -х (- -) <+ +) (- -) (++Х (++Х

Отсюда V - 10, И/ = 0, /, = 1.

Пример с монетами. Пары знаков следующие:

(- +Х (-+Х (- +х <- +Х (- +Х<+-х (+ -) (+ +Х <+-х (+

Значит V - 1, IV= 9 ,12= -0,8.

Пример с кубккамн. Последовательность пар знаков:

(0+Х (+ -х (+ -X (— X (- (+ -х (-)• (+ +■>.(+ -X (+ +).

Боли просто не учитывать первую пару {дг, = х - 4), то У= 4, ^ = 5 ,^ = - 0,11.

Если поделить единицу пополам, то Р = 4,5; IV= 5,5, /3= -0,1. Корреляционное отношение как мера тесноты связи между составляющими двумерной выборки было предложено К. Пирсо­ ном. Оно вычисляется по корреляционной таблице, а расчетная формула аналогична формуле для индекса корреляции. В допол­ нение к обозначениям § 3.6 введем еще одно. Через у( обозначим

так называемое частное среднее значений у для /-го значения х :

60