Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

569

.pdf
Скачиваний:
2
Добавлен:
06.12.2022
Размер:
2.09 Mб
Скачать

7.Понятие надежности (доверительной вероятности) построения доверительного интервала.

8.Связь между уровнем значимости и доверительной вероятностью.

9.Связь между доверительной вероятностью и доверительным интервалом.

10.Связь между объемом выборки и доверительным интервалом. Как изменится доверительный интервал, если объем выборки устремить к бесконечности?

11.Верно ли утверждение: поскольку доверительный интервал стал шире, следовательно, доверительный интервал построен с большей надежностью?

12.Основная и альтернативная гипотезы. Двухсторонняя, правосторонняя и левосторонняя гипотезы.

13.Прямой и обратный метод проверки гипотез. Существует ли связь между данными методами?

14.Возможна ли ситуация, когда прямым методом гипотеза отвергнута, а обратным методом нет оснований отвергнуть данную гипотезу?

15.Влияет ли вид альтернативной гипотезы на методику принятия решения об отвержении гипотезы прямым методом? Обратным методом?

16.Ошибка первого и второго рода. Связь между данными ошибками.

17.Уровень значимости, мощность критерия.

18.Можно ли при проверке гипотезы установить вероятность совершения ошибки первого рода нулевой? Если нет, то почему?

19.Суть метода проверки гипотезы о том, что значение математического ожидания равняется значению b.

20.Суть метода проверки гипотезы о законе распределения. Основные ограничения критерия согласия Пирсона.

21.Критерий согласия и критерий Колмагорова—Смирнова.

41

4. ДИСПЕРСИОННЫЙ АНАЛИЗ

Это статистический метод анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, выбор наиболее важных факторов и оценки их влияния. Идея дисперсионного анализа заключается в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействие.

Сравнивая остаточную дисперсию, которая учитывает влияние неучтенных или случайных факторов, и дисперсию входного фактора Х, можно установить степень влияния фактора Х на величину Y по сравнению с неучтенными факторами.

4.1. Однофакторный дисперсионный анализ

На практике дисперсионный анализ применяют, чтобы установить, оказывает ли влияние некоторый качественный фактор Х, который имеет k уровней Х1, Х2, …, Хk (k — значений), на изучаемую величину Y.

В этом случае основная идея дисперсионного анализа состоит в сравнении факторной дисперсии (порождаемой воздействием фактора) и остаточной дисперсии (обусловленной случайными причинами). Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияние на Y. Средние наблюдаемых значений на каждом уровне (групповые средние) будут различаться также значимо.

Иногда дисперсионный анализ применяют, чтобы установить однородности нескольких совокупностей. То есть проверяют гипотезу о равенстве математических ожиданий в каж-

дой группе: Н0: М(Х1) = М(Х2) = … = М(Хk). Дисперсии этих совокупностей могут быть одинаковыми или различными.

Если гипотеза не отвергается, то однородные совокупности можно объединить в одну. Это позволяет получить более полную информацию и, следовательно, делать более надежные статистические выводы.

В этом случае дисперсионный анализ заключается в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействие.

42

4.2. Применение дисперсионного анализа для проверки гипотезы о несущественном влиянии качественного фактора на количественный фактор

Рассмотрим простейший одномерный случай.

Y — количественный нормально распределенный признак, на который воздействует фактор Х с k уровнями. Совокупности случайных величин имеют нормальное распределение и равные дисперсии.

Гипотеза Н0 о несущественности влияния качественного фактора на основной количественный показатель с уровнем значимости = 0,05 математически выглядит так:

H0 : y1 y2 ... yk; H1 : y1 y2 ... yk.

Суть метода дисперсионного анализа в данном случаи состоит в следующем. Для того чтобы проверить нулевую гипотезу о равенстве групповых средних НРСВ с одинаковыми дисперсиями, достаточно проверить по F-критерию нулевую гипотезу о равенстве факторной и остаточной дисперсий.

Переформатируем нашу выборку и вычислим значения

(табл. 6).

 

 

 

 

 

 

 

 

Таблица 6

 

Переформатированная выборка

 

 

 

 

 

 

 

 

 

 

Значения

Соответствующие значения

 

Среднеарифметическое

качественного

количественного фактора,

значение в группе, количество

 

фактора

попавшие в данную группу

наблюдений в данной группе

 

 

y11

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

n1

 

 

12

 

 

 

 

 

 

 

 

Х1

 

 

y1 ( y1i)/n1, n1

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

y1n

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

y21

 

 

 

 

 

 

 

 

 

y22

 

 

 

 

 

 

n2

 

Х2

 

 

 

y

2 ( y2i)/n2, n2

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

y2n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yk1

 

 

 

 

 

 

 

 

 

yk2

 

 

 

 

 

 

nk

 

Хk

 

 

y

k ( yki)/nk, nk

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

ykn

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

43

Вычислим среднеарифметическое значение фактора Y:

 

 

k

k

 

 

(

 

i)/k

и объем выборки n ni.

y

y

 

 

i 1

i 1

 

 

Вычислим суммы квадратов отклонения:

 

 

 

 

k

nj

SSобщ (yji

 

 

)2 — общая сумма квадратичного от-

y

j 1i 1

 

 

 

 

 

 

 

 

клонения;

 

 

 

 

 

 

 

 

 

k

 

 

 

SSфакт.межгрупповая ((

 

j

 

 

)2 nj) — факторная (межгруп-

y

y

 

j 1

 

 

 

повая) сумма квадратичного отклонения;

knj

SSост. внутригр (yji yj)2 — остаточная (внутригруп-

j 1 i 1

повая) сумма квадратичного отклонения. Имеет место следующее соотношение:

SSобщ SSфак SSост const.

max min

Воздействие фактора | Воздействие случайной величины.

Число степеней свободы (df) общая вычисляется как (n – 1); факторная — (k – 1); остаточная — (n – k).

Если сумму квадратов отклонения SSобщ разделить на соответствующее число степеней свободы, то получим исправленные выборочные дисперсии (среднеквадратичное отклонение), которые являются несмещенными оценками для генеральных дисперсий:

MSобщ Sобщ2 SSобщ /(n 1);

MSфакт Sфакт2 SSфакт /(k 1);

MSост Sост2 SSост /(n k).

Найдем значение статистики Фишера:

 

S2

SS

/(k 1)

 

Fнабл

факт

 

факт

 

.

Эта статистика подчинена

2

 

 

 

S

SS /(n k)

 

 

ост

ост

 

 

 

44

F-распределению с k – 1, n – k степенями свободы. На основании этой статистики найдем вычисленный уровень значимости выч. Если выч < , то гипотезу о равенстве выборочных средних отвергаем. Таким образом, получается, что качественный фактор X оказывает существенное влияние на количественный фактор Y.

4.3. Применение дисперсионного анализа для проверки гипотез о равенстве математических ожиданий двух нормально распределенных совокупностей с различными дисперсиями

Дисперсионный анализ в данном случае применяется для установления факта однородности нескольких совокупностей. Однородные совокупности можно объединить в одну, что позволит получить более полную информацию и, следовательно, делать более надежные статистические выводы.

Рассмотрим простейший случай, когда две анализируемые выборки {x1, x2, …, xn} и {y1, y2, …, ym} объемом соответственно n и m извлечены из совокупностей, имеющих нормальные распределения с неизвестными дисперсиями 12 и 22 и математическими ожиданиями 1 и 2 соответственно.

Уровень значимости для проверки гипотезы возьмем равным . Математическая формулировка гипотеза выглядит следующим образом:

H0 : 1 2;

H1 : 1 2.

По каждой выборке вычисляются выборочные средние и

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

1

n

выборочные дисперсии:

 

 

xi;

sx2

(xi

 

)2;

x

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

n 1 i 1

 

 

 

1

m

1

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi; sy2

(yi

 

 

)2. В качестве критериальной

 

y

y

 

 

 

 

 

 

m i 1

m 1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

статистики берется статистика

 

 

t

 

 

x

y

 

 

. Точное

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sx2 /n sy2 /m

распределение этой статистики достаточно сложно, но доказа-

45

но, что его можно аппроксимировать распределением Стьюдента, если взять число степеней свободы равным

k

 

(sx2 /n sy2 /m)2

 

 

 

.

 

(sx2 /n)2

 

(sy2 /m)2

 

 

 

n 1

m 1

 

 

 

Определяется критическое значение tкр как квантиль порядка 1 – /2 распределения Стьюдента с k степенями свободы. Гипотеза Н0 отвергается, если выполняется неравенство

| t | tкр.

Контрольные вопросы к разделу 4

1.Идея дисперсионного анализа. Основные направления использования дисперсионного анализа.

2.Однофакторный дисперсионный анализ.

3.Вычисление и назначение F-статистики.

4.Проверки гипотезы о несущественном влиянии качественного фактора на количественный фактор.

5.Понятие однородности выборок.

6.Проверка гипотезы о равенстве математических ожиданий двух нормально распределенных совокупностей с различными дисперсиями.

7.Многофакторный дисперсионный анализ.

5.КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗЫ

5.1. Элементы теории корреляционного и регрессионного анализа

Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин. Рассмотрим зависимость Y от одной величины X. X и Y могут быть связаны функциональной или статистической зависимостями, либо быть независимы (Р(АВ) = = Р(А)Р(В)). Строгая функциональная зависимость в природе встречается редко.

Статистической (стохастической, вероятностной) называют зависимость, при которой изменение одной влечет изменение распределения другой. Если изменение одной из величин вле-

46

чет изменение среднего значения другой, то такая зависимость называется корреляционной yx f(x), где yx — среднеарифметическое значение Y, соответствующее значению Х = х. Уравнение yx f(x) — это уравнение регрессии Y на Х;

f(x) — функция регрессии Y на Х. График f(x) — линия регрессии Y на Х.

Рассмотрим частный случай. Зависимость между Х и Y — линейная: Y* = bx + a = M[Y/X], где Х и Y — количественные признаки (рис. 28). Для отыскания коэффициентов уравнения необходимо провести n независимых испытаний: (x1, y1); (x2,y2); … (xn, yn). Поскольку наблюдаемые пары чисел можно рассматривать как случайную выборку из генеральной совокупности всех возможных значений случайной величины (X,Y), то уравнение прямой линии Y = by/xx + a называют выборочным уравнением регрессии Y на X, где by/x — выборочный коэффициент регрессии Y на X (тангенс угла наклона линии регрессии).

Рис. 28. Выборочное уравнение регрессии

Для отыскания коэффициентов используют метод наименьших квадратов (МНК). Для этого составляют следующий

n

 

 

функционал: Ф(b,a) (yi* yi)2, где

yi* bxi

a; yi

i 1

 

 

наблюдаемое значение фактора Y; xi наблюдаемое значение фактора X. Необходимо минимизировать функционал Ф(b, a) min. Из курса математического анализа известно, что для этого необходимо найти частные производные и приравнять их к нулю:

47

Ф

n

2 ((bxi a yi)xi) 0;

 

 

b

 

i 1

 

Ф

n

 

2 (bxi a yi) 0.

 

 

a

i 1

 

Раскрыв скобки, получим систему нормальных уравнений:

n

 

n

n

xi2b xi2a xiyi;

i 1

 

i 1

i 1

n

2

 

n

xi

b na

yi.

i 1

 

 

i 1

Решив эту систему, получим b и а значения коэффициентов в уравнении регрессии:

 

n

 

 

 

n

 

n

 

 

n xiyi xi yi

 

 

 

 

 

b

i 1

 

 

i 1

 

i 1

;

 

 

 

n

 

 

n

 

2

 

 

 

n xi2

 

xi

 

 

 

 

i 1

 

i 1

 

 

 

 

n

n

 

 

n

 

n

 

 

 

 

 

 

 

 

xi2 yi xi xiyi

a

i 1

i 1

 

 

i 1

i 1

.

 

 

 

 

 

 

 

2

 

 

 

 

n

2

 

n

 

 

 

 

 

n xi

 

xi

 

 

 

 

i 1

 

 

i 1

 

 

 

Функция регрессии показывает, каково будет в среднем значение случайной величины Y, если переменная X примет значение х.

Эту функцию можно использовать для прогноза (так как дает наименьшую среднюю погрешность оценки прогноза).

Можно ввести понятие выборочного коэффициента корреляции y/b, который связан с коэффициентом регрессии фор-

мулой y/b b Sx . Коэффициент корреляции является пока-

Sy

зателем тесноты линейной связи.

На практике используют следующую формулу для вычисления коэффициента корреляции:

48

n

B i 1 (xi x)(yi y) xy x y . nSxSy SxSy

При малом объеме выборки пользуются формулой

 

 

 

 

 

n

 

n

n

 

 

 

 

 

 

 

n( xiyi) xi yi

B

 

 

 

 

i 1

i 1

i 1

 

 

.

 

 

 

 

 

 

 

 

 

n

 

n

 

n

 

 

 

 

 

 

 

 

n

 

 

 

n xi

2

( xi)2

 

n yi2

( yi)2

 

 

 

i 1

 

i 1

 

i 1

 

i 1

Свойства коэффициента корреляции.

1. Выборочный коэффициент корреляции обладает свой-

ством симметричности, т.е.

 

b

 

S

x

b

 

Sy

.

Таким

 

 

 

 

 

 

 

B

 

y / x Sy

x / y

Sx

 

 

образом, и коэффициент регрессии также обладает свойством

y/ x x/ y

симметричности, т.е. .

by/ x bx/ y

2.Коэффициент корреляции лежит в пределах от –1 до 1: 0 | | 1 или –1 1.

3.Модуль коэффициента корреляции характеризует тесноту связи. Чем больше коэффициент корреляции , тем связь ближе к линейной. На рис. 29 отображены облака рассеивания данных с различными значениями коэффициентов корре-

ляции (1 3 > 2 > 1 0).

Рис. 29. Облака рассеивания с различными значениями коэффициентов корреляции

49

4.Знак коэффициента корреляции отражает характер связи. Если коэффициент корреляции положителен, то с ростом

Хфактор Y в среднем увеличивается. Если коэффициент корреляции отрицателен, то с ростом Х фактор Y в среднем уменьшается.

5.Если = 0, то X и Y не коррелируют. Но это не означает, что факторы X и Y независимы. Они могут быть зависимы функционально или статистически, или быть независимыми. Рассмотрим пример, где X и Y связаны функциональной зависимостью. Например, X = Y2. График приведен на рис. 30. Если вычислить коэффициент корреляции в данном примере, то он окажется равным нулю. И действительно, в среднем с ростом X фактор Y в среднем не изменяется, хотя здесь присутствует строгая функциональная зависимость. Если X и Y независимые случайные величины, то коэффициент корреляции= 0. И мы можем сказать, что два фактора не коррелированны.

Рис. 30. Функциональная зависимость с коэффициентом корреляции равным нулю

6. Если | | = 1, то Х и Y связаны линейной зависимостью. Если = 1, то зависимость прямо пропорциональная. Если= –1, то зависимость обратно пропорциональная.

Возникает вопрос: какую величину выборочного коэффициента корреляции следует считать достаточной для статистически обоснованного вывода о наличии корреляционной связи между X и Y?

Надежность статистических характеристик ослабевает с падением объема выборки, следовательно, возможны случаи, когда отклонение от нуля коэффициента корреляции оказывается статистически не значимым, т.е. целиком обусловленным неизбежным случайным колебанием выборки, на основании которой он вычислен.

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]