Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Математическая обработка результатов эксперимента

..pdf
Скачиваний:
31
Добавлен:
15.11.2022
Размер:
1.31 Mб
Скачать

туация имеет место, например, в случае, когда требуется сравнить средние размеры деталей, изготовленных на одном и том же оборудовании. Если же предположение о равенстве дисперсий априори не обосновано, то соответствующую гипотезу о равенстве генеральных дисперсий необходимо проверить на основании опытных данных

(см. подразд. 4.3.1).

В обоих случаях, удостоверившись в выполнении или статистической значимости равенства DX = DY, можно приступать к сравнению генеральных средних, т.е. к проверке гипотезы H0: MX = MY.

Но в качестве критерия проверки этой гипотезы уже нельзя использовать величину (4.31), так как она не будет подчиняться нормальному закону распределения. В отдельных случаях удается использовать статистики, подчиняющиеся другим законам распределения. Например, в качестве критерия используют случайную величину

T =

xср yср

 

nm(n+m2)

.

(4.37)

(n1) S

2

2

 

n+m

 

 

 

 

 

 

X +(m1)S Y

 

 

 

 

При условии справедливости нулевой гипотезы H0:MX = MY величина Т имеет t-распределение Стьюдента с k = n + m − 2 степенями свободы. Критическая область зависит от вида конкурирующей гипотезы H1, приэтомрассматриваются три случая: (4.32), (4.33), (4.34).

Первый случай. Если конкурирующая гипотеза имеет вид (4.32), то критическая область является двухсторонней. При выполнении неравенства

Tоп│< tкр (α;k)

оснований отвергнуть нулевую гипотезу нет и различие средних выборочных значений xср и yср считают статистически незначимым.

Если же│Tоп│> tкр(α;k), то нулевую гипотезу следует отвергнуть.

Критическое значение tкр(α;k) в этом случае ищется в таблице критических точек распределения Стьюдента по заданному уровню

61

значимости α, помещенному в верхней строке таблицы, и числу k = n + m − 2 степеней свободы.

Второй случай. Если конкурирующая гипотеза имеет вид (4.33), то критическая область является правосторонней. При выполнении неравенства

Tоп< tкр (α;k)

оснований отвергнуть нулевую гипотезу нет и различие средних выборочных значений xср и yср считают статистически незначимым.

Если же Tоп > tкр (α;k), то нулевую гипотезу следует отвергнуть. На этот раз критическое значение tкр(α;k) ищется в таблице критических точек распределения Стьюдента по заданному уровню значимости α, помещенному в нижней строке таблицы, и числу

k = n + m − 2 степеней свободы.

Третий случай. Если конкурирующая гипотеза имеет вид (4.34), то сначала в таблице критических точек распределения Стьюдента по заданному уровню значимости α, помещенному в нижней строке таблицы, и числу k = n + m − 2 степеней свободы ищется вспомогательное значение tкр(α;k). В данном случае критическая область является левосторонней и определяется критической точкой −tкр(α,k). При выполнении неравенства

Tоп > − tкр (α;k)

оснований отвергнуть нулевую гипотезу нет и различие средних выборочных значений xср и yср считают статистически незначимым.

Если же Tоп < −tкр (α;k), то нулевую гипотезу следует отвергнуть.

Взаключение данного раздела отметим, что рекомендации

иалгоритмы выбора критериев по проверке других статистических гипотез о параметрах выборочных и генеральных совокупностей можно найти в более полных и подробных пособиях и учебниках по статистике.

62

4.3.4. Проверка гипотезы о значимости выборочного коэффициента корреляции

Рассмотрим двумерную случайную величину (X,Y), имеющую нормальное распределение.

Статистически величина (X,Y) представлена некоторой выборочной совокупностью пар (xi;yi) (i = 1, 2, …, n). Выборочный коэффициент корреляции rвыб(X,Y), вычисляемый по формуле (4.3), зависит от случайных выборочных данных, и потому также имеет слу-

чайный характер. Если он отличен от нуля, т.е. если rвыб(X,Y)≠0, то это еще не означает, что коэффициент корреляции генеральной сово-

купности rxy(X,Y) также отличен от нуля. Утверждение об отличии от нуля выборочного коэффициента корреляции rвыб(X,Y) может оказаться статистически незначимым, аисследуемая связь – несущественной.

Для проверки статистической значимости утверждения об отличии выборочного коэффициента корреляции rвыб(X,Y) от нуля необходимо сформулировать гипотезу H0 о равенстве нулю коэффициента rxy(X,Y) корреляции генеральной совокупности и задать уровень значимости α.

Гипотеза H0: rxy=0 проверяется при заданном уровне значимости α при конкурирующей гипотезе H1: rxy≠0.

Если нулевая гипотеза H0 отвергается, то это означает, что выборочный коэффициент корреляции значимо отличается от нуля.

Напомним, что при проверке значимости выборочного коэффициента корреляции случайных величин X и Y предполагается, что двумерная случайная величина (X,Y) распределена нормально.

Проверку значимости коэффициента корреляции двух совокупностей опытных данных можно выполнить двумя способами: с помощью критерия Стьюдента и с помощью критерия Фишера – Снедекора.

Первый способ. Значимость коэффициента корреляции проверяется с помощью критерия Стьюдента.

В качестве критерия проверки нулевой гипотезы рассматривается случайная величина T, имеющая распределение Стьюдента сk = n −2

63

степенями свободы. Ее критические точки tкр(α;k) при заданном уровне значимости α и заданном числе степеней свободы k можно найти в таблице распределения Стьюдента. Опытное (наблюдаемое) значение критерия Стьюдента вычисляется по следующей формуле:

tоп =

rвыб( X ,Y ) n2

.

(4.38)

 

 

1r 2

 

 

выб

 

Если двумерная случайная величина (X,Y) распределена нормально, то при справедливости нулевой гипотезы H0 величина T имеет распределение Стьюдента с k = n − 2 степенями свободы.

Тогда, если │tоп│< tкр, то нет оснований отвергать нулевую гипотезу о равенстве нулю коэффициента rxy(X,Y) корреляции генеральной совокупности, а случайные величины X и Y с вероятностью p = 1 − α следует считать независимыми.

Если же │tоп│> tкр, то нулевую гипотезу H0: rxy = 0 отвергают, т.е. считают, что коэффициент корреляции генеральной совокупно-

сти rxy(X,Y) отличен от нуля: rxy(X,Y) ≠ 0, и, следовательно, случайные величины X и Y связаны линейной корреляционной зависимостью.

Второй способ. Значимость коэффициента корреляции проверяется с помощью критерия Фишера – Снедекора.

Для проверки значимости коэффициента rxy(X,Y) парной линейной корреляции при заданном объеме n выборочной совокупности можно использовать также F-критерий Фишера – Снедекора (1.13). Опытное значение критерия Фишера – Снедекора в этом случае вычисляют по следующей формуле:

r 2

Fоп = xy2 (n2) . (4.39)

1rxy

Вычисленное по формуле (4.39) опытное значение Fоп сравнивают с критическим (табличным) значением Fкр = F(α;k1;k2) критерия Фишера – Снедекора. Критические значения критерия Фишера – Снедекора содержатся в статистических таблицах и зависят:

64

от выбранного исследователем уровня значимости α;

от показателей k1 и k2 степеней свободы критерия F.

В рассматриваемом случае парной линейной корреляции k1 = m − 2, k2 = 1, т.е.

Fкр = F(α; k1; k2) = F(α; m − 2; 1).

В таблице критических значений F-критерия Фишера – Снедекора номер строки k1 = m−2, а номер столбца k2 = 1.

Если при этом выполняется неравенство Fоп > Fкр, то с вероятностью α мы поступим неверно, отвергая гипотезу о значимости коэффициента парной линейной корреляции.

В противном случае, т.е. если Fоп < Fкр, делается вывод о том, что с вероятностью p = 1 − α исследуемая корреляционная связь случайных величин X и Y незначима и ею можно пренебречь.

Контрольные вопросы

1.Что такое статистические гипотезы?

2.Что такое статистические оценки числовых характеристик случайных величин?

3.Приведите формулы для статистических оценок математического ожидания и среднего квадратичного отклонения случайных величин.

4.Дайте определения несмещенных, состоятельных и эффективных оценок. Приведите примеры таких оценок.

5.Опишите алгоритм проверки нормальности распределения одномерной совокупности.

6.Приведите примеры статистических гипотез о параметрах распределения одномерных генеральных совокупностей. Какие опытные статистики используются для проверки этих гипотез?

7. Что такое коэффициент корреляции? Как он вычисляется

идля чего он используется?

8.Приведите примеры статистических гипотез, связывающих две генеральные совокупности.

65

5. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ

Принятие решений на основе анализа опытных данных опирается на использование вероятностных законов распределения и корре- ляционно-регрессионного анализа. В отдельных случаях анализ опытных данных дает основания предположить, что между некоторыми из выборочных совокупностей существует определенная зависимость.

Отличие от нуля коэффициента корреляции rxy двух случайных величин X и Y означает, что эти две величины связаны линейной зависимостью и можно ставить вопрос о поиске вида этой зависимости. Соответствующее уравнение, описывающее функциональную зависимость величины Y от величины X, называется уравнением регрессии величины X на случайную величину Y.

Уравнение регрессии, построенное по выборочным совокупностям опытных данных, позволяет с определенной вероятностью прогнозировать поведение генеральных совокупностей исследуемых величин в рамках некоторого горизонта прогноза и может быть использовано для расчетов с целью принятия решений на основе установленных закономерностей.

Корреляционно-регрессионный анализ двух выборочных совокупностей состоит из двух основных этапов.

Первый этап. На основании анализа выборочных совокупностей, т.е. с помощью выборочного коэффициента корреляции rвыб(X, Y), необходимо выяснить наличие корреляционной зависимости между случайными величинами X и Y. Если коэффициент корреляции rxy двух случайных величин X и Y отличен от нуля, то эти величины связаны линейной зависимостью.

Но отличие от нуля выборочного коэффициента корреляции rвыб(X, Y) еще не означает, что линейная связь между исследуемыми случайными величинами действительно существует: необходимо дополнительно проверить, насколько можно доверять результату, полученному на основании выборочных совокупностей. Поэтому вы-

66

численный по опытным данным выборочный коэффициент корреляции rвыб(X,Y) необходимо дополнительно подвергнуть проверке на значимость, т.е. убедиться, что его действительно можно считать отличным от нуля с заранее заданной вероятностью (см. раздел 4).

Второй этап. Если коэффициент rвыб(X,Y) значимо отличен от нуля, то можно переходить к построению уравнения регрессии, т.е. подобрать подходящую формулу, отражающую зависимость коррелирующих величин в виде уравнения регрессии (X на Y или Y на X).

5.1. Парная регрессия

Рассмотрим сначала случай парной регрессии, т.е. изложим методику построения уравнения регрессии в случае, когда рассматриваются две случайные величины: Y и X, каждая из которых представлена своей выборочной совокупностью объемом m.

Построим точки с координатами (xi;yi), i = 1, 2, …, m, на плоскости xy. Расположение точек дает некоторое представление о виде искомой зависимости y = f(x).

В самом простом случае можно выдвинуть предположение о линейной зависимости случайных величин X и Y, т.е. можно пытаться искать уравнение регрессии в виде:

y = ax + b,

(5.1)

где параметры a и b подлежат определению. Подбор параметров a и b обычно осуществляется на основе так называемого метода наименьших квадратов.

Суть метода наименьших квадратов в случае парной линейной регрессии состоит в отыскании таких значений параметров a и b уравнения (5.1), которые будут минимизировать функцию

m

θ(a, b) = [yi (axi +b)]2 .

i=1

Необходимое условие экстремума функции многих переменных – это равенство нулю ее частных производных (по переменным a, b, с, …) в точке экстремума.

67

Дифференцируя функцию θ(a,b) по a и по b и приравнивая полученные частные производные к нулю, получим следующую систему для нахождения неизвестных a и b:

m

m

 

 

yi axi bm =0;

 

i=1

i=1

 

(5.2)

m

m

m

yi xi axi2 bxi =0.

 

 

i=1

i=1

 

i=1

 

Решив систему (5.2), находим значения неизвестных a и b, которые минимизируют функцию θ(a,b). Подставляя найденные значения a и b в выражение (5.1), получаем искомое уравнение регрессии.

Отметим, что в случае, когда искомая зависимость y = f(x) нелинейна, метод наименьших квадратов сводится к отысканию минимума функции θ:

m

θ(a, b, с,…) = [yi f (xi )]2 .

i=1

Эта функция зависит от конечного числа своих параметров a, b, с,…, которые подлежат определению.

Построение нелинейных уравнений регрессии в отдельных случаях можно свести к отысканию линейных зависимостей с помощью подходящих замен переменных.

Пример 5.1. Расположим на плоскости xy точки Pi(xi; yi), координаты xi, yi которых – это опытные значения случайных величин Y и X. Предположим, что эти точки приближенно описываются нелинейной зависимостью вида

y = exp(ax + b).

(5.3)

Логарифмируя равенство (5.3), получаем зависимость вида

ln y = ax + b,

где ln y – натуральный логарифм y.

68

Введем новую переменную (случайную величину) Z ≡ ln y. Тогда зависимость Z = ax + b линейная. Составляя таблицу значений (xi; Zi), находим с помощью метода наименьших квадратов линейное уравнение регрессии

Z = ax + b

и, следовательно, искомые коэффициенты a и b уравнения (5.3). Зависимости, которые заменой переменных можно свести к ли-

нейному виду, называются линеаризуемыми. Приведем несколько примеров таких зависимостей:

1

 

 

c

 

b

 

x

y =

 

,

y = a log

 

, y = a log(bx) ,

y = a x ,

y =

 

.

ax+b

x

ax+b

Пример 5.2. Для первой из приведенных функций можно вы-

полнить замену Z = 1y . Тогда искомая зависимость Z = ax + b являет-

ся линейной.

Пример 5.3. Для второй из функций, пользуясь свойствами ло-

гарифма, получим: y = alog xc = alog(c)−alog(x). Остается ввести но-

вую неизвестную X = log(x) и новые искомые параметры C = alog(c) и A = −a. Тогда искомое уравнение регрессии имеет линейный вид: y = C + AX. Определив его коэффициенты A и C методом наименьших квадратов, находим значения искомых параметров a и c.

Пример 5.4. Для четвертой из функций можно выполнить логарифмирование левой и правой частей равенства. Получим новые переменные Y = lg(y) и X = lg(x) и новый искомый параметр A = lg(a). Искомое (линейное) уравнение регрессии запишется в следующем виде: Y = A + bX. Определив его коэффициенты A и b методом наименьших квадратов, находим значение коэффициента a = 10A и возвращаемся к старым переменным y = 10Y и x = 10X.

Если путем преобразований и последующими заменами переменных не удается свести искомую зависимость к линейной, то оста-

69

ется воспользоваться методом наименьших квадратов непосредственно. Но тогда уравнения для поиска параметров нелинейного уравнения регрессии также будутнелинейными, чтозатруднитих поиск.

5.2. Множественная регрессия

Рассмотрим теперь случайные величины Y, X1, X2, …, Xn, каждая из которых представлена выборочными совокупностями своих значений объемом m. В случае обнаружения значимой статистической зависимости между случайными величинами Y, X1, X2, …, Xn ставится задача отыскания вида этой зависимости.

В общем случае зависимость ищется в виде

функции n пере-

менных: y = f(x1, x2, …, xn). Здесь x =(x1, x2 , ..., xn )

n-мерная слу-

чайная величина,

y – значение функции f(x1, x2, …, xn). Функцию

y = f(x1, x2, …, xn)

требуется определить так, чтобы при каждом

из значений ее

аргумента x =(x1, x2 , ..., xn ) значение функции

f(x1, x2, …, xn) было максимально приближено к соответствующему значению случайной величины Y. Обычно для описания такой близости также пользуются методом наименьших квадратов. Рассмотрим алгоритм построения уравнения множественной регрессии для случая линейной зависимости переменных Y, X1, X2, …, Xn.

Функцию f предполагаем линейно зависящей от своих аргумен-

тов и уравнение регрессии ищем в следующем виде:

 

y =a0 +a1x1 +...+a j x j +...+an xn .

(5.4)

Тогда согласно методу наименьших квадратов минимизации подлежит функция θ (a0, a1, …, an):

θ (a0, a1,…, an) = m yi (a0 +a1xi1 +...+a j xij +...+an xin ) 2 .

i=1

Для нахождения неизвестных параметров a0, a1, …, an функции (5.4) необходимо решить следующую систему уравнений:

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]