Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Таблица 3.3

Обзор наиболее часто применяемых параметрических критериев

Задачи

Условия

Критерии

Ограничения

Выявлениеразличий

Незави-

Двевыборки

t-критерий

Ограничений

вуровнеисследуемо-

симые

испытуемых

Стьюдента

пообъему

гопризнака(сравне-

выборки

 

(формуладля

выборкинет

ниедвухпараметров

 

 

независимых

 

распределений)

 

 

распределений)

 

Оценкасдвигазначе-

Зависи-

Двевыборкиис-

t-критерий

 

нийисследуемого

мые

пытуемых(изме-

Стьюдента

 

признака(сравнение

выборки

рениеоднихитех

(формуладля

 

двухпараметров

 

признаковвдвух

зависимых

 

распределений)

 

ситуациях)

распределений)

 

Сравнениеизменчи-

Незави-

Двевыборки

F-критерий

 

востираспределений

симыеи

испытуемых

Фишера

 

 

зависимые

Двеиболее

В-критерий

 

 

выборки

выборки

Бартлетта

 

 

 

испытуемых

g-критерий

 

 

 

 

Кохрана

 

2. Является ли распределение признака нормальным? Если признак измерен по интервальной и пропорциональ-

ной шкале и доказано его нормальное распределение, выбирается параметрический критерий. При ненормальном распределении должен быть выбран непараметрический критерий.

3.С какого вида выборками имеем дело в данном исследовании?

Для сравнения зависимых выборок выбираются одни критерии, для независимых – другие (или в случае параметрических критериев различаются алгоритмы их расчета).

4.Каковы ограничения в применении критерия? Обращаем внимание, что ответ на этот вопрос необходим,

только если признак измерен по интервальной или пропорциональной шкале. Если признак измерен по интервальной и пропорциональной шкале и доказано его нормальное распределение, выбирается параметрический критерий. При ненормальном распределении должен быть выбран непараметрический критерий.

91

При выборе критериев сравнения целесообразно воспользоваться обзорными таблицами для параметрических и непараметрических критериев [17; 32; 52; 60]. В качестве примера в табл. 3.3 приведён обзор часто применяемых параметрических критериев.

3.4.2. Проверка гипотезы о равенстве дисперсий двух независимых выборок

Рассмотрим задачу проверки гипотезы о равенстве дисперсий двух независимых выборок. Пусть имеются две независимые нормальные (подчиняющиеся нормальному закону распределения) выборки: x1,x2,...,xn1 и y1, y2,..., yn2 .

Их выборочные дисперсии рассчитываются из выражений:

 

 

1

 

n

xi

 

2

 

 

1

 

n

yi

 

2 .

 

S12

 

 

1

 

и S22

 

 

2

 

(3.4)

 

 

x

 

y

n

1

n

1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

i 1

 

 

 

 

2

 

 

i 1

 

 

 

 

Для сравнения величин выборочных дисперсий двух рядов наблюдений можно использовать критерий Фишера. Его ещё называют дисперсионным отношением, так как он формируется как отношение двух сравниваемых несмещенных оценок дисперсий. Для вычисления эмпирической величины критерия Fэмп нужно

найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась в числителе, а меньшая – в знаменателе:

 

S 2

(3.5)

 

1

 

Fэмп

S22 .

 

Рассмотрим пример проверки гипотезы о равенстве дисперсий двух независимых выборок в программном пакете Statistica. На двух соседних полупанелях одного из рудников ПАО «Уралкалий» отобраны по 30 проб. Среднее содержание

92

хлористого калия

в руде 24,3 и 23,6 % соответственно

(табл. 3.4). Выборочные дисперсии равны S12 = 5,54 (S1 = 2,35)

и S22 = 12,69 (S2 =

3,56). Сравним равенство дисперсий рас-

сматриваемых выборок и произведём сравнение качественных показателей полезного ископаемого на данных участках месторождения.

Таблица 3.4

Описательные статистики

Выдвигаем нулевую гипотезу о равенстве двух дисперсий, т.е. H0: S12 = S22 против альтернативы H1: S12 ≠ S22 и произ-

водим вычисление описательных статистик в каждой выборке

(см. табл. 3.4).

После вывода таблицы добавим в неё два дополнительных столбца: xcp 3 и xср 3 (табл. 3.5). Анализ полученных дан-

ных показывает, что минимальное значение второй переменной выходит за границы интервала.

Таблица 3.5

Условия исключения и статистики после исключения

Ранее указывалось, что выборки должны подчиняться нормальному закону распределения вероятностей. Выполним проверку этого требования по 3 интервалу и по виду гистограмм (рис. 3.7).

93

а

б

Рис. 3.7. Гистограммы распределения: а – переменная 1, б – переменная 2

Гистограмма для этой переменной также подтверждает наличие выброса в одной пробе, поэтому эту пробу с минимальным значением 10,13 из анализа можно удалить. Для этого в условиях анализа (Select cases) для второй переменной поставим ограничение по минимальному интервалу 12,9. После исключения произведём пересчёт описательных статистик по этой переменной, далее делаем вывод, что все данные находятся в границах интервала 3 (см. табл. 3.5).

Таким образом, данные подготовлены к дальнейшей обработке.

Для того чтобы отвергнуть выдвинутую гипотезу о равенстве двух дисперсий, необходимо доказать значимость различия при заданном уровне значимости (принимаем α = 0,05). Вычислим дисперсионное отношение:

2,532 6,40 Fэмп 2,352 5,52 1,16.

Критерий имеет распределение Фишера F (α, f1, f2). Критерий Фишера – двусторонний критерий, и нулевая гипотеза H0: S12 = S22 отвергается в пользу альтернативной H1: S12 ≠ S22, если:

F (1 α / 2, f1, f2) < Fэмп < F (α / 2, f1, f2),

94

где f1 = n1 – 1; f2 = n2 – 1; f1 = 29, f2 = 28 числа степеней свободы первой и второй выборок.

В программе Statistica реализован односторонний критерий Фишера, т.е. в качестве S12 всегда берут максимальную дисперсию. В этом случае нулевая гипотеза отвергается в пользу

альтернативы H0: S12 > S22, если Fэмп >Fкрит (1 α / 2, f1, f2).

Дляпримеравычислены:Fэмп=1,16;f1 = 29,f2 = 28,α= 0,05.

По таблицам Statistica (Probability Distribution Calculator)

находим критическое значение Fкрит (0,975; 29,28) = 2,12. Критическое значение больше вычисленного Fэмп = 1,16, следовательно, нулевая гипотеза должна быть принята, дисперсии двух выборок равны. После удаления выброса стандартные отклонения выборок (см. табл. 3.4, 3.5) отличаются статистически незначимо.

3.4.3. Параметрический критерий проверки статистических гипотез – t-критерий Стьюдента

Одним из наиболее распространенных параметрических критериев является критерий Стьюдента. В его основе лежит t- распределение.

Английский учёный В. Госсет в 1908 г. вывел случайную величину:

x

 

t s / n .

(3.6)

В таком виде она появилась после теоретических обоснований Р. Фишера. Критерий применяется для проверки гипотезы об отличии среднего значения x от некоторого известного значения (математического ожидания). Закон распределения от-

ношения Стьюдента (или просто распределение Стьюдента) является основой в так называемой теории малых выборок, которая характеризует распределение выборочных средних в нормально

95

распределяющейся совокупности в зависимости от объема выборки. Рассматриваемое распределение зависит только от числа степеней свободы k = n – 1, причем с увеличением объема выборки n распределение Стьюдента быстро приближается к нормальному снулевымсредними =1,апри достижении n > 30 отличается от него незначительно.

Все разновидности критерия Стьюдента являются параметрическими, в связи с чем они основаны на предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, следует воспользоваться непараметрическими статистическими критериями.

Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках. Конечно, можно было бы сравнивать медианы или другие описательные статистики, но естественно начать со сравнения средних значений. Выборки могут быть независимыми (несвязными), если процедура эксперимента и полученные результаты измерения некоторого свойства у наблюдений одной выборки не оказывают влияния на особенности протекания этого же эксперимента и на результаты измерения этого же свойства у наблюдений другой выборки. В этом случае выборка состоит из элементов, отобранных из генеральной совокупности таким образом, чтобы каждый элемент этой совокупности имел бы равные возможности (равную вероятность) попасть в выборку. Полученная таким образом выборка называется простой случайной выборкой [1]. Например, разделим пробы по одной панели на две части случайным образом.

Получить две простые случайные выборки можно с помощью случайных чисел. Также можно использовать вкладку «Данные» в диалоге «Случайный выбор» для доступа к опциям выбора простого подмножества из исходных данных (рис. 3.8).

96

Рис. 3.8. Информационное окно программы Statistica

И, напротив, выборки называются зависимыми (связными), если процедура эксперимента и полученные результаты измерения некоторого свойства, проведенные на одной выборке, оказывают влияние на другую.

Итак, мы имеем два средних – среднее для первой группы и среднее для второй группы. Можно формально вычесть одно среднее из другого и по величине разности сделать вывод о равенстве средних. Однако целесообразно принять во внимание ещё и разброс данных относительно средних, т.е. дисперсию. Первое, что приходит в голову для уравнивания двух дисперсий, – нормировать разность средних двух выборок (групп данных), поделив ее, например, на стандартное отклонение (корень квадратный из дисперсии).

Многие варианты применения критерия изложены в учебниках [1; 13; 20], например, сравнение:

выборочного среднего с заданным значением (значение может быть задано априори);

двух выборочных средних при известных дисперсиях (которые определены по генеральным совокупностям);

двух выборочных средних при неизвестных неравных дисперсиях.

97

3.4.4. Оценка разности средних для независимых выборок

Критерий оценки разности средних позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности». Существует два вида гипотез по проверке однородности выборок. Первая с условным названием «в слабом» используется, если незначимо отличаются их параметры – прежде всего средние и дисперсии. При втором способе осуществляется проверка однородности выборок строгим способом (или говорят «в сильном»). Выборки однородны «всильном», если незначимоотличаютсяих законыраспределения.

С помощью критерия Стьюдента проверяется гипотеза об однородности выборок «в слабом». Нулевая гипотеза формулируетсятак:разностьсреднихввыборке1ивыборке2равнанулю.

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (двухвыборочный t-критерий). В этом случае есть контрольная группа и проверяемая (опытная) группа, количество наблюдений в группах может различаться.

Во втором случае, когда исходные данные для проверки гипотез «о равенстве средних» отобраны из одной генеральной совокупности, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

Пусть X и Y – две генеральные совокупности с известными дисперсиями 2X и Y2 и неизвестными математическими ожиданиями mX ( X ) и mY ( Y ). Из генеральных совокупностей взяты две независимые выборки x1,...,xn и y1,...,yk и вычислены выборочные математические ожидания (а в реальности – сред-

98

ние) x и y . Выдвинем нулевую гипотезу о равенстве математи-

ческих ожиданий H0: x y против альтернативы H1: x y .

В сущности, нас интересует разница средних, т.е. x y, но

каждая из этих величин была получена на ограниченной выборке и потому содержит ошибку Sx и Sy. Как найти ошибку разности средних, если мы знаем ошибку каждой из них? В теории ошибок доказывается, что дисперсия разности средних (как и дисперсия суммы) равна сумме дисперсий средних от каждой из двух сравниваемых выборок:

2 (x y) = 2 (x y) = 2(x) 2 (y) .

Тогда ошибка в определении разности средних равна:

(x y) (2x) (2y) .

Формально для независимых выборок в случае двух групп (k = 2) эмпирическое значение t-критерия выражается в виде отношения разности выборочных средних к своему среднеквадратическому отклонению:

 

 

 

 

t(n n

2)эмп

 

x

 

y

 

 

d

,

(3.7)

 

 

 

 

 

 

1

2

 

(x y)

 

Sd

 

 

 

 

 

 

 

 

 

 

где

 

,

 

– средние арифметические в двух выборках;

(x y)

x

y

стандартные ошибки разности средних арифметических.

Это отношение получило название критерия существенно-

сти разности. Если tэмп tтеор, нулевая гипотеза об отсутствии существенности различий между средними опровергается, а если

различия находятся в пределах случайных колебаний для принятого уровня значимости – нулевая гипотеза принимается.

Р-уровень значимости критерия равен вероятности совершения ошибки и принятия гипотезы о неравенстве средних, когда в действительности средние равны.

99

Формулы для определения стандартных ошибок разности средних арифметических будут меняться в зависимости от предположения относительно дисперсий генеральных совокупностей. Если дисперсии неизвестны, рассчитываются выборочные дисперсии Sx и Sy. Рассмотрим возможные варианты вычисления ошибок разности средних:

а) Если дисперсии генеральных совокупностей неизвестны, причём гипотеза о равенстве 2(x) 2(y) принимается, тогда

ошибка разности средних вычисляется из выражения

 

 

 

1

 

1

 

 

(xi

 

)2 (yi

 

)2

 

 

 

 

x

y

(x y)

Sd

 

 

 

 

 

 

,

 

 

 

 

n1

 

n2

 

n1 n2 2

где n1 и n2 соответственно объёмы первой и второй выборки. Подсчет числа степеней свободы осуществляется по фор-

муле

k = n1 + n2 – 2.

Гипотеза «средние в двух группах равны» принимается, если выполняется условие

t(n n 2)эмп

t( /2)(n n

2

2),

1

2

1

 

где t( /2)(n1 n2 2) – критическое значение, взятое из таблиц (или рассчитаное в вероятностном калькуляторе программы Statistica) с уровнем значимости α и объёмами первой и второй выборки.

б) Если дисперсии двух генеральных совокупностей неизвестны, причём гипотеза о равенстве 2(x) 2(y) отклоняется,

тогда:

 

 

S

2

 

S y2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

y

 

 

Sd

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

,

tэмп

 

 

 

 

 

 

.

 

n

 

2

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

S d

100

Соседние файлы в папке книги