Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

дроби всегда берут максимальную дисперсию. В этом случае нулевая гипотеза отвергается в пользу альтернативы, если

Fэмп > Fкрит (1 – α / 2, f1, f2). Для нашего примера Fкрит (0,975, 29, 28) = = 2,12 (рис. 3.16), тогда Fэмп < Fкрит, нулевая гипотеза о равенстве дисперсий принимается.

Рис. 3.15. Вычисление критического значения критерия Стьюдента

Рис. 3.16. Критическое значение критерия Фишера

111

Таким образом, параметры нормального закона (среднее и стандарт) распределения вероятностей у двух выборок статистически не отличаются, следовательно, качество полезного ископаемого в полупанелях одинаково.

3.5.Проверка статистических гипотез

овиде распределения

3.5.1. Общие сведения

При проведении многих научных исследований или решении практических задач проводят испытания и получают выборку из генеральной совокупности. Одна из важных задач математической статистики – установление истинного закона распределения изучаемой выборки, например, мощности пласта или содержания полезного компонента в пределах панели. Во многих случаях закон распределения наблюдаемых данных неизвестен, но есть основания предположить, что он имеет вполне определенный вид – нормальный, биномиальный или какойлибо другой. На практике о нём судят, изучая ограниченное число наблюдений по косвенным признакам – по графикам распределения выборки и по значениям основных статистик, поэтому параметры закона выборочные.

Однако, сколько бы пользователь ни выбирал вид закона и его параметры, полной уверенности в том, что он получит истинный закон распределения, к которому принадлежит имеющаяся выборка, не существует. Поэтому вопрос может идти лишь о том, что на определённом уровне доверия данные выборки согласуются с априори выбранным законом распределения. Критерии, устанавливающие закон распределения, называются критериями согласия – критериями проверки гипотезы о предполагаемом законе неизвестного распределения. Существуют различные критерии согласия: Пирсона, Колмогорова –

112

Смирнова, Шапиро – Уилка и др. В частности, один из критериев согласия использовался в примере предыдущего раздела для проверки гипотезы о согласовании наблюдаемого и теоретического распределений.

Второй часто используемый вид проверки – проверка гипотезы о совпадении законов распределения двух генеральных совокупностей. В этом случае предположение о виде теоретической модели данных не требуется. Критерий дает нам представление о «расстоянии между двумя наборами данных» и на основе значения этого расстояния позволяет делать вывод о «согласии» между двумя распределениями.

В стандарте ГОСТ Р ИСО 5479-2002 [17] предусматриваются графический метод проверки на нормальность с использованием вероятностной бумаги, критерии проверки на симметричность и на значение эксцесса, критерии Шапиро – Уилка. Считается, что критерий Шапиро – Уилка на объемах выборок n ≤ 50 является хорошим средством проверки нормальности, обладает высокой мощностью. Под мощностью критерия понимается вероятность отклонить нулевую гипотезу, когда верна альтернативная гипотеза. Если нормальность выборки проверяется несколькими критериями, то наиболее мощным будет тот, у которого больше вероятность отклонения нулевой гипотезы. Стандартом не предусматривается использование критериев типа 2, так как он «подходит только для сгруппированных данных» и по мнению разработчиков, «группирование приводит к потере информации». Вместе с тем на основании работ [32; 60] представлены результаты исследования сравнительной мощности критериев нормальности распределения вероятностей случайных величин для различных альтернативных распределений. Критерии представлены в порядке предпочтения, и на первом месте критерий Шапиро – Уилка. Критерий 2 также входит в первую половину этого солидного списка, а критерий Колмогорова – Смирнова на 11-м месте. Но даже в описании программы

113

Statistica указано, что ни один из этих критериев не может заменить визуальную проверку с помощью гистограммы и других графиков.

Вследующем разделе мы рассмотрим проверку гипотезы

онормальности эмпирического распределения. По имеющейся случайной выборке мы проверим, имеет ли исследуемый признак нормальное распределение.

3.5.2. Проверка гипотез о виде распределения по критерию согласия 2

Пусть х1, х2, х3,, хn – выборка наблюдений случайной величины Х. Выдвигаем нулевую гипотезу Н0: о нормальном распределении случайной величины Х. Параметры нормального распределения – математическое ожидание и дисперсия.

Задаёмся вероятностью совершения ошибки первого рода= 0,05, где – это уровень значимости или вероятность того, что будет принята альтернативная гипотеза Н1, если на самом деле в генеральной совокупности верна гипотеза Н0.

Для критерия 2 строится правосторонняя критическая область, определяемая условием:

P 2эмп > χ2крит (α, )) = α,

где α – уровень значимости (вероятность совершения ошибки первого рода);

число степеней свободы.

Следовательно, критическая область задается неравенством (χ2эмп > χ2крит (α, ), а область принятия гипотезы –

2эмп < χ2крит (α, )).

Критерий согласия 2 позволяет проверить, случайно или неслучайно отклонение между теоретическими и наблюдаемыми данными. Порядок проверки гипотезы следующий:

114

1.Разбиваем выборку на интервалы и определяем теоретические частоты для нормального закона распределения. Если количество частот 5 и меньше, то их объединяем со смежными интервалами.

2.Вычислим величину χ2эмп по выражению

 

r

(n np )2

 

эмп2

 

k

np

k

,

(3.8)

 

1

 

k

 

 

 

где r – количество интервалов разбиения;

nk – число наблюдений, попавших в k-интервал;

npk – ожидаемое (теоретические для нормального закона) произведение вероятности на число наблюдений, попавших в k- интервал.

3. Определим число степеней свободы:

 

= (r l – 1),

(3.9)

где l – число неизвестных параметров распределения (для нормального закона распределения l = 2).

4. Вычислим в калькуляторе вероятностных распределений (или таблице квантилей распределения χ2) квантиль распределения χ2крит при α = 0,05 (или ином уровне значимости, в калькуляторе вводим p = 1 – α) и числе степеней свободы .

5. Если полученная статистика χ2эмп превосходит критическую (квантиль закона распределения χ2крит) для заданного уров-

ня значимости α и степенями свободы (χ2эмп > χ2крит (α, )), то гипотеза H0 отвергается, и значит можно говорить о несоответ-

ствии нормальному закону распределения значений рассматриваемой переменной. В противном случае гипотеза принимается на заданном уровне значимости α и, следовательно, значения переменной соответствуют нормальному закону распределения.

Больше информации о степени согласия можно почерпнуть из «достигаемого уровня значимости». В программе вычисляется р-уровень. Он показывает вероятность возможного превышения полученного значения статистики при истинности нулевой гипо-

115

тезы р2крит (α, > χ2эмп} > α. Именно эта вероятность позволяет судить о том, насколько хорошо выборка согласуется с теорети-

ческим распределением, так как, по существу, представляет собой вероятность истинности нулевой гипотезы. Гипотезу о согласии

не отвергают, если р2крит (α, > χ2эмп} > α [52].

Выполним проверку соответствия нормальному закону распределения значений переменных по критерию согласия χ2

в программе Statistica.

Для примера рассмотрим нулевую гипотезу о нормальном законе распределения хлористого калия (KCl) по панели пласта Кр-II одного из рудников ПАО «Уралкалий» (прил. Б) при уровне значимости 0,05.

В меню «Анализ» щелкните мышкой «Подгонка распределений». Выделите непрерывное нормальное распределение, в качестве переменной выберите колонку с KCl. В закладке «Параметры» приводится число интервалов и другие параметры.

Впервом расчёте их не меняем, но необходимо помнить, что их количество влияет на корректность вычислений. Число степеней свободы должно быть не менее 1, следовательно, минимальное число интервалов потребуется 4 и более. В каждый интервал должно войти более 5 наблюдений, если в него входит 5 и меньше данных, то он объединяется с соседним интервалом. По умолчанию выводится 18 интервалов.

Любое группирование исходных данных приводит к сжатию информации и вместе с этим к утрате некоторой её части. Потери будут определяться способом группирования данных.

Вработе [66] выполнен анализ рекомендаций по группированию из различных литературных источников. На практике принято строить интервалы равной длины или интервалы равной вероятности (равной частоты). Утрата информации о законе распределения в этих ситуациях различна, отличается и способ-

ность критерия распознавать близкие гипотезы. Вычисленные по модельной выборке значения статистик типа χ2 очень сильно

116

зависят от того, как сгруппированы данные. При выборе интервалов группирования одним способом нулевая гипотеза H0 о согласии может быть отвергнута, другим – принята. При выборе интервалов равной длины определяющим является требование, чтобы число наблюдений, попавших в интервалы, было не слишком малым и примерно одинаковым.

При больших объемах выборок разброс значений, задаваемых различными формулами, достаточно велик. Поэтому на практике при выборе числа интервалов руководствуются тем, чтобы в интервалы попадало число наблюдений не менее 5–10. Так, например, в работе [52] приведены рекомендации ВНИИМ им. Д.И. Менделеева в зависимости от количества наблюдений N предлагают следующие количество групп k (табл. 3.8).

Таблица 3.8

Рекомендации ВНИИМ им. Д.И. Менделеева по количеству интервалов в зависимости от объёма выборки (по ГОСТ [17])

ОбъёмнаблюденийN

Количествоинтерваловr

40–100

7–9

100–500

8–12

500–1000

10–16

1000–10000

12–22

Вокне ввода параметров вводим 8 групп (рис. 3.17). Нижнюю и верхнюю границы проверяем и корректируем по минимальному и максимальному значению переменной.

Взакладке «Опции» проставляем галочку в поле «Крите-

рий 2» – «Составные интервалы», в этом случае программа при расчёте степени свободы объединит интервалы. Такая возможность позволяет в какой-то мере оптимизировать наблюдаемые частоты при разбиении на интервалы. Разрешаем вывод критерия Колмогорова – Смирнова с группированием интервалов. После нажатия кнопки Ok выводится таблица (табл. 3.9) с результатами расчётов.

117

Рис. 3.17. Окно ввода параметров расчёта ожидаемых частот

Таблица 3.9

Таблица распределения ожидаемой частоты числа наблюдений по интервалам

В таблице выводятся наблюдаемые частоты исследуемой переменной, накопленные (кумулятивные) частоты, наблюдаемые частоты в процентах, накопленные частоты в процентах, ожидаемые или теоретические частоты (которые должны быть), накопленные ожидаемые, ожидаемые в процентах и накопленные ожидаемые в процентах. В последнем столбце выведена разность наблюдаемых и теоретических частот. Например,

118

впервой строке таблицы эта разность составит: (набл.) – (ожид.) = 6,0 – 4,87391 = 1,12619.

Сумма этих разностей последней колонки, отнесённых к ожидаемым частотам и является основой статистики 2 (формула (3.8)). Именно по ней судят, насколько сильны отклонения наблюдаемых и теоретических частот. Чем меньше вычисленное значение 2 в табл. 3.9, тем более надёжным будет суждение о подчинении проверяемой переменной выбранному закону распределения.

В программе задано 8 интервалов, первый интервал с ожидаемой частотой 4,87381 объединён со вторым интервалом, последние два интервала (40,08125 – бесконечность) также объединены. В результате всего остаётся 6 значимых интервалов (r = 6). Тогда в соответствии с формулой (3.9), получается три степени свободы (табл. 3.7):

d = r l – 1 = 6 – 2 – 1 = 3.

Объединение интервалов производится программой после установки галочки напротив опции «Критерий Хи2» «Составные интервалы».

Выдвигается нулевая гипотеза о том, что наблюдаемые частоты соответствуют ожидаемым (т.е. между ними нет разницы, так как они взяты из той же генеральной совокупности). Если это так, то разброс будет относительно небольшим, в пределах случайных колебаний. Меру разброса определяют по статистике 2 (формула (3.8)). Далее либо полученную статистику сравнивают с критическим значением (для соответствующего уровня значимости и степеней свободы), либо, что более правильно, рассчитывают наблюдаемый p-value, т.е. вероятность получить такое или еще большее значение статистики при справедливости нулевой гипотезы.

Определим границу критической области. Так как статистика 2 измеряет разницу между эмпирическим и теоретиче-

119

ским распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы. Поэтому критическая область для этой статистики всегда правосторон-

няя: (Kkp; + ∞).

В вероятностном калькуляторе рассчитаем критическое значение χ2крит. Поскольку установлена вероятность в функции распределения (а не уровень значимости), то в строке (1 – ф.р.) галочку не ставим (рис. 3.18). Число степеней свободы принимаем, рассчитанное в табл. 3.8.

Рис. 3.18. Критическое значение распределения χ2крит

Поскольку квантиль 0,95 распределения 2 (правый хвост)

с тремя степенями свободы χ20,95; 3 = 7,81, а χ2эмп < χ2крит (α,v), нулевая гипотеза принимается. Расчётная величина р-уровня

(табл. 3.9) составляет 0,767. Она подтверждает вероятностное представление наших ожиданий при нулевой гипотезе. У нас нет основания опровергнуть гипотезу о подчинении наших данных нормальному закону распределения. Тест Колмогорова – Смирнова пока не принимаем во внимание.

Данный тест проверяет нулевую гипотезу о том, что наблюдаемое распределение признака не отличается от теоретически ожидаемого нормального распределения.

Однако следует отметить, что мощность теста 2 при проверке нормальности распределения относительно невысока. Скорректированное число степеней свободы в тесте должно быть не менее единицы, следовательно, в таблице распределения ожидаемой частоты должно быть не менее четырех интервалов по шесть наблюдений в каждом, итого 24 наблюдения.

120

Соседние файлы в папке книги