Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Если имеются выбросы, то получается уже около 30 наблюдений. Поэтому для малых выборок лучше воспользоваться другими тестами.

Ранее упоминалось, что необходимо исследовать гистограмму распределения переменной. Её можно распечатать в окне рис. 3.19, закладка «Быстрый – График наблюдаемого и ожидаемого распределения». Для параметров, установленных на рис. 3.17 (65 наблюдений и 18 столбцов), гистограмма негладкая (рис. 3.19, б). Если уменьшить число столбцов до 7–9, то вид графика будет более выразителен (рис. 3.19, а).

а

б

Рис. 3.19. Гистограмма распределения полезного компонента: а – для 8 и б – 18 столбцов

На гистограмме заметно наличие асимметрии, правая ветвь гистограммы круче левой.

Критерий Колмогорова – Смирнова. В математической статистике применяется непараметрический критерий Колмогорова – Смирнова. Он используется для сравнения эмпирического выборочного распределения с теоретическим в случае одномерного критерия. Может использоваться для сравнения двух выборок, тогда критерий становится двумерным.

Критерий назван по фамилиям советских математиков А.Н. Колмогорова и Н.В. Смирнова. В расчётах критерия χ2 со-

121

поставляются частоты двух распределений отдельно по каждой группе в таблице частот. В критерии Колмогорова сопоставляются сначала частоты по первой группе, потом по сумме первой и второй группы, потом по сумме первой, второй и третьей групп и т.д. Таким образом, каждый раз сопоставляются накопленные к данной группе частоты.

Тестирование нормальности распределения по критерию Колмогорова – Смирнова основано на вычислении максимальной разности между фактически накопленным распределением выборкиианалогичнымнакоплениемтеоретическихраспределений:

Dn sup Fn (x) F(x) ,

где Fn (x) – накопленное распределение выборки фактическое; F (x) – накопленное теоретическое (ожидаемое) распреде-

ление (с известными параметрами); sup оператор максимума.

В случае когда различия между двумя накопленными суммами распределений существенны и разность накопленных частот достигнет критического значения, различия можно будет признать статистически достоверными. Чем больше эмпирическое значение, тем более существенными являются различия.

При формировании нулевой гипотезы предполагается отсутствие различия между наблюдаемым и теоретическим распределением против альтернативной. Критическое значение разности D вычисляется в программах или выбирается из соответствующих таблиц. Если расчетное значение меньше критического, принимается нулевая гипотеза. Если вычисленное значение больше, чем критическое значение, нулевая гипотеза отклоняется и принимается конкурирующая.

Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных. Вместе с тем на практике обычно эти параметры вычисля-

122

ются непосредственно из данных. В связи с этим критерий нормальности должен проверять сложную гипотезу – насколько вероятно получить D статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных.

Классический критерий Колмогорова предназначен для проверки простых гипотез. Если проверяется гипотеза о согласии наблюдаемой выборки с законом, все параметры которого известны, то критерий Колмогорова работает хорошо. Для проверки выборки о соответствии её нормальному закону распределения этим критерием требуется знать его параметры – математическое ожидание и дисперсию. Для сложных гипотез методика проверки какому-либо распределению тестом Колмогорова зависит от многих других факторов и существенно усложняется. Такая сложная проверка, предполагающая наличие дополнительных тестов, привела к тому, что в последние годы предпочтительнее в использовании становится критерий нормальности Шапиро – Уилкса W.

3.5.3. Проверка гипотез о виде распределения по критерию Шапиро – Уилка

Критерий Шапиро – Уилка считается одним из самых мощных для малых выборок. Рассмотрим пример проверки гипотез о виде распределения по критерию Шапиро – Уилка в программе Statistica. В меню «Анализ» щелкнем мышкой «Основные статистики и таблицы – Таблицы частот», в открытом окне щелкнем на закладку – «Нормальность» (рис. 3.20). Из критериев снимаем галочку с критерия Колмогорова – Смирнова (неизвестны математическое ожидание и стандартное отклонение), оставляем галочки у критериев Лиллиефорса и Шапиро – Уилка. В качестве переменной выбираем колонку с KCl. В закладке «Параметры» приводится число интервалов и другие параметры. После нажа-

123

тия кнопки «Критерии нормальности» выводится табл. 3.10 с результатами расчётов.

Рис. 3.20. Окна для проверки на нормальность по критерию Шапиро – Уилка

Таблица 3.10

Результаты расчёта тестов Шапиро – Уилка

Значение статистики теста Шапиро – Уилка принято обозначать буквой W. В примере W = 0,9843864 при p = 0,585311.

При использовании критерия результаты испытаний располагают в вариационный ряд и рассчитывают значения:

n

 

 

2

k

 

nm2 xi

x

 

 

; b an i 1(xn i 1 xi ) ,

(3. 10)

i 1

 

i 1

 

где i – номер элемента в вариационном ряду.

При этом если n чётное k = n / 2, а если n нечётное, k = = (n – 1) / 2. Значения an – i + 1 находят из таблиц. Статистику критерия рассчитывают по формуле W = b2 / nm2. Рассчитанное

124

значение Wэмп сравнивают с табличным Wтабл. Табличные значения критерия Wтабл в зависимости от уровня значимости α находят из статистических таблиц (прил. В).

Критерий рекомендуют применять при отсутствии априорной информации о типе возможного отклонения от нормальности. Возможности метода: выдвигается нулевая гипотеза H0: распределение выборки нормальное (значение коэффициента W Шапиро – Уилка в этом случае стремится к единице при любом значении p). Альтернатива H1: распределение отличается от нормального (значение коэффициента W Шапиро – Уилка стремится к нулю при p < 0,05). При использовании критерия важно обращать внимание не только на значение показателя W, но и на уровень статистической значимости. Так как нулевая гипотеза сформулирована о том, что распределение нормальное, то она будет приниматься при условии, что уровень статистической значимости p > 0,05 и высоких значений W > 0,9. В ином случае, принимается альтернативная гипотеза. В выборках объемом более ста объектов резко снижается чувствительность критерия. Плохо выявляются различия между нормальным, экспоненциальным и логистическим распределениями.

При расчётах критерия Лиллиефорса так же, как при использовании критерия Колмогорова, находится максимальное отклонение между выборочной и теоретической интегральными функциями распределения. В случае если для выборки объёмом N при выбранном уровне значимости α максимальное расчётное отклонение Dэмп (табл. 3.10) превышает указанную в таблице прил. Г величину, нулевую гипотезу о соответствии выборки нормальному распределению следует отвергнуть.

Поскольку в нашем примере 65 наблюдений, при α = 0,05,

Dкрит = 0,886 / 65 = 0,110. Из табл. 3.10: Dэмп = 0,062 < Dкрит = 0,110, нулевая гипотеза о соответствии выборки нормальному распределению принимается. И вероятность принятия этой гипотезы выше выбранного уровня значимости α.

125

Таким образом, ни один из трёх тестов не противоречит гипотезе о нормальном распределении хлорида калия в пробах, отобранных на участке пласта.

3.5.4. Упрощенные методы проверки нормальности выборки

Как указывалось ранее, ни один из критериев согласия не может заменить визуальную проверку соответствия гистограммы нормальному закону распределения случайной величины. Для примера произведём анализ значений той же переменной КCl на соответствие её нормальному закону распределения по полученным численным статистическим параметрам (табл. 3.11). При этом необходимо помнить, что основные численные характеристики нормального распределения должны соответствовать следующим условиям:

среднее, мода, медиана совпадают: Mo = Me = x ; 34,167 34,509;

асимметрия А = 0;

эксцесс Е = 0.

x

34,167;

Me 34,509, распределение мультимодаль-

ное, мода не определена.

Среднее арифметическое x равно 34,167. Медиана Ме равна 34,509. Распределение бимодальное (два выделяющихся столбца), что подтверждается гистограммой на рис. 3.19, мода

не определена. Получаем неравенство x Me , которое показывает наличие незначительной левосторонней асимметрии. Для визуального подтверждения сделанного вывода в дальнейшем построим график гистограмм с линией нормального закона распределения (рис. 3.19). Дисперсия 2 равна 10,650. Стандартное отклонение равно 3,264 (табл. 3.11).

126

Таблица 3.11

Расширенные статистики для переменной KCl

Асимметрия As равна – 0,077. Отрицательный знак подтверждает наличие левосторонней асимметрии у значений переменной КCl, но её величина незначительна. Оценим существенность асимметрии с помощью средней квадратической ошибки коэффициента асимметрии, который равен As = 0,297.

As : As = – 0,077: 0,297 = – 0,259 < 3, что говорит о не-

существенной левосторонней асимметрии, а следовательно, не противоречит нормальному закону распределения значений переменной КCl.

Е : Е = – 0,622: 0,586 = – 1,061 < 3, величина эксцесса

несущественна.

Таким образом, произведённый анализ описательных статистик показал наличие несущественной асимметрии и незначительного эксцесса в распределении КCl.

Построим гистограмму распределения хлорида калия в пробах и квантильный график (рис. 3.21).

На гистограмме заметна левосторонняя асимметрия, в первом интервале завышено число проб. Центр распределения имеет плоскую форму, не островершинную, что указывает на наличие эксцесса. Нисходящая ветка гистограммы круче восходящей. Об этих нарушениях также свидетельствует начало и конец квантильного графика. Также наблюдаются отклонения

127

точек от прямой в начале квантильного графика и в конце его. В целом в средней его части точки хорошо лежат на линии нормального распределения.

а

б

Рис. 3.21. а – гистограмма распределения КСl и б – квантильный график

Оценки для некоторых критериев согласия можно вывести на гистограмму распределения случайной величины. Для этого выбираем «Графики» – «2М графики» – «Гистограммы», выбираем переменную для анализа и переходим во вкладку «Дополнительно». В ней ставим галочку у критериев Шапиро – Уилка и Колмогорова – Смирнова (рис. 3.22).

Рис. 3.22. Вывод «2М Графиков» (гистограмма с параметрами критериев согласия)

128

4.ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ

4.1.Введение

Впредыдущих разделах мы рассмотрели оценки параметров распределения с помощью числовых значений, которые находятся по выборке и называются точечными. Если какаянибудь мера вычислена для всей генеральной совокупности, то она называется параметром. Мера, вычисленная по выборке, является оценкой параметра. Термин «выборка» определяется как некоторое количество независимых измерений одной и той же переменной. Выборка считается малой, если при измерении одномерной случайной величины Х объем выборки не превышает 30. Нужно понимать, что измеряемый по выборке параметр является оценкой, основанной на сравнительно небольшом числе наблюдений. Если бы мы задались целью провести «идеальный» эксперимент, то необходимо было бы в одних и тех же условиях на одном и том же образце провести одновременно бесконечно много измерений, что физически невозможно выполнить.

Ранее отмечалось, что одной из основных задач выборочного наблюдения является определение статистических характеристик генеральной совокупности. Поскольку это невозможно сделать непосредственно, на генеральную совокупность распространяют характеристики, вычисленные по выборочной совокупности.

Потенциальная возможность определения средней арифметической генеральной совокупности по данным средней выборки доказывается теоремой П.Л. Чебышева. В простейшем изложении она формулируется так: при неограниченном увеличении количества наблюдений вероятность того, что отличие выборочной средней от генеральной средней будет сколь угодно мало, стремится к единице.

129

4.2. Погрешности измерений и причины возникновения ошибок

Для получения каких-либо геодезических, горных, геологических или иных данных проводятся измерения. Процесс измерений производится в течение какого-либо времени, зачастую в неблагоприятных условиях. Таким образом, в измерениях участвуют объект измерения, измерительный прибор, наблюдатель и среда, в которой выполняют измерения. Неблагоприятные условия среды негативно влияют на результаты измерений. Точность зависит от качества измерительных приборов, квалификация наблюдателя, состояния измеряемого объекта и изменения среды во времени. В практике инженеров – маркшейдеров и геодезистов принято выполнять многократные измерения одной и той же величины, перечисленные факторы могут повлиять на результаты измерений, они не будут совпадать со значением измеряемой величины. Разность между результатом измерения и действительным значением измеряемой величины даёт погрешность результата измерения. По характеру и свойствам основные погрешности подразделяют на следующие типы: грубые, систематические и случайные [47]. Грубые ошибки или просчеты легко обнаружить при повторных измерениях, при использовании помехоустойчивой методики обработки или при внимательном отношении к измерениям. Систематические ошибки – те, которые действуют по определенным законам и сохраняют один и тот же знак. Систематические ошибки можно учесть в результатах измерений, если найти функциональную зависимость и с её помощью исключить ошибку или уменьшить её до малой величины. Методика измерений также может исключить появление систематических погрешностей, например, измерение горизонтальных углов способом приёмов при двух положениях круга исключает коллимационную ошибку. Случайные погрешности – результат действия нескольких причин. Её величина зависит от того, кто измеряет, каким методом и в каких условиях. Случайными эти ошибки называют-

130

Соседние файлы в папке книги