Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

более 1 %. Тогда критическое значение уровня значимости

крит = 5 : 100 = 0,05 означает следующее: если гипотезу Н0 проверять по каждой из 100 пар проб, то в среднем в пяти слу-

чаях из ста мы совершим ошибку. Эта ошибка будет заключаться в том, что мы посчитаем количество отклонений существенным. Статистически мы отвергнем нулевую гипотезу Н0 и примем альтернативнуюгипотезуH1 несмотрянато,что гипотеза Н0 верна.

Таким образом, при формировании выводов в таких вопросах могут иметь место ошибки двух типов, схема появления которых представлена на рис. 3.4:

ошибка первого рода – когда отвергают нулевую гипотезу Н0 и принимают альтернативную гипотезу H1, тогда как на самом деле гипотеза Н0 верна;

ошибка второго рода – когда принимают гипотезу Н0, тогда как на самом деле высказывание Н0 неверно, верной является гипотеза Н1 [20].

В этом случае уровень значимости это априори заданная вероятность совершения ошибки первого рода (формула (3.2)) и вероятность того, что будет принята гипотеза Н1, если на самом деле для генеральной совокупности верна гипотеза Н0:

αкрит = P (H1 : H0).

(3.2)

Проверяя и принимая нулевую гипотезу, нельзя забывать, что та или иная выбранная пороговая (критическая) величина уровня значимости (например, крит = 0,05) – результат условной договоренности. Если мы поставим более жёсткие требования, к примеру крит = 0,01, то и результат можем получить другой.

Проверим гипотезу о равенстве средних значений из двух выборок. (подробнее это будет изложено в п. 3.4). Наиболее часто используемым методом обнаружения различия между средними двух выборок служит критерий Стьюдента (t-критерий). Уровень p-значимости t-критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда

81

в действительности эта гипотеза имеет место. Иными словами, он равен вероятности ошибки принять гипотезу о неравенстве средних, когда в действительности средние равны.

Таблица 3.1

Результаты вычислений средних зависимых выборок

Исходные данные для проверки гипотез «о равенстве средних» отобраны из одной генеральной совокупности, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными. Средние значения отличаются во втором знаке после запятой. Можно ли считать их равными? Величина |tэмп | = 0,43 < tкрит = 1,998, следовательно, гипотеза «средние в двух группах равны» принимается.

Функция плотности на рис. 3.3 свидетельствует о том, что 95 % (р = 0,95) всех разностей лежит в области принятия нулевой гипотезы. Только 5 % разностей лежат в критических областях, и это области с большими значениями разностей. В этом примере, если гипотеза о равенстве парных проб имеет расчётную значимость (р-уровень) по отношению к данной выборке меньше или равную критическому значению 0,05, то она должна быть отвергнута как маловероятная при полученных результатах, если больше 0,05, то принята (см. принцип практической невозможности маловероятных событий, п. 3.1). В нашем примере достигнутый р-уровень равен 0,66 (табл. 3.1), что не позволяет отвергнуть нулевую гипотезу. Вместе с тем это лишь вероятностное утверждение, которое не предполагает безусловной гарантии. В некоторых случаях этот вывод может оказаться неправильным.

82

Рис. 3.3. Вычисление величины критерия Стьюдента tкрит в вероятностном калькуляторе программы Statistica

Используется и противоположное этой оценке понятие – уровень доверия. Уровень доверия – вероятность не отвергнуть верную нулевую гипотезу. Поскольку уровень значимости и уровень доверия формируют полную группу событий, можно записать следующее соотношение: = α + β = 1, тогда уровень доверия = 1 – α. В таком случае проверить нулевую гипотезу на уровне значимости 5 % и проверить нулевую гипотезу на уровне доверия 95 % – это одно и то же. Вероятность принять правильное решение в нулевой гипотезе, когда она верна (или уровень доверия к нулевой гипотезе):

1 – αкрит = P (H0 : H0).

Ошибку первого рода можно совершить, только отвергая нулевую гипотезу, а ошибку второго рода – только принимая нулевую гипотезу. Невозможно одновременно совершить обе ошибки (см. рис. 3.4).

Вероятность ошибки второго рода обозначают , т.е. вероятность того, что будет принята гипотеза Н0, если на самом деле верна гипотеза Н1 (3.3):

β P (H0

:H1).

(3.3)

 

 

 

 

83

Рис. 3.4. Схема ошибок к принятию гипотез

С этой величиной тесно связана другая, имеющая большое статистическое значение, – мощность критерия. Она вычисляется по формуле (1 – ). Мощность критерия – это его способность выявлять различия, если они есть [20]. Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

Численные значения β и α в сумме равны единице, что определяет полный набор событий – либо мы сделали правильный вывод, либо мы ошиблись. Эти уровни не рассчитываются, они чаще всего заданы в соответствующих таблицах [13; 68]. Уровень значимости можно понимать как априори заданную границу, до которой событие считается случайным, а после пересечения даёт нам основание считать данное событие неслучайным. Понятно, что исследователя всегда интересует вопрос, насколько правильным будет его решение отклонить нулевую гипотезу Н0, иными словами, какова вероятность ошибочного отклонения гипотезы Н0.

Критические значения критерия при наиболее используемых уровнях значимости обычно печатаются в статистических

84

таблицах. В случаях ручных расчётов, когда использовались статистические таблицы, значения того или иного критерия выведены с априори заданным интервалом. Если проверяемое значение попадало не на границу, а внутрь интервала, для облегчения процесса принятия решения предлагалось вычерчивать «ось значимости» (рис. 3.5).

Рис. 3.5. Схема расположения зон для принятия решения о значимости события

Например, при уровнях значимости α < 0,05 и α < 0,01 на рисунке они обозначены соответственно как F0,05 и F0,01. Но эмпирическое значение критерия (например, Fэмп = 0,03) могло попасть в интервал между критическими (табличными) значениями, показанными на рис. 3.5. Правее критического значения F0,01 простирается «зона значимости» – сюда попадают эмпирические значения, не превышающие F0,01 и, следовательно, безусловно, значимые.

Влево от критического значения F0,05 простирается «зона незначимости» – сюда попадают эмпирические значения F, которые больше F0,05 и, следовательно, безусловно, незначимы.

Если эмпирическое значение критерия (Fэмп) попадает в область между F0,05 и F0,01, т.е. в «зону неопределенности», мы уже можем отклонить гипотезу о недостоверности различий Н0, но еще не можем принять гипотезу об их достоверности Н1 [25].

По мере разработки и использования статистических программных продуктов появляется возможность вычислить критическое значение для любого критерия. Такая возмож-

85

ность позволяет перейти на более современное представление результатов проверки гипотез – в виде «достигаемого уровня значимости», т.е. вероятности того, что статистика критерия покажет большее отклонение от нулевой гипотезы, чем то, что соответствует имеющимся экспериментальным данным [41]. Согласно современным представлениям следует употреблять именно «достигаемый уровень значимости», а методика стандартных априори заданных уровней значимости остается для тех случаев, когда «достигаемый уровень значимости» не удается вычислить.

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться со значениями порога – сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является критический уровень значимости, которым задаются при проверке статистических гипотез. В литературе можно найти разные варианты интерпретации статистических выводов по уровню значимости [37]. Один из них представлен в табл. 3.2.

Таблица 3.2

Традиционная интерпретация рассчитанных уровней значимости

Расчётный

 

 

уровень

Решение

Возможныйстатистическийвывод

значимости

 

 

p >0,1

ОтвергаетсяН0

Обнаруженыдостоверныеразличия

0,05≤p ≤0,1

Сомнениявистинно-

Различияобнаруженынауровне

стиН0,неопределенность

статистическойзначимости

0,01<р≤0,05

Значимость,

Необнаруженыстатистически

принимаетсяН0

достоверные(значимые)различия

 

0,001≤p < 0,01

Высокаязначимость,

Различиянеобнаруженынавысоком

принимаетсяН0

уровнестатистическойзначимости

 

86

Проверка теста (для условий табл. 3.2) начинается с выдвижения нулевой гипотезы, которая утверждает, что нет никаких различий между данными или отсутствует связь между двумя явлениями, для которых будут собираться данные. Если цель эксперимента состоит в том, чтобы найти или продемонстрировать какой-то тип взаимосвязи или влияние, нулевая гипотеза равносильна утверждению, что эксперимент «потерпел неудачу».

Статистическая значимость основана на вероятности получения результата при предположении, что нулевая гипотеза верна – это математический критерий, который мы можем использовать, чтобы решить, следует ли нам принять или отвергнуть нулевую гипотезу.

3.3.7. Определение критических значений распределений на практике в модуле «Вероятностный калькулятор» программы Statistica

Впредыдущих разделах часто используется вероятностный калькулятор. Этот модуль программы Statistica позволяет определить критические значения основных распределений, наглядно просмотреть графики функций распределения и плотностей распределения основных вероятностных законов.

Вверней части окна приведены режимы, необходимые для вычисления статистик (рис. 3.6).

Обратная функция распределения. Эта опция позволяет провести вычисления для обратной функции распределения. Таким образом, если ввести уровень значимости, то можно вычислить критическое значение соответствующей статистики. Если пользователь начнёт изменять значение p в соответствующем поле ввода, эта опция будет выбрана автоматически.

87

Рис. 3.6. Расчёт значений основных распределений на примере нормального

Двусторонняя. Эта опция позволяет вычислить двусторонний критерий (отрезок [m – x; m + x], где m – среднее значение, т.е. рассмотреть оба хвоста функции распределения статистики критерия). Применимо только для симметричных распределений. Если флажок в этой строке не устанавливать, то расчёт будет проведен для левого отрезка в интервале ; x . Если

установить флаг на строку (1 – ф.р.) и не ставить его на двустороннюю, то расчет будет проведен для интервала, противоположного указанному x; .

1 – функция распределения (1 – ф.р.). Эта опция позволяет вычислить критическое значение выбранного распределения по величине (1 – ф.р.) или, наоборот, вычисляет (1 – ф.р.) по критическому значению (т.е. рассматривается левый хвост функции распределения).

При выборе того или иного распределения в вероятностном калькуляторе могут появиться новые поля, где можно задать параметры выбранного распределения. В некоторых случаях поля могут быть заполнены. Например, для нормального распределения: mean (среднее) и std.dev (стандартное отклонение).

88

По умолчанию система запишет в них стандартные значения: среднее = 0, стандартное отклонение = 1. Чтобы изменить данные значения, надо поместить курсор мыши в эти поля, щелкнуть левой кнопкой и ввести с клавиатуры нужные величины. Из рисунка видно, что для нормированного ряда наблюдений в интервале 3 находится 0,9973 всех наблюдений.

После выбора распределения в левом списке в поле калькуляторапоявятсяграфикиплотностиифункциираспределения[13].

Вцентре диалогового окна приведены поля, необходимые для ввода р-уровня доверительной вероятности. В поле р надо ввести значение вероятности, при этом флажок автоматически переместится на Inverse («обратная»). После инициирования кнопки Compute («вычислить») (в правом верхнем углу окна) в поле Х появится вычисленная величина квантиля, соответствующая выбранному уровню вероятности. Такие вычисления можно выполнить и в обратном направлении – по введённому значению Z определить уровень вероятности p. Для этого надо задать числовое значение квантиля, нажать на кнопку Compute

вполе р будет выведено расчётное значение вероятности, соответствующее введённой величине Z. Можно установить флажок на поле Create Graph («создать график») и инициировать команду Compute, после чего на экране монитора будут сформированы и выведены графики плотности и функции распределения с выделенными на них значениями вероятности [13].

Фиксированный масштаб. Это поле позволяет изменить масштаб графиков (показываемых в окне и выводимых с помощью опции «График». Если опция выбрана, программа использует фиксированный масштаб для графиков, и при изменении параметров распределения можно увидеть изменения на графике в том же самом масштабе.

Вотчет. Поставьте пометку в этом поле, чтобы направлять p-уровень и критическое значение для выбранного распределения в отчет.

89

График. Опция позволяет создать составной график плотности и функции распределения. График создается после нажатия кнопки «Вычислить».

3.4.Решение задачи сравнения выборок

3.4.1.Виды выборок данных

Впрактической деятельности часто встречаются ситуации, когда имеется две нормально распределённые выборки и среднее значение. Величина дисперсии данных первой выборки может отличаться от этих статистик другой выборки. В этом случае возникает вопрос, можно ли считать это расхождение незначимым, т.е. чисто случайным, или оно вызвано существенным различием двух генеральных совокупностей. Для решения задачи сравнения выборок используют статистические критерии. Вместе с тем необходимо учитывать, с какими выборками мы имеем дело в данном исследовании, поскольку они могут быть двух видов – независимые и зависимые.

Независимые выборки (не связанные выборки) – это две выборки, отобранные с разных участков, у которых были измерены одни и те же признаки по одним и тем же методикам.

Зависимые выборки (связанные выборки) – это одна и та же группа объектов, у которых были измерены одни и те же признаки в двух (или более) различных ситуациях. Например, оседания по реперам профильных линий до разработки панели

ипо истечении определённого времени после разработки.

Для того чтобы выбрать критерий различий, необходимо ответить себе на следующие вопросы:

1. По какой шкале измерен признак?

Если признак измерен по шкале наименований или шкале порядка, то выбирается непараметрический критерий. Если признак измерен по интервальной или пропорциональной шкале, то выбор критерия зависит от ответа на второй вопрос.

90

Соседние файлы в папке книги