Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Теория вероятностей и математическая статистика. Прикладная статистика с использованием MS EXCEL

.pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
3.04 Mб
Скачать

Пример 3.10. Для 100 одинаковых новых шин экспериментально определена непрерывная случайная величина, соответствующая ресурсу шины по допустимому износу протектора (все 100 шин списаны по этому показателю) в тысячах километров пробега. Проверить гипотезу о том, что ресурс шин исследованного типа имеет нормальное распределение. Уровень значимости принять равным 0,05. Полученные данные по ресурсу 100 изношенных шин, тыс. км:

36,6

31,2

37,5

34,1

33,0

30,2

36,4

36,3

34,2

47,2

31,9

37.6

41,4

37,8

36,8

30,9

34,6

44,1

34,8

32,7

34,6

31.6

35,3

35,6

42,1

38,8

33,9

37,7

32,9

47,8

30,8

40,0

51,6

52,4

68,0

32,8

30,5

33,2

30,9

33,1

40,0

33,5

31,4

39,9

31,6

34,9

35,0

35,8

31,7

32,3

38,8

36,9

37,6

30,8

32,0

30,7

41,5

33,9

30,2

30,1

42,0

43,5

30,7

31,0

40,7

34,6

33,7

30,4

33,9

38,6

33,0

32,4

36,6

33,3

31,5

36,7

34,3

34,7

33,1

31,8

32,0

41,3

32,9

47,8

39,7

35,3

30,3

40,6

31,0

33,9

32,4

33,3

44,4

37,6

33,2

33,0

43,8

33,9

34,7

37,9

Решение. Введем полученные данные в ячейки А1:А100 таблицы Excel и с помощью инструмента «Описательная статистика» (см. пример 2.5) найдем числовые характеристики выборки:

Среднее

36,07

Асимметричность

2,391

Стандартная ошибка

0,579

Интервал

37,9

Медиана

34,42

Минимум

30,1

Стандартное отклонение

5,788

Максимум

68,0

Дисперсия выборки

33,5

Сумма

3607

Эксцесс

9,042

Счет

100

Построим группированный статистический ряд и саму гистограмму (рис. 3.15) с помощью инструмента «Гистограмма» (см. пример 2.2):

121

«Карман»

Частота

«Карман»

Частота

«Карман»

Частота

33

33

48

3

63

0

36

29

51

0

66

0

39

17

54

2

69

1

42

9

57

0

 

 

45

6

60

0

 

 

Рис. 3.15. Результат выполнения примера 3.10 в инструменте «Гистограмма»

Анализ этого ряда и графика показывает, что в выборке присутствует одна варианта, значительно отличающаяся от остальных вариант – значение 68,0. Если оценить доверительный интервал исследуемой случайной величины с помощью правила

«трех сигма» [ mx 3σx , mx +3σx ], справедливого для нормально

распределенных величин с вероятностью ошибки 0,0028, то имеем диапазон 18,7 < x < 53,4, в который отмеченная варианта далеко непопадает. На основании этих рассуждений сделаем цензурирование выборки справа– удалим варианту 68,0. Послеэтого числовыехарактеристикивыборкиимеютследующиезначения:

Среднее

35,74

Асимметричность

1,343

Стандартная ошибка

0,485

Интервал

22,3

Медиана

34,27

Минимум

30,1

Стандартноеотклонение

4,828

Максимум

52,4

Дисперсия выборки

23,31

Сумма

3539

Эксцесс

1,724

Счет

99

122

 

 

 

Теперь доверительный интервал исследуемой случайной

величины с помощью правила «трех сигма» [ mx 3σx , mx +3σx ] имеет диапазон 21,3 < x < 50,2, в который опять не попадает две варианты: 51,6 и 52,4. Последнее событие имеет вероятность порядка 0,00282, меньшую заданного уровня значимости, поэтому необходимо признать, что удаление варианты 68,0 является некорректным (в конце раздела дано более правильное определение доверительного интервала на основе подбора экспоненциального закона распределения для данной выборки и обоснование сохранения варианты 68,0 при цензуре выборки).

Выборочные данные дают основание предполагать, что исследуемая случайная величина имеет несимметричное распределение, о чем также говорят высокие выборочные коэффициенты асимметрии, положение минимальной и максимальной вариант относительно среднего, а наиболее наглядно – вид построенного графика (см. рис. 3.15). Для того чтобы убедиться в этом, проверим по критерию Пирсона гипотезу, что выборка следует симметричному нормальному распределению.

На основании полученных результатов и метода моментов оцениваем параметры гипотетического нормального закона распре-

деления N (a; σ2 ): a = mx = 36,07 и (σ2 ) = s2 = 33,5 (s = 5,788).

Памятуя о

необходимости выполнения условия

npi 5, повторим

построение группированного статистиче-

ского ряда с заданными в ячейках С17:С22 значениями «кар-

манов»: 33, 36, 39, 42, 45, 69:

«Карман»

Частота

«Карман»

Частота

33

33

42

9

36

29

45

6

39

17

69

6

Спомощьювызовафункции= НОРМРАСП(A2; 36,07; 5,788; 1) (рис. 3.16) вычисляем в ячейке С2 значение теоретической вероятности p1 попадания вариант в первый «карман», формулой

123

=НОРМРАСП(A3;36.07;5.788;1) – НОРМРАСП(A2;36.07;5.788;1)

в ячейке С3 – значение теоретической вероятности p2 и ко-

пируем последнюю формулу в ячейки А4:А7. После этого задаем в ячейке D2 формулу =100*С2 и копированием ее в ячейки D3:D7 вычисляем значения теоретических частот npi .

Условие npi 5 выполняется, аналогично примеру 3.9 вычисляем значение χнабл2 =8,8245.

Рис. 3.16. Проверка критерия Пирсона в случае нормального распределения

Для подсчета значения правосторонней критической точки для уровня значимости α = 0,05 и числа степеней свободы ν = 6 2 1 = 3 в ячейке F11 задаем формулу =ХИ2ОБР(0.05;3),

имеем (χ2 )правкр, α = χ12−α,ν = 7,8147.

Учитывая, что χнабл2 > (χ2 )правкр, α, с помощью критерия

Пирсона при уровне значимости 0,05 следует отвергнуть гипотезу о том, что представленная в выборке случайной величины Х имеет нормальное распределение.

Примечание. В некоторых руководствах, например в [7], для непрерывных законов распределения предлагается считать за значения xi средние значения «карманов» и вычислять тео-

124

ретической вероятности pi интегрированием по формуле пря-

моугольников в отличие от использованного выше точного вычисления. Для рассмотренного случая эта методика не дает результатов – число «карманов» уменьшается до 2.

Для построения вероятностной модели распределения по выборке табл. 3.5 гистограмма (см. рис. 3.14) подсказывает попробовать в качестве подходящего несимметричного закона распределения представленные в Excel: стандартное гамма-

распределение [ГАММАРАСП(x; альфа; бета; интегральная),

параметры: альфа*=среднее, бета = 1] или экспоненциальное распределение, являющееся частным случаем гамма-распределения

[ГАММАРАСП(x; альфа; бета; интегральная), параметры:

альфа=1, бета*=среднее)] или логарифмически нормальное распределения, имеющие областьопределения х˚≥˚0.

Например, гипотеза о применимости стандартного гаммараспределения и экспоненциального распределения для данной выборки принимается по критерию Пирсона согласно результатам, представленным на рис. 3.17, 3.18.

Рис. 3.17. Проверка критерия Пирсона в случае стандартного гамма-распределения

125

Для применения экспоненциального распределения (2.1) исходную случайную величину Х, представленную в выборке, необходимо линейно преобразовать в новую случайную величину Y = X – 30, т.к. мода экспоненциального распределения соответствует значению х = 0 (см. рис. 2.1). При этом оценка математического ожидания также смещается на указанную ве-

личину my = mx 30 = 6,07 и по методу моментов имеем оцен-

ку параметра экспоненциального распределения (2.1) 1λ = = бета = my = 6,07.

Рис. 3.18. Проверка критерия Пирсона в случае экспоненциального распределения для линейно преобразованной случайной величины

Y = X – 30

Сравнение результатов проверки критерия Пирсона по вычисленным значениям χнабл2 = 3,19 в случае экспоненциального распределения и χнабл2 = 7,06 для стандартного гамма-распре-

деления показывает преимущество экспоненциального распределения при подборе распределения для данной выборки.

Для обоснования сохранения в выборке варианты со значением 68,0 оценим доверительный интервал исходной случайной величины Х, найдя его сначала для случайной величины Y, распределенной по экспоненциальному закону с параметром

126

λ =1/ 6,07 = 0,164744

( бета* =1 λ = my = 6,07).

Задавшись

доверительной

вероятностью

Pд ≡β =1−α

= 0,999, найдем

квантили уровня

 

 

 

 

 

yα/ 2

= y0,0005 = ГАММАОБР(0.0005;1;6.07) = 0,003;

y1−α/ 2

= y0,9995 = ГАММАОБР(0.9995;1;6.07) = 46,138.

Тогда соответствующие квантили исходной случайной

величины

Х

имеют

значения

xα/ 2 = yα/ 2

+30 = 30,003

и x1−α/ 2 = y1−α/ 2

+30 = 76,137.

Следовательно,

доверительный

интервал для значений случайной величины Х, представленной в данной выборке, оценивается интервалом Iβ* = I0,999* =

={30,003; 76,137}.

Убеждаемся, что все значения данных по ресурсу изношенных шин, включая и значение 68,0, лежат внутри этого доверительного интервала.

Вопросы для самопроверки и защиты расчетно-графической работы № 3

1.Сформулируйте задачу статистической проверки ги-

потез.

2.Как проводится статистическая проверка гипотез?

3.Какие гипотезы называют параметрическими, непараметрическими?

4.Какие ошибки возможны при статистической проверке гипотез? В чем их сущность? Что такое мощность критерия?

5.Какие статистики используются при проверке параметрических гипотез? Каковы распределения этих статистик?

6.Что такое критерий согласия? В чем заключается идея применения критериев согласия?

7.В чем заключается критерий согласия Пирсона?

127

4.УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ КОНТРОЛЬНЫХ РАБОТ

ИУСТАНОВКЕ ПАКЕТА АНАЛИЗА MS EXCEL

Квыполнению работ следует приступать только после изучения соответствующего раздела курса.

Номер варианта задания для каждой работы выбирается по номеру зачетной книжки:

– если число из двух последних цифр номера не превосходит 30, то номер варианта совпадает с этим числом, за исключением одного случая – для двух последних цифр 00 нужно выполнять вариант 30;

– если число из двух последних цифр номера зачетной книжки больше 30, то номер варианта определяется вычитанием 30, пока результат не станет меньше 31 (например, вариант 5 соответствует номерам зачеток, оканчивающихся на 05, 35, 65, 95; вариант 30 – на 00, 30, 60, 90).

Результаты выполнения работ следует представить в напечатанном на бумаге отчете со стандартным титульным листом c указанием исполнителя и номера варианта, с исходными данными, полученными числовыми и графическими результатами, скраткими комментариями, поясняющими этирезультаты.

Работы выполняются с помощью табличного процессора

Microsoft Excel, входящего в пакет Microsoft Office (в прил. 1

приведено краткое необходимое введение в Excel). Табличный процессор Excel содержит обширный список

встроенных статистических функций (см. прил. 2). Функции, реализующие статистические методы обработки и анализа данных, в Excel представлены в виде специального программного расширения – надстройки «Пакет анализа», которая входит в поставку данного программного продукта и может устанавливаться по желанию пользователя.

128

MS Excel не предназначен для комплексного статистического анализа и обработки данных (в отличие от специального статистического программного обеспечения, такого как STATISTICA, SPSS и др.). Однако в рамках Excel с помощью команд, доступных из окна «Анализ данных» (рис. П1.2), можно провести:

описательный статистический анализ («Описательная статистика»);

ранжирование данных («Ранг и персентиль»);

графический анализ данных («Гистограмма»);

осуществление выборки из заданной генеральной совокупности («Выборка»);

генерацию выборок с различными распределениями («Генерация случайных чисел»);

проверку статистических гипотез («Выборочный z-тест для средних», «Парный двухвыборочный t-тест для средних», «Двухвыборочный t-тест с одинаковыми дисперсиями», «Двухвыборочный t-тест с различными дисперсиями», «Двухвыборочный F-тест длядисперсии»);

прогнозирование данных («Скользящее среднее», «Экс-

поненциальное сглаживание»);

анализ случайных периодических функций («Анализ Фурье»);

регрессионный анализ («Регрессия»);

корреляционный анализ («Ковариация», «Корреляция»);

дисперсионный анализ («Однофакторный дисперсионный анализ», «Двухфакторный дисперсионный анализ с повторениями», «Двухфакторный дисперсионный анализ без повторений»).

Если в меню «Сервис» нет пункта «Анализ данных», то

надстройку «Пакет анализа» нужно установить. Установка производится точно так же, как и установки прочих надстроек, то есть через меню «Сервис» → «Надстройки», после чего в диалоговом окне «Надстройки» необходимо пометить пункт «Пакет анализа» и нажать кнопку «ОК» (рис. 4.1).

129

Если список в диалоговом окне «Надстройки» не содержит «Пакет анализа», нажмите кнопку «Обзор» и укажите диск, папку и имя файла для этой надстройки: Analys32.xll (как правило, папка Microsoft Office\Office\Library\Analysis) или запус-

тите программу Setup, чтобы установить эту надстройку. Установитефлажок «Пакет анализа».

Рис. 4.1. Установка пакета анализа

Если процесс установки завершается успешно, то в меню «Сервис» появляется еще один пункт – «Анализ данных», а также при создании формул становится доступной новая группа функций – статистические.

Для успешного применения процедур анализа необходимы начальные знания в области статистических расчетов, для которых эти инструменты были разработаны.

130