Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Теория вероятностей и математическая статистика. Прикладная статистика с использованием MS EXCEL

.pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
3.04 Mб
Скачать

 

 

Решение. Для

 

распределения

Пуассона

 

p{X = k} =

=

ak exp(a)

, k = 0,1, 2, ...,

 

поэтому

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Θxi exp(−Θ)

 

 

 

 

 

 

 

 

p{x , Θ} = p{X = x , Θ} =

.

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

xi !

 

 

 

 

 

 

 

Функция правдоподобия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Θxn

 

 

L(x

, x

, ..., x , Θ) =

Θx1

exp(−Θ)

 

Θx2 exp(−Θ)

 

exp(−Θ)

=

1

2

 

 

n

 

 

x1

!

 

 

 

 

 

 

x2 !

 

 

 

 

 

 

 

 

 

 

 

xn !

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= exp(nΘ)Θx1 + x2 +...+ xn

 

 

 

 

 

1

 

 

.

 

 

 

 

 

 

 

 

x

 

! x

!... x !

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

2

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

Тогда ln[L(x1, x2 , ..., xn , Θ)] = −nΘ+ ln(Θ) xi ln(x1 ! x2 !... xn !)

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dln[L(x , x , ..., x , Θ)]

= −n +

1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

n

 

 

 

 

 

 

 

 

xi .

 

 

 

 

 

 

 

 

 

 

 

 

dΘ

 

 

 

 

 

 

 

 

 

 

 

 

Θ i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уравнение правдоподобия

 

 

n +

 

 

 

xi

 

 

 

= 0 имеет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

 

Θ i=1

 

 

 

Θ=a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

единственный кореньa =

 

xi

= x = mx , для которого

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d2 ln[L(x , x , ..., x , Θ)]

 

 

 

 

1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 2

 

 

 

n

 

 

 

 

 

= −

 

 

 

 

 

xi < 0,

 

 

 

 

 

 

 

 

dΘ

2

 

 

 

 

 

 

 

 

Θ

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Θ=a

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

следовательно, оценкой параметра а распределения Пуассона методом максимального правдоподобия являетсяa = mx .

Для непрерывной случайной величины с известным видом плотности распределения f(x) и неизвестным параметром Θ функция правдоподобия имеет вид:

L (х1, х2, …, хп; Θ) = f (x1,Θ)f (x2,Θ)…f (xn,Θ).

(2.19)

Оценка наибольшего правдоподобия неизвестного параметра проводитсятакже, какдлядискретнойслучайнойвеличины.

61

Если нужно оценить два неизвестных параметра Θ1

и Θ2

плотности распределения f (x, Θ , Θ

2

), то оценки Θ

и Θ оп-

 

 

1

 

 

1

 

2

ределяются решением системы уравнений правдоподобия:

dln[L(x1

, x2 , ..., xn ; Θ1,Θ2 )]

= 0;

 

 

 

 

 

 

 

 

 

 

 

dΘ1

 

 

 

 

 

 

 

 

 

 

 

(2.20)

 

dln[L(x1, x2 , ..., xn ; Θ1,Θ2 )]

 

 

 

= 0.

 

 

 

 

 

 

dΘ2

 

 

 

 

 

 

 

 

 

 

 

 

 

Если в окрестности этого решения функция правдоподобия имеет непрерывные производные первого и второго порядка, то отрицательная определенность матрицы вторых производных (матрицы Гессе) есть достаточное условие, что это решение соответствует максимуму функции правдоподобия:

 

 

d2 ln[L(x , x , ..., x ; Θ

,Θ

)]

 

d2 ln[L(x , x , ..., x ; Θ

,Θ

)]

 

 

 

1

2

 

n

1

2

 

1

2

n

1

2

 

 

 

 

 

dΘ2

 

 

 

 

 

 

d Θ d Θ

2

 

 

 

< 0. (2.21)

det

 

 

1

 

 

 

 

 

 

 

1

 

 

 

 

d2 ln[L(x , x , ..., x ; Θ

,Θ

)]

 

d2 ln[L(x , x , ..., x ; Θ

,Θ

)]

 

 

1

2

 

n

1

2

 

1

2

n

1

2

 

 

 

 

d Θ d

Θ

2

 

 

 

 

 

dΘ2

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

2

 

 

 

 

 

Достоинстваметоданаибольшегоправдоподобия(предложен Р. Фишером): полученные оценки состоятельны (хотя могут быть смещенными), распределены асимптотически нормально при больших значениях п и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение правдоподобия имеет единственное решение Θ*; метод наиболее полно использует данные выборки и поэтому особенно полезенвслучаемалыхвыборок.

Недостатком метода наибольшего правдоподобия является сложность вычислений.

2.3.2. Метод моментов

Метод моментов основан на том, что начальные и центральные эмпирические моменты являются состоятельными оценками соответственно начальных и центральных теорети-

62

ческих моментов, поэтому можно приравнять теоретические моменты соответствующим эмпирическим моментам того же порядка.

Если задан вид плотности распределения f (x, Θ), определяемой одним неизвестным параметром Θ, то для оценки этого параметра достаточно иметь одно уравнение. Например, можно приравнять начальные моменты первого порядка, вычисленные по выборке и по теоретическому распределению:

x = ν1 = M (X ) = x f (x;Θ)dx = ϕ(Θ) ,

−∞

получив тем самым уравнение для определения Θ. Его решение Θ будет точечной оценкой параметра, которая является функцией от выборочного среднего и, следовательно, от вариант выборки:

Θ = ψ (х1, х2, …, хп).

Например, для распределения Пуассона ν1 = a и оценкой

параметра а согласно методу моментов также (см. пример 2.5) является a = x .

Если известный вид плотности распределения f(x, x,Θ1, Θ2 )

определяется

двумя

неизвестными

параметрами

Θ1 и Θ2,

то требуется составить два уравнения, например

 

 

 

ν

1

= ν ; μ

2

= μ ;

 

 

 

 

1

 

2

 

Отсюда

имеем

М(Х) = х

 

систему двух

уравнений

D(X ) = D

 

 

 

 

x

 

 

 

с двумя неизвестными Θ1 и Θ2 . Ее решениями будут точечные оценки Θ1 и Θ2 – функции вариант выборки:

Θ1 = ψ1 (х1, х2, …, хп), Θ2 = ψ2(х1, х2, …, хп).

63

Так, найденные в примере 2.5 выборочные значения среднего (2.0794, 2.0257, 2.1185, 2.1223, 2.1003) и стандартного отклонения (0.11952, 0.1145, 0.1237, 0.1206, 0,0978) согласно методу моментов являются пятью парами точечных оценок

параметров нормального закона распределения a и σ (их точные значения: а = 2,1; σ = 0,1 были заданы в примере 2.2).

Достоинством метода моментов (предложен К. Пирсоном в 1894 г.) является его простота, получаемые оценки обычно состоятельны, но эффективность их не всегда максимальна.

2.4. Интервальное оценивание неизвестных параметров нормально распределенной генеральной совокупности

Точечная оценка неизвестного параметра не позволяет непосредственно ответить на вопрос, какую ошибку мы совершаем, принимая вместо точного значения параметра его приближенное значение (оценку). Чтобы дать представление о точности и надежности оценки, в математической статистике используют доверительные интервалы и доверительные вероятности.

Пусть для параметра Θ по данным выборки получена не-

смещенная оценка Θ . Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность β (например, 0,9; 0,95 или 0,99), такую, чтобы событие

с вероятностью β можно было считать практически достоверным. После этого найдем такое малое положительное значение ε, для которого событие { Θ −Θ } < ε имеет вероятность β:

P{

 

Θ −Θ

 

< ε} .

(2.22)

 

 

Тогда диапазон практически возможных значений ошибки, возникающий при замене Θ на Θ , будет ± ε.

Вероятность β (обозначают также Pд ≡ γ ≡β =1−α) на-

зывают доверительной вероятностью (надежностью) оцен-

64

ки Θ . Ошибки, большие по абсолютной величине, чем ε, будут появляться с малой вероятностью α =1−β, называемой

уровнем значимости оценки Θ (или риском, что погрешность будет больше заданной точности ε).

Перепишем равенство (2.22) в виде

{

}

(2.22')

P

Θ −ε < Θ < Θ +ε =β.

Последнее равенство означает, что неизвестное значение параметра Θ с вероятностью β накрывается интервалом

Iβ = (Θ −ε; Θ +ε).

(2.23)

Отметим одно обстоятельство: величина (неизвестная) параметра Θ не случайна, а интервал случаен (центр его и радиус вычисляются по выборке). Интервал Iβ называют дове-

рительным интервалом, а границы интервала Θ1 = Θ −ε

и Θ2 = Θ +ε называются доверительными границами. Перей-

дем к вопросу нахождения доверительных границ Θ1 и Θ2. Эти

границы зависят, от распределения наблюдаемой случайной величины, оцениваемого параметра и других предположений.

2.4.1. Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии

В нормально распределенной генеральной совокупности случайной величины X N (a; σ2 ) будем считать параметр σ известным, а a = mx – неизвестным. По выборке объема n найдем по(2.3) точечную оценку математического ожидания mx m:

 

 

1

n

mx

m x =

xi .

 

 

 

n i=1

Как случайная величина, эта оценка имеет математическое ожидание m, дисперсию σ2 n и распределена нормально

65

(в силу центральной предельной теоремы). Тогда выборочная статистика

U =

m m

 

 

 

σ/ n

 

 

 

 

 

будет нормированной нормальной

величиной,

то есть

U N (0;1) (см. подразд. 1.2.1).

 

 

Задав доверительную вероятность

Pд ≡β =1−α,

мы мо-

жем по таблицам функции Лапласа найти промежуток, в котором с вероятностью β будет находиться случайная величина

U , и с его помощью найдем промежуток, в котором с этой же вероятностью окажется оцениваемый параметрmx . Это и будет искомый доверительный интервал.

Итак, если u1−α/ 2 = −uα/ 2 – квантилипорядков 1−α/ 2, α/ 2 симметричного стандартного нормального распределения, то

 

 

m m

 

 

 

P uα/ 2

<

 

 

< u1−α/ 2

 

=1−α =β.

σ/

n

 

 

 

 

 

Следовательно,

 

 

m m

 

 

P u1−α/ 2

<

 

< u1−α/ 2

 

=1−α .

 

 

 

σ/ n

 

 

Преобразуем неравенства, стоящие в скобках:

m

 

σ

u

 

 

< m < m +

σ

 

u

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1−α/ 2

 

 

n 1−α/ 2

 

 

 

Таким образом, интервал

 

 

 

 

 

 

 

 

 

I

 

= m

σ

u

; m +

 

σ

u

 

 

(2.24)

β

 

 

 

 

 

 

 

 

 

n

1−α/ 2

 

 

 

 

n

1−α/ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

66

«накрывает» с вероятностью Pд ≡β =1−α неизвестное математическое ожидание mx . Это и есть доверительный интервал

для математического ожидания при известной дисперсии генеральной совокупности. Точность оценки математического ожидания при этом

ε =

σx

u

= σ

x

u

.

(2.25)

 

 

n 1−α/ 2

 

1−α/ 2

 

 

Анализируя эту формулу, замечаем, что:

увеличение объема выборки приводит к уменьшению длины доверительного интервала, то есть к увеличению точности оценки;

увеличение доверительной вероятности (1−α) приво-

дит к увеличению длины доверительного интервала, то есть к уменьшению точности оценки.

Пример 2.7. Найти доверительный интервал для математического ожидания нормально распределенной случайной величины, если объем выборки п = 49, m = 2,8, σ = 1,4, доверительная вероятность β = 0,9.

Решение. Находим уровень значимости α =1−β = 0,1. Определяем с помощью справочных таблиц квантиль u1−α/ 2 ,

при котором Ф0 (u1−α/ 2 )

= 0,9/2 = 0,45: u1−α/ 2 = 1,645. Этот же

результат для u1−α/ 2

получим в Excel вызовом функции

НОРМСТОБР (1−α/ 2 ) = НОРМСТОБР (0.95) = 1,644854.

Тогда доверительный интервал имеет границы

2,8

1,645 1,4

< a < 2,8 +

1,645 1,4

, или 2,471 < a < 3,129.

 

49

 

 

49

 

 

 

В MS

Excel

для

данного случая величина

ε = σx u1−α/ 2

n определяется сразу с помощью вызова функ-

ции ДОВЕРИТ (альфа; станд_откл; размер):

67

ДОВЕРИТ (0.1;1.4;49) = 0,328971.

Результатом имеем тот же доверительный интервал

I0,9 = (2,8 0,329; 2,8 +0,329) = (2,471; 3,129).

Выражение (2.25) для точности оценки доверительного интервала может использоваться при простейшем планировании эксперимента, в котором нужно оценить минимальный объем выборки для достижения требуемой надежности доверительного интервала, то есть при заданных значениях σx , ε, α:

nσεx u1−α/ 2 2 .

Пример 2.8. По данным предыдущего примера найти минимальный объем выборки п для нормально распределенной случайной величины, если заданы ε = 0,329, σ = 1,4, но доверительная вероятность β = 0,95.

Решение. Находим уровень значимостиα =1−β = 0,05. Определяем с помощью справочных таблиц квантиль u1−α/ 2, при ко-

тором Ф0 (u1−α/ 2 )

= 0,95/2 = 0,475: u1−α/ 2 = 1,96. В Excel получим

u1−α/ 2 привызовефункцииНОРМСТОБР(0.975) = 1,959964.

Тогда минимальный объем выборки

 

n =

σx u

 

2

=

1,4

1,96

2 = 69,56 70,

 

/ 2

 

min

 

 

1

 

 

 

ε

 

−α

 

0,329

 

 

 

 

то есть снижение уровня риска (уровня значимости α =1−β )

с0,1 до 0,05 в оценке доверительного интервала для среднего при известнойдисперсиитребуетувеличитьчислоизмеренийс49 до70.

Формула (2.25) может использоваться также для оценки уровня риска (уровня значимости α =1−β ) при заданных зна-

чениях σx , ε, n:

u1−α/ 2 = εσ n . x

68

Пример 2.9. Оценить уровень риска α при разных объемах выборки (n = 9, 16; 49; 100, 225), на основании которой оценивается математическое ожидание времени исполнения некоторой технической операции с ошибкой, не превышающей 10 с, если предположить, что время исполнения этой операции имеет нормальное распределение со средним квадратическим отклонением 50 с.

Решение. В условиях заданы ε =10 с, σ = 50 с. Находим значение квантилей

u

 

/ 2

(n) = ε n

=

10 n

= 0,2 n :

 

 

1−α

σx

 

50

 

 

 

 

 

 

u1−α/ 2 (9) = 0,6;

u1−α/ 2 (16) = 0,8;

u1−α/ 2 (49) =1,4; u1−α/ 2 (100) = 2,0.

По определению квантиля F(u1−α/ 2 ) =1−α/ 2 для стан-

дартного нормального распределения с использованием табулированной функции Лапласа Ф(u) = 0,5 + Ф0 (u) имеем

α(n) = 2 {1F[u1−α/ 2 (n)]} ={1Ф[u1−α/ 2 (n)]} = 2 {10,5 Ф0[u1−α/ 2 (n)]}: α(9) = 2 [10,5 Ф0 (0,6)] = 2 (0,5 0,2257) = 0,5486;

α(16) = 2 [10,5 Ф0 (0,8)] = 2 (0,5 0,2881) = 0,4238; α(49) = 2 [10,5 Ф0 (1,4)] = 2 (0,5 0,4192) = 0,1616;

α(100) = 2 [10,5 Ф0 (2,0)] = 2 (0,5 0,4772) = 0,0456; α(225) = 2 [10,5 Ф0 (3,0)] = 2 (0,5 0,49865) = 0,0027.

ВMS Excel этотжерезультатполучим спомощьювызовафункцииНОРМСТРАСП(z): α = 2 (1НОРМСТРАСП(u1−α/ 2 (n))), рис. 2.10.

Рис. 2.10. Результаты счета в Excel для примера 2.9

69

Следовательно, риск допустить ошибку больше, чем на 10 с, при среднеквадратичном отклонении 50 с оценивается величинами от 54,8 % при хронометрировании времени выполнения операции у 9 рабочих до 0,27 %, если будет выполнено наблюдение за 225 рабочими.

2.4.2. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии

Пусть теперь дисперсия генеральной совокупности неизвестна и оценивается по выборке согласно (2.7):

 

1

n

σиспр2 = s2 =

(xi m )2.

 

 

n 1 i=1

Если известно, что исследуемая случайная величина Х распределена по нормальному закону с неизвестным средним квадратическим отклонением, то для поиска доверительного интервала для ее математического ожидания строят новую случайную величину:

T =

m a

,

(2.26)

s /

n

 

 

 

где m – выборочное среднее; s – исправленная дисперсия; п – объем выборки. Эта случайная величина, возможные значения которой будем обозначать t, имеет распределение Стьюдента с k = n – 1 степенями свободы.

Поскольку плотность распределения Стьюдента явным образом не зависит от а и σ, можно задать вероятность попадания величины Т в некоторый интервал ( tβ,n1, tβ,n1 ), учитывая

четность плотности распределения, следующим образом:

 

s

 

 

s

 

 

 

P m

 

tβ, n1

< a < m +

 

tβ, n1

 

.

n

n

 

 

 

 

 

 

70