Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Теория вероятностей и математическая статистика. Прикладная статистика с использованием MS EXCEL

.pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
3.04 Mб
Скачать

выборочный эксцесс (оценка островершинности (E > 0) или плосковершинности (E < 0) статистического распределения

по отношению к нормальному распределению, для которого он равен 0):

μ

E = 4 4 3; (2.15) (σx )

выборочный квантиль xp порядка р – корень уравнения

F (x ) = p,

(2.16)

x p

 

то есть абсцисса xp точки, лежащей на эмпирической функции распределения Fx (x) и имеющей ординату р; порядок р квантиля xp определяет долю общего числа наблюдений в выборке, результаты которых не превосходят xp .

Выборочную дисперсию аналогично соответствующей дисперсии в теории вероятности также можно представить в виде

D = μ

= ν

(ν )2 .

(2.17)

x

2

2

1

 

Еще раз подчеркнем, что главным отличием числовых характеристик случайных величин от аналогичных им выборочных характеристик, определенных формулами (2.3)–(2.16), состоит в том, что первые являются детерминированными (неслучайными) величинами, а вторые сами являются случайными величинами со своими специфическими законами распределения.

Добавление элементов к выборке или осуществление новой выборки из той же генеральной совокупности приводит к вычислению отличающихся друг от друга числовых характеристик выборок, к изменению эмпирической функции распределения, к изменению вида гистограмм.

Поэтому числовые характеристики эмпирического распределения являются оценками соответствующих числовых характеристик случайной величины.

51

Значение выборочных характеристик состоит в том, что согласно предельным теоремам при n → ∞ они в качестве оценок числовых характеристик изучаемой случайной величины стремятся к истинным значениям этих характеристик, определяемых функцией распределения F(х).

Оценки имеют разброс, поэтому принято различать точечные и интервальные оценки. Если оценка выражается одним числом (приближенным значением параметра), она называется точечной. Оценка, выражаемая двумя числами – концами интервала, накрывающего оцениваемый параметр, называ-

ется интервальной.

Точечных оценок для неизвестной числовой характеристики может быть несколько. Например, в качестве приближенного значения для математического ожидания может быть выбрано и среднее арифметическое, и среднее геометрическое статистического распределения, и медиана.

Получив статистические оценки числовых характеристик распределения изучаемой случайной величины Х (выборочное среднее, выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат приближением соответствующих характеристик генеральной совокупности. Определим требования, которые должны при этом выполняться.

Наибольший интерес среди статистических оценок числовых характеристик представляют оценки неизвестных параметров теоретического распределения, которое выбирается в качестве возможной вероятностной модели полученного эмпирического распределения (например, по виду гистограммы относительных частот).

Пусть Θ – статистическая оценка неизвестного параметра Θ теоретического распределения. Извлечем из генеральной со-

вокупности

несколько выборок одного и того же объема п

ивычислим

для каждой из них оценку параметра Θ:

Θ* , Θ*

, ...,Θ*

.Тогда оценку Θ можно рассматривать как случай-

1 2

k

 

ную величину, принимающуювозможныезначения Θ1* ,Θ*2 , ...,Θ*k .

52

Если математическое ожидание Θ не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если M (Θ ) > Θ,

и с недостатком, если M (Θ ) < Θ). Следовательно, необходимым

условием отсутствия систематических ошибок является требование M (Θ ) = Θ.

Статистическая оценка Θ называется несмещенной, если ее математическое ожидание равно оцениваемому параметру Θ при любом объеме выборки:

M (Θ ) = Θ.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Однако несмещенность не является достаточным условием хорошего приближения к истинному значению оцениваемого параметра. Если при этом возможные значения Θ могут значительно отклоняться от среднего значения, то есть дисперсия Θ велика, то значение, найденное по данным одной выборки, может значительно отличаться от оцениваемого параметра. Следовательно, требуется наложить ограничения на дисперсию.

Статистическая оценка называется эффективной, если она при заданном объеме выборки п имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема к статистическим оценкам предъявляется ещеитребование состоятельности.

Состоятельной называется статистическая оценка, которая при п→∞ стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при п → ∞ ее дисперсия стремится к 0).

Например, относительная частота p = nA / n появления

события А в n независимых испытаниях является несмещенной состоятельной и эффективной оценкой вероятности р = Р{А} этого события (р – вероятность наступления события А в каждом испытании).

53

Легко доказывается, что х представляет собой несмещенную состоятельную и эффективную оценку математического ожиданияM (X ) .

В отличие от выборочного среднего, выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Доказано, что

М(Dx* ) = n n1 D (X ) ,

где D(X) истинное значение дисперсии генеральной совокупности.

Поэтому часто используют другую, несмещенную, оцен-

ку дисперсии – исправленную дисперсию Dx* испр = s2 (2.7).

Состоятельность – обязательное свойство используемых оценок. Свойство несмещенности является желательным, но многие применяемые оценки этим свойством не обладают.

Результаты математической статистики по точечным оценкам для вероятности события в схеме Бернулли и наиболее распространенного нормального распределения приведены в табл. 2.7.

 

 

 

 

 

 

Таблица 2.7

Оцениваемый

 

 

 

 

 

Условия, при

 

Оценка

 

Свойства оценки

которых оценка

параметр

 

 

обладает указан-

 

 

 

 

 

 

ным свойством

Вероятность

 

 

 

 

Состоятельна,

 

 

 

 

nA

 

 

 

 

 

события р

 

n

 

 

не смещена,

 

 

 

 

 

 

 

эффективна

 

 

 

 

 

 

 

 

 

 

 

Математиче-

 

 

 

 

Состоятельна,

 

 

 

 

n

 

 

 

 

 

ское ожида-

 

1n i=1

xi

 

не смещена,

X N (mx 2 )

ние mx

 

 

 

 

эффективна

 

 

 

Дисперсия

 

 

 

 

Состоятельна,

 

 

 

1

n

 

2

X N (m

 

2 )

2

(xi mx )

 

не смещена,

x

σх , mx

n i=1

 

 

эффективна

 

 

известно

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

54

 

 

 

 

 

 

 

 

Окончание табл. 2.7

Диспер-

1

n

2

 

Состоятельна,

X N (mx

2

 

2

(xi mx )

 

 

смещена,

 

)

сияσх ,

n i=1

 

 

асимптотически

n → ∞

 

 

mx не из-

 

 

 

 

 

 

 

 

эффективна

 

 

 

вестно

 

 

 

 

 

 

 

 

Диспер-

 

 

 

 

Состоятельна,

 

 

 

1

n

 

2

X N (mx

2

 

2

(xi mx )

 

не смещена,

 

)

сияσх ,

n 1 i=1

 

 

асимптотически

n → ∞

 

 

mx не из-

 

 

 

 

 

 

 

 

эффективна

 

 

 

вестно

 

 

 

 

 

 

 

 

Указанные в этой таблице свойства оценок для других распределений необходимо заново исследовать.

2.2.1. Вычисление числовых характеристик выборки в MS Excel

Для вычисления точечных оценок основных числовых характеристик выборки Xn ={x1, x2 , x3 , ..., xn }, n 30, MS Excel

имеет следующие статистические функции (см. прил. 2):

– СРЗНАЧ (число1; число2; ...) – выборочное среднее, см. формулу (2.3);

– МЕДИАНА (число1; число2; . . . ) – медиана, см. (2.4);

– МОДА (число1; число2; . . . ) – мода;

ДИСП (число1; число2; ...) – исправленная оценка дисперсии, см. (2.7);

ДИСПР (число1; число2; ...) – смещенная оценка дисперсии, см. (2.5);

СТАНДОТКЛОН (число1; число2; ... ) – исправленное среднеквадратичное отклонение, см. (2.8);

СТАНДОТКЛОНП (число1; число2; ... ) – смещенное среднеквадратичное отклонение, см. (2.6);

СКОС (число1; число2; ...) – коэффициент асиммет-

рии, см. (2.14);

ЭКСЦЕСС (число1; число2; ...) – эксцесс, см. (2.15).

55

Пример 2.4. Найти оценки числовых характеристик случайной величины по выборке, заданной статистическим рядом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

2

 

 

5

 

7

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni

3

 

 

8

 

7

 

2

 

k

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение. Число элементов выборки n = nj = nj = 20,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

j=1

по формулам (2.3), (2.17), (2.7), (2.6), (28) находим

 

 

1

 

 

 

k

 

 

 

 

 

 

1

4

 

 

 

2

3 +5 8

+7 7 +8 2

 

 

 

х =

 

 

nj xj

=

nj xj

=

= 5,55;

n

20

 

 

 

 

 

20

 

 

 

 

j=1

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

k

 

 

 

 

 

 

 

 

4 3 + 25 8 + 49 7 + 64 2

 

 

 

 

Dx =

nj x2j

х

2 =

 

5,552

= 3,3475;

 

 

 

 

 

n

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

D

 

 

 

=

 

 

n

 

D =

 

20

3,3475 = 3,237;

 

 

 

 

 

 

 

 

 

 

 

n 1

19

 

 

 

 

 

 

 

x испр

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ =

 

D

=

 

3,3475 =1,83;

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s =

3,5237 =1,88.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Эти же оценки характеристик можно подсчитать в MS Excel, задав в ячейках А2:А21 значения 20 заданных вариант, в ячейках С2:С6 – текстовые названия характеристик, а D2:D6 – соответствующие статистические функции для их вычисления. Результат такоговычисления приведен в табл. 2.8.

 

Таблица 2.8

 

 

 

Статистика

Функция Excel

Значение

 

 

 

Среднее

СРЗНАЧ (А2:А21)

5,55

Дисперсия

ДИСПР (А2:А21)

3,3475

Дисперсия исправленная

ДИСП (А2:А21)

3,5236

Среднеквадратичное от-

 

 

клонение

СТАНДОТКЛОНП (А2:А21)

1,8296

Исправленное среднеквад-

СТАНДОТКЛОН (А2:А21)

1,8771

ратичное отклонение

56

 

 

В MS Excel представление выборки с помощью числовых точечных оценок дает также инструмент «Описательная статистика», доступный из окна «Анализ данных». Для рассматриваемого примера входим в меню «Сервис» → «Анализ данных» → «Описательная статистика» (см. рис. 2.9), где в качестве входного интервала указываем нужные ячейки столбца А с вариантами выборки, указываем выходной интервал ячеек для результатов и заказываем «Итоговую статистику», результаты приведены в табл. 2.9.

Рис. 2.9. Задание данных в меню «Описательная статистика»

Пример 2.5. Для 5 выборок, полученных в примере 2.2, оценить числовые характеристики с помощью MS Excel.

Решение. Для таблицы, изображенной на рис. 2.2, задаемданные в меню «Описательная статистика» согласно рис. 2.9, получаемрезультатыввидеотредактированнойтаблицы2.10.

57

 

 

Таблица 2.9

 

 

 

Оценка числовой

Значение

Примечание

характеристики

 

 

Среднее

5,55

См. формулу (2.3)

 

 

 

Стандартная ошибка

0,41974

См. (2.11)

Медиана

5

См. (2.4)

 

 

 

Мода

5

 

Стандартное отклонение

1,87715

См. (2.8)

 

 

 

Дисперсия выборки

3,52368

См. (2.7)

Эксцесс

–0,1635

См. (2.15)

 

 

 

Асимметричность

–0,7497

См. (2.14)

 

 

 

Интервал

6

См. (2.10)

 

 

 

Минимум

2

Минимальное значение

xmin

 

 

Максимум

8

Максимальное значение

xmax

 

 

Сумма

111

Сумма всех вариант

 

 

 

Счет

20

Объем выборки n

Их анализ показывает, что мы действительно нашли только оценки заданных в примере 2.2 параметров нормального закона распределения: а = 2,1, σ = 0,1. Их выборочные зна-

чения среднего (2.0794, 2.0257, 2.1185, 2.1223, 2.1003) и стандартного отклонения (0.1195, 0.1145, 0.1237, 0.1206, 0.0978)

имеют разброс и эти оценки сами являются случайными величинами.

Таблица 2.10

Выборка

X10(1)

X10(2)

X10(3)

X10(4)

X10(5)

Среднее

2,0794

2,0257

2,1185

2,1223

2,1003

Стандартная ошибка

0,0378

0,0362

0,0391

0,0381

0,0309

Медиана

2,0686

2,0292

2,1391

2,1024

2,0724

Стандартное отклонение

0,1195

0,1145

0,1237

0,1206

0,0978

58

 

 

 

 

 

Окончание табл. 2.10

Дисперсия выборки

0,0143

0,0131

0,0153

0,0145

0,0095

Эксцесс

0,1593

3,3056

–0,2324

–0,1290

–0,0259

Асимметричность

0,3876

1,4341

–0,2576

0,1844

0,9850

Интервал

0,3851

0,4156

0,4041

0,4118

0,3006

Минимум

1,8882

1,8816

1,9153

1,9257

1.9913

Максимум

2,2733

2,2972

2,3194

2,3375

2,2918

Сумма

20,794

20,258

21,185

21,223

21,003

Счет

10

10

10

10

10

2.3. Точечная оценка неизвестных параметров распределения

Из статистических оценок числовых характеристик распределения случайной величины Х важную роль играет их частная разновидность– точечные оценки неизвестных параметров распределения F(x).

Предположим, что экспериментатору из каких-либо соображений или по виду гистограммы относительных частот известен класс функций распределения (нормальных, показательных, биномиальных и т.д.), к которому может принадлежать функция распределения вероятностей выборочно исследуемой случайной величины, а параметры, определяющие этот закон, неизвестны.

Требуется по результатам выборочного эксперимента оценить эти параметры, то есть найти их приближенные значения. Рассмотрим два наиболее распространенных метода построения приближенных значений параметров в виде точечных оценок (каждый параметр оценивается одним числом – точкой на оси его возможных значений): метод максимального правдоподобия и метод моментов.

2.3.1. Метод наибольшего правдоподобия

Пусть Х – дискретная случайная величина, которая в результате п испытаний приняла значения х1, х2, …, хп, среди которых могут быть одинаковые значения, тогда вероятность по-

59

явления каждого значения равна 1/n. Предположим, что нам известен закон распределения этой величины, определяемый параметром Θ, но неизвестно численное значение этого параметра. Найдем его точечную оценку.

Пусть р(хi, Θ) – вероятность того, что в результате испытания величина Х примет значение хi. Назовем функцией правдоподобия дискретной случайной величины Х функцию аргумента Θ, определяемую по формуле

L (х1, х2, …, хп; Θ) = p(x1,Θ)p(x2,Θ)…p(xn,Θ),

(2.18)

где p(xi,Θ) – вероятность реализации значения xi (i = 1, 2, …, n) согласно рассматриваемому закону распределения дискретной случайной величины.

Тогда в качестве точечной оценки параметра Θ принимают такое его значение Θ = Θ(х1, х2, …, хп), при котором функция правдоподобия достигает максимума. Оценку Θ называ-

ют оценкой наибольшего правдоподобия.

Поскольку функции L и ln(L) достигают максимума при одном и том же значении Θ, удобнее искать максимум ln(L) –

логарифмической функции правдоподобия. Для этого нужно:

1) найти производную dln (L) ; dΘ

2)приравнять ее нулю (получим так называемое уравнение правдоподобия) и найти корни этого уравнения;

3)выбрать решение, которое соответствует максимуму функции правдоподобия, для чего найти вторую производную

d2 ln (L) : если она отрицательна для рассматриваемого корня, d Θ2

то это – точка максимума.

Пример 2.6. Для выборки, содержащей n целочисленных положительных значений xi, найти оценку параметра а распределения Пуассона методом максимального правдоподобия.

60