Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Рис. 4.2. Положение границ интервала

Ранее мы рассматривали выборочное среднее xв и стандартное отклонение выборочного среднего x . И можно было бы записать границы интервала выборочного среднего так:

(xв x ) xв (xв x ).

Но с учётом вероятностного подхода формулы (4.7) статистический метод не позволяет категорически утверждать, что оценка строго удовлетворяет неравенству (4.8) в смысле математического анализа. Можно только говорить о вероятности (1 – ), с которой это неравенство выполняется.

Доверительной вероятностью оценки называют вероятность(1– )выполнениянеравенства(4.8). Обычнодоверительная вероятность оценки задается заранее. Наиболее часто полагают (1 – ) = 0,95; 0,99; 0,9973. Доверительная вероятность точечной оценки показывает, что при извлечении выборки объема n из одной и той же генеральной совокупности в (1 – ) в 100 % случаев параметр будет накрываться данным интервалом.

Пусть вероятность того, что n равна (1 – ). Учиты-

вая необходимость вероятностного подхода, выражение (4.8) перепишем в виде

141

P(

 

n

 

) 1 .

(4.9)

 

 

Преобразуем формулу (4.9):

 

P( n ) ( n ) 1 .

(4.10)

Последняя формула показывает, что неизвестный параметр заключен внутри интервала ( n ),( n ). Этот интервал и называется доверительным.

Итак, доверительный интервал ( n ),( n ) накрывает

неизвестный параметр с заданной надежностью (1 – ). В практических приложениях важную роль играет длина доверительного интервала. Чем меньше длина доверительного ин-

тервала ( n ),( n ), тем точнее оценка. Из формулы (4.10)

длина доверительного интервала равна 2 . Из этой же формулы видно, что длина доверительного интервала зависит от двух величин – доверительной вероятности (1 – ) и объема выборки n. Таким образом, , (1 – ) и n тесно взаимосвязаны и, задавая определенные значения двум из них, можно определить величину третьей.

4.5.2. Доверительный интервал для математического ожидания генеральной совокупности, имеющей нормальное распределение при известной дисперсии

Пусть из генеральной совокупности X, имеющей нормальный закон распределения при известной дисперсии σ2 и неизвестном математическом ожидании m, произведена случайная выборка x1, х2, х3, , xn. Для оценки математического ожидания используем статистику:

n

xi

x

 

i 1

.

(4.11)

 

 

 

n

 

142

Выборка имеет нормальное распределение Х N (x, σ / n). Тогда статистика

U =

x

m

 

n

(4.12)

 

 

 

 

 

 

 

нормирована по стандарту в отклонениях от математического ожидания и имеет нормальное распределение с параметрами

U N (0,1). Найдем вероятность отклонения

 

x

 

m

 

для малых

выборок (при n 30):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

P

 

 

 

 

 

 

 

 

 

 

 

n

t

 

 

P

 

 

x m

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

(4.13)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P x t

 

 

 

m x t

 

 

 

 

.

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

1

2

 

 

 

 

 

Интервал

 

(

 

t

 

 

 

 

 

;

 

 

t

 

 

 

),

 

определённый по

 

x

 

 

x

 

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

выражению (4.13), и есть доверительный интервал для математического ожидания m при известной дисперсии σ2.

В выражении 4.13

 

 

является квантилем распределе-

t

 

 

1

2

 

 

ния Стьюдента с параметрами (n – 1, 1 –

), определяемым по

 

 

 

 

2

доверительной вероятности (1 – ) уровня. Предельная погрешность точечной оценки математического ожидания определяется из выражения

t

 

 

.

(4.14)

 

1

2

n

 

143

Анализируя формулы доверительного интервала и погрешности оценки, задаваемые выражениями (4.13), (4.14), можно заметить, что:

а) увеличение объема выборки n приводит к уменьшению длины доверительного интервала;

б) увеличение доверительной вероятности 1 приводит

к увеличению длины доверительного интервала, т.е. к уменьшению точности оценки математического ожидания;

в) если задать априори требуемую точность и доверительную вероятность (1 – ), то из соотношения (4.14) можно найти минимальный объем выборки, который обеспечивает заданную точность.

Если дисперсия в выражениях (4.13) и (4.14) неизвестна, она может быть заменена её оценкой S.

При большом объёме выборки распределение Стьюдента стремится к значениям нормального распределения. Считается, что при n > 30 вместо t-распределения уже можно использовать нормальное распределение, при этом критическое значение квантиля распределения Стьюдента tкрит заменяют на значение zкрит.

Определим размер выборки для вычисления среднего содержания хлористого калия с точностью e = 0,5 % c вероятностью 95 %, если стандартное отклонение S = 2,35 (см. табл. 4.1). Из выражения (4.14) выведем n. При неизвестном объёме выборки воспользуемся не распределением Стьюдента, а нормальным распределением. Для α = 1 – 0,95 = 0,05, z-значение нор-

мального распределения равно 1,96 при (1 – 2 ), тогда понадо-

бится 85 проб:

 

 

 

2

 

 

2,35

2

85.

n z

 

1,96

0,5

 

 

1

2

e

 

 

 

 

144

4.5.3.Построение доверительного интервала для оценки среднего значения генеральной совокупности

Рассмотрим пример построения доверительного интервала для оценки среднего значения генеральной совокупности в программе Statistica. Исходные данные для примера по выборке из генеральной совокупности приведены в табл. 4.1.

Чтобы найти границы доверительного интервала для среднего значения генеральной совокупности, требуется произвести следующие действия:

1)по полученной выборке объема n вычисляем среднее арифметическое xв и стандарт;

2)принимаем доверительную вероятность (1 – 0,95 = 0,05),

тогда (1 – α / 2) = 0,975;

3)по таблице t-распределения Стьюдента найдём гранич-

ное значение tα / 2 в зависимости от уровня значимости α и числа степеней свободы k = n – 1; t = 2,00;

4)вычислим предельную погрешность точечной оценки

математического ожидания при 1 – α / 2. Она определяется из

выражения t

 

 

2,0

2,35

0,61;

n

60

1

2

 

 

5)найдём границы доверительного интервала по формуле:

x x x .

Воспользуемся данными из таблицы с доверительными интервалами (см. рис. 4.1, а), тогда 24,10 0,61 x 24,10 0,61

или 23,49 x 24,71.

Эти значения совпадают с расчётными в программе

Statistica (рис. 4.1, а).

В практике научных исследований, когда закон распределения малой выборочной совокупности (при n < 30) неизвестен или отличен от нормального, пользуются вышеприведенной формулой для приближенной оценки доверительных интервалов.

145

Если же неизвестно, тогда доверительный интервал, накрывающий неизвестное математическое ожидание m случайной величины Х N (a, ), имеет следующий вид:

 

 

 

t

 

 

S

m

 

t

 

 

S

,

(4.15)

 

 

x

 

x

 

 

 

; n 1

n

; n 1

n

 

2

 

2

 

 

 

где t

– квантиль распределения Стьюдента, определяемый по

2

; n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

таблицам, по заданной доверительной вероятности p0 = (1 – ) и числу степеней свободы = n – 1 (n – объем выборки);

_

точечные несмещенные оценки параметров нор-

x,S

мального распределения;

t

 

 

S

– предельная погрешность точечного оцени-

 

 

 

2

; n 1

 

n

вания математического ожидания. Случайная величина Х N

при неизвестном обладает теми же свойствами, что и при известном .

4.5.4. Доверительный интервал для среднего квадратического отклонения 2

Построим доверительный интервал для неизвестной дисперсии, нормально распределенной генеральной совокупности. Оценкой для генеральной дисперсии является выборочная дисперсия. Доверительный интервал для стандартного отклонения находится по следующей формуле:

 

 

 

 

S

 

n 1

S

n 1

,

(4.16)

 

 

 

 

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

;n 1

 

1 ;n 1

 

 

 

 

 

 

 

2

 

2

 

 

где 2

; n 1

; 2

 

; n 1

– квантили 2 распределения, определенные

2

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

по таблице распределения 2 по заданной доверительной веро-

146

ятности (1 – ) и числу степеней свободы = n – 1 исходя из следующих условий. Неравенства:

A( 2

< 2 2)

и B(

1

 

1

 

1

)

2

2

2

1

2

 

 

 

 

 

 

 

2

 

 

 

1

 

являются равновероятными, то есть их вероятности равны

(P(A) = P(B)). Тогда:

P( 2

2 2) P(

1

 

1

 

1

)

(4.17)

2

2

2

1

2

 

 

 

 

 

 

2

 

 

 

1

 

 

Доверительный интервал для стандартного отклонения имеет вид

S

n 1

< σ < S

n 1

.

(4.18)

2

 

 

 

2

 

 

2

 

1

 

 

Последовательность действий для построения доверительного интервала для стандарта следующая:

1.По выборке вычислить стандарт .

2.Задать уровень значимости α, по таблицам найти два хи-квадрат значения для доверительной вероятности (1 – α/2) и (α/2) с числом степеней свободы df = n – 1.

3.Подставить полученные значения в формулу 4.18.

Для ранее рассмотренного примера вычислим в программе Statistica стандарт и доверительные интервалы (табл. 4.2).

Вычислим в вероятностном калькуляторе значения 2 для

α=0,05:

– для вероятности 1 / 2 и с числом степеней свободы df = n – 1; 22 82,11;

– вероятности /2 и с числом степеней свободы df = n – 1;

12 39,66.

147

Таблица 4.2

Доверительные интервалы по хлориду калия

Тогда левая граница доверительного интервала составит

2,35

59

 

1,9922;

82,11

 

 

 

 

 

правая

граница доверительного интервала составит

2,35 39,6659 2,865.

Оба интервала совпадают с вычисленными в программе значениями с учётом погрешностей округления.

4.5.5. Доверительный интервал для оценки коэффициента корреляции

Чтобы построить доверительный интервал для оценки коэффициента корреляции r, используют дополнительное преобразование Фишера zr, которое есть в статистических таблицах:

zr ln

1 r .

(4.19)

 

1 r

 

Величина zr приближенно распределена нормально со средним z и дисперсией 1 / (N – 3). Тогда строят доверительный интервал для zr по нормальному распределению, далее делают обратное преобразование. Если доверительный интервал для r накрывает нулевое значение, то корреляция считается статистически не доказанной.

148

5.КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ

5.1.Общие сведения

Вматематике зависимость переменной Y от переменной Х записывается как y = f (x). Эта зависимость, когда каждому допустимому значению аргумента X ставится в соответствие по определенному правилу единственно возможное значение Y, именуется функциональной.

Для природных явлений, горно-геологических условий разработки месторождений характерно, что наряду с существенными факторами, на них оказывают воздействие многие другие, в том числе случайные возмущения. В связи с этим существующие зависимости не проявляются так однозначно, как при функциональных связях, а лишь при большом числе наблюдений «в общем и среднем». Связь носит вероятностный, случайный характер, в численном выражении меняясь от испытания к испытанию, но эта связь определенно присутствует и называется статистической. При этом каждому значению X может соответствовать не одно значение Y, как при функциональной зависимости, а целое множество значений [20].

Вкачестве примера функциональной зависимости можно

привести зависимость часовой производительности проходческого комбайна Р 3/час), от площади сечения его рабочего органа S , м2, скорости проходки по пласту в одно сечение vt, м/ч,

ивремени работы T, ч. Исходные данные примем на примере отработки сильвинитового пласта АБ комбайном «Урал-20» на одном из рудников ПАО «Уралкалий»:

P f (S,vt ,T ) S vt T 15 0,5 60 450.

Статистическая зависимость – это связь, при которой каждому значению независимой переменной X из множества её

149

возможных значений соответствует множество возможных значений зависимой переменной Y, характеризуемое определенным законом распределения [20].

Частным случаем статистической зависимости является корреляционная (или стохастическая). Понятие корреляции соответствует русскому термину «соотношение». Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной. Сами случайные величины, связанные корреляционной зависимостью, оказываются коррелированными [20]. Таким образом, корреляция это степень зависимости между двумя (или более) переменными.

5.2. Исследование взаимосвязи между признаками

5.2.1. Параметрические меры связи. Коэффициент корреляции Пирсона

В приведенном выше примере с зависимостью часовой производительности комбайна от времени его работы Т и скорости подвигания комбайна ставится в соответствие по определенному правилу единственно возможное значение. Определим объём отбитой рудной массы в камере в зависимости от её длины. Такой объём определяется на этапе планирования горных работ. После отработки камеры построим график планируемых объёмов добычи от длины выработки и график фактического объёма, по маркшейдерским замерам (рис. 5.1).

Левый график построен по плановому сечению комбайна S, равному 15 м2. На графике видна линейная прямо пропорциональная зависимость, все точки лежат на прямой. В процессе фактического ведения горных работ по этой камере комбайн следовал вдоль кровли пласта, немного её подрезая. Поскольку пласт имеет складчатую структуру, комбайн должен её повто-

150

Соседние файлы в папке книги