Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

де, или измерения мощности сильвинитового пласта по подготовительной выработке через каждые 20 м.

Есть и другое, более строгое, определение – случайная величина называется дискретной, если в результате испытания она принимает одно из значений х1, х2, …, хn с соответствующими вероятностями р1, р2, …, рn.

Непрерывной называется случайная величина, потенциальные значения которой равномерно распределены на всём интервале числовой оси [65]. Принято считать, что число значений непрерывной случайной величины всегда конечно. В ряде наблюдений за процессами могут фиксироваться дискретные случайные величины, количество «значений которых настолько велико, что их условно считают непрерывными» [25]. Например, содержание хлорида калия, определяемое прибором каждые 4 секунды на транспортерной ленте в течение суток. Другой пример – профиль, полученный станцией профилирования проводников вертикальных шахтных стволов – непрерывные случайные величины. А высотные отметки пикетов, полученные геометрическим нивелированием по головке рельса и расположенные через 20 м, – дискретная случайная величина.

Значения содержания компонента, определённого по бороздовым пробам, отобранным по стенке выработки, представляют дискретную случайную величину. Обычно всю совокупность дискретной случайной величины делят на группы и представляют в виде таблицы распределения вероятностей (табл. 2.1).

В таблице все значения от минимального до максимального разбиты на одинаковые интервалы (первый столбец табл. 2.1). Во втором столбце записывается частота появления проб в заданном интервале. В третьем столбце отображается частота накопленная (кумулятивная).

Четвёртый столбик отображает в процентах долю проб каждого интервала. Если в текущем году на площади отработки 2 ЮЗ (второй юго-западной) панели из 60 проб две попало в указанный интервал, четвёртый столбец в табл. 2.1 покажет вероят-

31

ность (в %) отнесения значения содержания KСl в этих пробах к указанному в первом столбце таблицы интервалу. Так, в первый интервал попадает всего две пробы из 60, следовательно, вероятность появления проб в этом интервале 100 % · (2 / 60) = 3,3 %. Вероятность выражается в долях единицы, но в литературе и в программных продуктах ещё используются и проценты.

Таблица 2.1

Распределение содержания KСl по 2 ЮЗ панели (выполнено в программе Statistica)

Для количественного сравнения степени возможности появления того или иного значения величины с каждым из них связывают определенное число. Чем более возможно событие, тем больше величина этого числа. Такое число и называют вероятностью появления значения. Вероятность события есть численная мера появления возможности этого события. События, которые происходят чаще, будут более вероятными. События, которые происходят реже, – менее вероятными. Маловероятными являются события, которые почти никогда не происходят. Следовательно, понятие вероятности события связано с опытным понятием частоты события.

По табл. 2.1 можно построить полигон или гистограмму распределения (рис. 2.1), а также другие графики. По гистограмме исследуют форму распределения переменной.

32

а

б

Рис. 2.1. а – гистограмма распределения, построенная по табл. 2.1, б – график накопленных частот (кумулята)

Правая часть рис. 2.1 построена по 4-му столбцу табл. 2.1 и представляет кумуляту. Из таблицы (столбец 3) видно, что всего использовано 60 проб. На оси ординат (рис. 2.1, б) отложены накопленные частоты, всего 60 проб, верхняя часть кумуляты не пересекает уровень 100 %.

2.4. Эмпирическая функция распределения

Из изложенного в предыдущем разделе материала видно, что от постоянной величины случайная отличается тем, что каждому её значению приписывается некоторая вероятность её появления, примерно так, как это отображено в табл. 2.1. В таком случае для фиксирования наблюдаемой случайной величины потребуется «установить соответствие между всеми возможными её значениями и их вероятностями. Такое соответствие будет именоваться законом распределения случайной величины. Его можно задавать в разных формах: табличной, аналитической, графической» [25].

Если возможными значениями случайной величины X являются значения x1, x2, …, xn, вероятность появления каждого из них обозначена как p1, p2, …, pn. Тогда «закон распределения

33

дискретной случайной величины X может быть записан в виде таблицы 2.1» [44] или в таблице другой формы, к примеру табл. 2.2, называемой рядом распределения дискретной случайной величины.

Таблица 2.2

Табличный способ задания дискретной случайной величины

X

x1

x2

x3

xn;

Р

p1

p2

p3

pn

Обычно в таблице данные размещают по мере их увеличения х1 < х2 < … < хn. И обязательно сумма вероятностей должна быть равна единице: р1 + р2 + … + рn = 1.

Графики, представленные на рис. 2.1, также характеризуют закон распределения случайной величины. Их ценность в том, что мы можем визуально увидеть форму графика, смещение центра распределения влево или вправо, вытянутость графика.

В математике принятой формой закона распределения, которую можно использовать «как для дискретной, так и непрерывной случайной величины, является его аналитическое описание в виде функции распределения» [25]:

F (x) = P (X < x),

(2.1)

где F (x) есть вероятность того, что случайная величина X примет значение, меньшее, чем х. В ряде случаев F (x) называют функцией накопленной вероятности, её отображает график, называемый кумулятой (рис. 2.1, б).

Кумулята является графическим выражением функции распределения непрерывной случайной величины. Понять смысл функции распределения позволит следующий пример. При х = 20,27 согласно равенству F (20,27) = P (X < 20,27). Из табл. 2.1 следует, что неравенство X < 20,27 выполняется в двух случаях из 60. Следовательно, F (20,27) = P (X < 20,27) = р (X) =

34

= 2 / 60 = 0,033. В 4-м столбце табл. 2.1 вероятности приведены в процентах.

Аналогичное неравенство можно записать уже для второго интервала:

F (21,97) = P (20,27 < X < 21,97) = р (X) = 9 / 60 = 0,150.

Ввиду того, что исходы испытания в строках табл. 2.1 являются несовместными, можно записать как сумму двух интервалов:

P (21,97) = P (X < 21,97) = P (X < 20,27) + P (20,27 < X < 21,97) = = 0,033 + 0,150 = 0,183.

Общая вероятность P (Х < 30,44) = 1,00. В табл. 2.1 ей соответствует вероятность 100 %.

Таким образом, функция распределения задаёт вероятность попадания случайной величины в заданный интервал значений:

P ( X ) F ( ) F ( ).

(2.2)

Функция распределения случайной величины обладает некоторыми важными особенностями:

1)она удовлетворяет неравенству 0 F (x) 1;

2)функция распределения является неубывающей функ-

цией, т.е. если x1 x2, то и F (x1) F (x2);

3) вероятность того, что случайная величина в результате испытания примет значение, лежащее в интервале (а, b), равна приращению функции распределения на этом интервале, т.е.

P ( X ) = F ( ) – F ( ).

График функции распределения случайной величины представляет собой кривую, именуемую кумулятой. На этом графике (рис. 2.1) отображается степень нарастания функции. К недостаткам кумуляты относят невозможность наглядно представить, какие из своих значений непрерывная случайная величина принимает с большей вероятностью, а какие с меньшей.

35

Поэтому в совокупности с этой функцией распределения для непрерывных случайных величин используется еще одна форма описания закона распределения. Это функция плотности распределения случайной величины f (x), которая определяется как производная функции распределения F (x):

f (x) = F' (x),

(2.3)

Графиком функции плотности распределения случайной величины является уже знакомая нам гистограмма. Плотность распределения f (x) характеризует вероятность попадания случайной величины в окрестность точки x. График плотности распределения f (x) называют кривой распределения [20].

Из графика 2.1 следует, что свои значения, лежащие в интервале (а = 23,66, b = 25,36), случайная величина принимает с большей вероятностью (Р = 31,67 %), чем какие-либо другие значения.

Плотность распределения случайной величины f (x) также имеет свои особенности [20; 65]:

1) плотность распределения некоторой случайной величины является неотрицательной функцией, поскольку несет смысл вероятности, т.е. f (x) 0;

2) вероятность того, что в результате проведения опыта непрерывная случайная величина примет значение, лежащее в интервале (а, b), равна определенному интегралу в пределах от а до b, от плотности распределения этой случайной величины, и равна площади криволинейной трапеции S1, т.е.:

P(a X b) b f (x)dx S1;

a

3) определенный интеграл в пределах от –∞ до b от плотности распределения случайной величины равен функции распределенияэтойвеличины,илиплощадикриволинейнойтрапецииS2:

36

F(a) b f (x)dx S2;

4)условие нормирования, т.е. определенный интеграл от

∞ до + ∞ от плотности распределения случайной величины равен единице, или:

 

f (x)dx 1.

(2.4)

 

 

 

Функции распределения случайной величины или ее плотность распределения, установленные по фактическим данным, именуются эмпирическими.

Итак:

Функция вероятности – функция, у которой на входе значение Х, а на выходе вероятность события p (х), графически отображается гистограммой. Иногда её именуют как плотность вероятности.

Функция распределения – функция, у которой на входе значение X, а на выходе вероятность событий, меньших или равных X, графически отображается кумулятой.

2.5. Числовые характеристики случайной величины

В предыдущем разделе показано, что закон распределения, представленный функцией вероятности распределения или функцией плотности, даёт полное описание случайной величины. Вместе с тем для наблюдаемых данных чаще всего закон распределения будет неизвестен, и приходится ограничиваться числами, которые характеризуют всю случайную величину. Такие числа именуют числовыми характеристиками случайной величины. Ими являются математическое ожидание, дисперсия и среднее квадратическое отклонение.

37

Из анализа гистограммы (см. рис. 2.1, а) понятно, что она имеет центр и боковые ветви, уходящие до нуля. Для нормального закона распределения вероятностей в центре гистограммы будет больше всего значений, в том числе и среднее. А разброс гистограммы (отклонение от среднего) отображает дисперсия.

С точки зрения теории вероятностей истинное среднее значение случайной величины должно быть получено только при бесконечном числе испытаний. На практике нет возможности провести весь объём испытаний, поэтому и истинное среднее определить нельзя. В этом случае определяется некоторая ожидаемая величина среднего значения, в теории вероятностей её называют математическим ожиданием.

Пусть имеется выборка случайной величины X (x1, x2, x3, , xn) и для каждого значения, принимаемого случайной вели-

чиной X, известна его вероятность (p1, p2, p3, , pn). Тогда ее математическое ожидание (для дискретной случайной величины) будет равно сумме произведений каждого значения на его вероятность (выраженной в долях единицы):

n

 

M (X ) xi pi .

(2.5)

i 1

Математическое ожидание для непрерывной случайной величины вычисляется как интеграл от произведения ее значений х на плотность распределения вероятностей f (x):

M (X ) xf (x)dx. (2.6)

Дисперсия D (X) и среднее квадратическое отклонение σ (Х) – числовые характеристики случайной величины, которые отражают величину рассеивания, «разброс её возможных значений относительно математического ожидания. Для дискретной и непрерывной случайной величины, соответственно, дисперсия» [25] может быть вычислена из выражений:

38

n

D(X ) (xi )2 f (x)dx, (2.7)

D(X ) (xi )2 pi ;

i 1

 

где – математическое ожидание случайной величины в ста-

тистике.

Из выражений 2.7 видно, что дисперсия имеет размерность квадрата фиксируемой величины. В ряде случаев приходится сравнивать дисперсии сильно отличающихся по значениям переменных (разновеликих). Например, координаты проб будут иметь 4–6 целых цифр и содержание полезных компонентов, значение которых ограничено одной целой цифрой, сравнение будет некорректно. Поэтому «в качестве характеристики рассеивания удобнее использовать среднее квадратическое отклонение, совпадающее по размерности со случайной величиной» [25]:

(X ) D(X ).

(2.8)

Значительная часть используемых в статистических технологиях и приложениях модельных (теоретических) законов распределения (биномиальный, нормальный, показательный и др.) «могут быть однозначно восстановлены по одной-двум своим числовым характеристикам, чаще всего – по среднему значению и по дисперсии» [25].

2.6. Генеральная совокупность и выборка

Все наблюдения, входящие в статистическую совокупность, характеризуются единством места и времени исследования. Сплошное статистическое исследование (например, опробование всего промышленного пласта) образует генеральную совокупность. Общее число членов генеральной совокупности называют объемом генеральной совокупности.

Вместе с тем чрезмерное увеличение объема любой исходной информации ведет к увеличению «информационного шума»

39

(погрешностей), который подавляет искомую информацию. Это отражается на вариабельности (изменчивости, случайности) процессов и явлений. По охвату исследование может быть сплошное и несплошное (выборочное). Эта особенность определяет ход и методику статистического анализа.

Во многих случаях сплошное статистическое исследование провести просто невозможно. С одной стороны, это связано с большими размерами генеральной совокупности, или с высокой стоимостью проведения исследований, или отсутствием определенных границ этой совокупности. С другой стороны, если покроем пробами весь пласт, что останется разрабатывать? Обычно в статистическом анализе ограничиваются методом выборочного исследования из генеральной совокупности. Выборка образует совокупность наблюдений, полученных с целью объективного отображения информации о генеральной совокупности. Массив ее членов называют объемом выборочной совокупности.

Примером выборочной совокупности могут служить данные опробования, полученные в горной выработке, пройденной по одному из продуктивных пластов калийного рудника. В пройденной выработке длиной 1500 м были отобраны 30 проб, по которым сделан анализ содержания хлористого калия (KСl). При этом ориентировочные размеры всего отрабатываемого пласта составляют 14 6 км. Очевидно, что, пока весь пласт не отработан, мы не сможем получить генеральную совокупность.

На промежуточном этапе отработки пласта пробы в горной выработке представляют некоторую часть генеральной совокупности, её именуют выборочной совокупностью. В случае, когда среднее значение, дисперсию и другие статистические характеристики генеральной совокупности вычисляют по выборке, их так и именуют – выборочное среднее, выборочная дисперсия, и т.д. Поскольку выборка является частью генеральной совокупности, то статистики по ней определяются приближённо, или говорят, оцениваются. Поэтому часто используются термины «оценка среднего», «оценка дисперсии» и т.д.

40

Соседние файлы в папке книги