Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

1.ОБЩИЕ СВЕДЕНИЯ

1.1.История развития математической статистики

Первые исследования в области, которую сейчас именуют статистикой, проводились уже в древнем Китае. В ранние периоды развития государств налоговая система стремилась учесть все постройки и объекты хозяйственной жизни граждан. В основе учёта лежала инвентаризация и прямая регистрация имущества, а также количества граждан. В то время Китаю требовалось учитывать численность населения, отдельно проводился учёт пригодных для призыва на воинскую службу. За период развития Римской империи в ней сформировалась сложная налоговая система, в том числе существовала отдельная государственная служба по учету имущества граждан для сбора налогов. В Венеции уже в XIII в., послы, направляемые в какое-либо государство, по возращении должны были отчитаться о территориальном, экономическом, политическом состоянии государства пребывания, сейчас бы сказали представить «статистические данные». Спустя два века в Италии появляются первые печатные работы, которые включали статистические сведения о состоянии различных государств.

Слово «статистика» происходит от латинского status, которое означало состояние чего-либо. На первых этапах этот термин употреблялся в значении «политическое состояние». Привычное нам значение слово «статистика» ввел в XVIII в. немецкий ученый Г. Ахенваль. Его школа оказала огромное влияние на судьбу статистики. Научные работы этого учёного стали основой для преподавания статистики в университетах Германии.

Математическая статистика начинает формироваться с работ известного учёного Карла Фридриха Гаусса (1777–1855). Используя теорию вероятностей, в 1795 г. он разработал метод

11

наименьших квадратов и применил его для вычисления орбиты планет. Его фамилией названо самое распространённое распределений вероятностей – нормальное, или гауссовское. В главах статистических исследований, посвящённых случайным процессам, основные объекты изучения также носят его имя – гауссовские процессы [40].

Представленные далее этапы развития теории отражают потребности практики, послужившие толчком к развитию статистических исследований. Использование компьютеров и появление программных продуктов для рутинных статистических вычислений, с одной стороны, предоставило инструменты статистических вычислений широкому кругу пользователей, с другой стороны, появилась возможность расширения методов исследования. История развития математической статистики включает несколько периодов [67]:

1)Период накопления знаний (описательная статистика):

середина XVII – конец XIX в.

Научное направление статистики зародилось в XVII в. Развитие происходило примерно в одно время как в Германии, так и

вАнглии. В каждом государстве были свои школы, отличавшиеся по тематике исследований. Основателем школы в Германии считают Германа Конринга (1606–1681). Заслугой его школы считают развитие статистики как описательной науки.

Основоположниками английской школы считают Вильяма Петти (1623–1687), Джона Граунта (1620–1674). В основу их исследований заложено установление закономерностей и взаимосвязей в явлениях.

2)Период формирования науки (объяснительная статисти-

ка) – первая треть XX в.

В последующем, развивая статистику как науку, Годфрид Ахенваль (1719–1772) ввел термин «статистика». Он первым читал курс лекций по статистике в Марбургском университете. Его соотечественник А. Шлицер, выдвинул идею о том, что предметом статистики может быть не только государство, а также и всё

12

общество. А. Кетле (1796–1874) опубликовал идею о том, что статистика должна не только описывать, но прежде всего объяснять причины различных явлений, социально-экономических процессов и событий. Он опубликовал результаты исследований, доказывающие, что разные методы расчета средней величины могут давать совершенно различный результат. На основании этих исследований он рекомендует выбирать такой способ расчета средней, который соответствует поставленной цели.

3) Период индустриального использования (математическая статистика): вторая половина XX в. до настоящего времени. Этот этап связывают с известными исследователями, имена которых часто встречаются в теории математической статистики. В честь их названы многие теоремы, законы распределения вероятностей, критерии и показатели. К ним относят Ф. Гальтона (1822–1911), К. Пирсона (1857–1936), В. Госсета (псевдоним Стьюдент, 1876–1936), Р. Фишера (1890–1962) и других ученых. Российские учёные также внесли свой вклад на данном этапе. В частности, широко известна теорема П.Л. Чебышева.

ВРоссии становление государственной статистики можно отнести к концу XII – началу XIII в. Позднее преобразования Петра I (1672–1725) вызывали необходимость в достоверном и полном учете как материальных ресурсов, так и численности населения государства.

1.2.Общие сведения о параметрической

инепараметрической статистике

Вначале XX в. основные исследования были посвящены параметрическим методам математической статистики. Они основаны на свойствах статистических законов распределения и используют теорию вероятностей. Например, в теодолитном ходе углы измерены одним полным приемом. Вычислим разности углов между полуприёмами. Если у теодолита выполнены

13

все проверки, эти разности (погрешности) будут представлять собою случайные числа (говорят «ряд случайных чисел»). Среднее значение погрешностей будет близко к нулю, а количество положительных значений будет (примерно) равно количеству отрицательных погрешностей.

Для упрощения восприятия наблюдений их обычно объединяют в группы. Затем необходимо установить, сколько раз встретились числовые значения погрешностей в каждой группе. Сделав это для каждой группы, записать ее величину. Полученные в такой таблице результаты измерений именуются распределением величин, или частот. Это распределение принято представлять в виде графика, на котором изображается полигон распределения, или гистограмма распределения, представленная на рис. 1.1. Границы этого графика помогут натолкнуть на использование необходимых в каждом случае статистических методов обработки.

В нашем примере границы графика напоминают контуры колокола с максимальной точкой в центре полигона и с симметричными ветвями, отходящими в обе стороны. Такое изображение графика соответствует кривой нормального распределения.

Рис. 1.1. График кривой нормального распределения

14

Понятие нормального распределения было введено в математическую статистику К.Ф. Гауссом, поэтому кривую на графике именуют также кривой Гаусса. Он предложил и обосновал математическое описание этой кривой. В общем случае для построения графика нормального распределения требуется бесчисленное количество случаев. В практической работе приходится обходиться тем ограниченным объёмом материала, который накоплен в исследованиях. Если график, построенный по ограниченному объёму данных, незначительно отличается от кривой распределения Гаусса, это дает основание исследователю в обработке своих данных использовать параметрические методы. Параметрическими методы именуют потому, что они основываются на оценке параметров выборочного распределения интересующей величины. Нормальное распределение для построения и анализа кривой Гаусса требует всего двух параметров – среднего значения, оно должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и среднего квадратического, или стандартного отклонения наблюдений, отражающего рассеивание значений вокруг средней величины.

Разработанную до 30-х гг. ХХ в. теорию статистического анализа данных именуют параметрической статистикой. В качестве основного объекта её изучения используются выборки из распределений, описываемые несколькими параметрами.

Параметрические методы дают исследователю много преимуществ. Вместе с тем нельзя забывать о том, что использование параметрических методов оправдано в том случае, когда исследуемые данные подчиняются распределению, незначительно отличающемуся от гауссовского. Например, когда в процессе анализа вычисляется новая переменная, полученная аддитивно (как сумма нескольких независимых случайных величин), она также будет подчиняться нормальному распределению. Но когда переменная вычисляется мультипликативно (как произведение случайных величин), она может иметь отличное от нормального распределение. Если в анализе не используются муль-

15

типликативные модели, то и приближение реального распределения к нормальному считается лишь формальной операцией.

Такие соображения дают основания для критики параметрической статистики [7; 40].

Во второй половине XX в. развивались непараметрические методы, они не предполагают использования каких-либо законов распределения. При описании выборочного распределения исследуемой величины непараметрические методы не требуют вычислений параметров (среднего или стандартного отклонения). По этой причине они именуются свободными от параметров, или свободно распределенными. Непараметриче-

ские методы также приемлемы, когда объем выборок ограничен. Если в процессе анализа доказано, что данные подчиняются определенной вероятностной модели, то параметрическая статистика обычно дает больше информации. Тем не менее исследования могут также привести к предвзятым выводам, если используется неправильная модель распределения. При увеличении объёма выборкиеёраспределениеобычно приближаетсякнормальному. С другой стороны, непараметрическая статистика требует меньше предположений о данных и, следовательно, будет лучше в ситуациях, когда истинное распределение неизвестно или не может быть легко аппроксимировано с использованием распре-

деления вероятностей.

При выборе метода следует иметь в виду следующие особенности. Выводы параметрической статистики основаны на вероятности р. Но последняя вычисляется с погрешностью, которая связана как с объёмом наблюдений, так и с характером распределения фиксируемой случайной величины. Таким образом, все критерии параметрической статистики являются асимптотическими, т.е. рассчитывают значения вероятности р с погрешностью, котораяуменьшаетсяпо мереувеличенияколичестванаблюдений.

В учебниках и статьях встречается высказывание о том, что можно применять подходы и инструменты параметрической статистики при малом количестве данных, даже от 30 наблюдений.

16

Такие выводы корректны только для случайных величин с коэффициентом эксцесса (см. п. 2.7) не более нескольких первых единиц (обычно до трех). Для выборок большого объёма (n >100) нет необходимости использовать непараметрические критерии. Большие по объему выборки подчиняются нормальному закону, даже если какая-либо малая часть исходной переменной не является нормальнойили элементы выборкиизмереныс погрешностью.

Технологии непараметрической статистики могут анализировать не исходные числовые значения, а их ранги. В этом случае использование идей непараметрической статистики, обоснованных для анализа истинно числовых случайных величин, понижает ценность полученных результатов и требует их дополнительного подтверждения.

В методах непараметрической статистики имеются точные критерии корректного вычисления вероятности р вне зависимости от объёма наблюдений. Также используются и асимптотические [15], которые рассчитывают вероятность с погрешностью, уменьшающейся при увеличении числа наблюдений.

Корректно подобранные методы обработки позволяют повысить вероятность правильно принятых решений среди всех возможных. В некоторых отраслях промышленности объект исследований рассредоточен в пространстве. В геодезии это земная поверхность, вгеологии и на горно-добывающих предприятиях это недра, в географии – территории материков. Геопространственная составляющаятакжепредполагаетсвоиособенностиобработкиданных.

1.3. Классификация статистических методов по типу используемых данных

На состояние недр и природной среды воздействуют многие условия. Например, явления, происходящие в мантии, являются причиной движения континентов, вулканизма, землетрясений и горообразований. Сказывается и деятельность внешних

17

сил – выветривание, работа текучих вод, деятельность волн и приливов, действие силы тяжести. По этой причине выявление структуры взаимосвязей влияющих условий на исследуемый параметр вызывает определённые трудности. В тех случаях, когда решения должны приниматься на основании анализа неполной информации, «использование методов статистического анализа является не только оправданным, но и существенно необходимым» [49]. В процессе исследований в реальных условиях многие измеряемые значения исследуемых признаков могут быть описаны только статистически.

Использование разнообразных статистических методов в практике исследований природной среды, в анализе геологического строения недр и условий разработки требует упорядочить и классифицировать эти технологии. В научной литературе принято разделять «прикладную статистику по следующим направлениям:

статистика случайных величин (одномерная статистика);

многомерный статистический анализ;

статистика случайных функций (процессов) и временных рядов;

статистика объектов нечисловой природы» [41].

В одномерной статистике элементом изучаемой выборки является число. Например, рассчитываем погрешности измерения горизонтальных углов полным приёмом в теодолитных ходах. Все погрешности измерений углов теодолитного хода опорной маркшейдерской сети (ОМС) представляют выборку. Погрешность измерения угла (вычисленная как разность из двух полуприёмов) на точкеопорноймаркшейдерской сети есть элемент выборки.

Во втором разделе элементом выборки является вектор. Например, на участке горной выработки отобраны пробы через 50 м и получены значения переменных: мощность пласта, пространственные координаты Х, Y, содержание полезного компонента и высотная отметка кровли пласта. Все значения, кроме содержания компонента, определяются быстро, а качество про-

18

бы определяется в химической лаборатории продолжительное время. Если мы установим зависимость полезного компонента от других переменных в виде некоторой функции, тогда можно не использовать лабораторию, а вычислять значение полезного компонента. Применение выведенной функции для расчёта значения полезного компонента сокращает не только время обработки, но и средства. В этом примере имеется выборка из пяти переменных-векторов, а выбранный элемент – содержание полезного компонента.

Элементом выборки третьего раздела является функция. В ряде случаев, когда исследуемый признак обладает высокой изменчивостью в пространстве или отбор проб сопровождается погрешностями, значение признака не будет выражаться числом, а будет принадлежать некоторому интервалу. Через каждую точку этого интервала может проходить множество функций, одна их них (выбранная по какому-либо критерию или усреднённая из нескольких «лучших» реализаций) и будет являться реализацией (экземпляром) выборки из нескольких (множества) функций.

В четвертом случае элемент выборки является объектом нечисловой природы. Такими объектами считаются элементы пространств, не являющиеся линейными [51; 71]. Основные объекты геопространства, с которыми связаны экологи, геологи, кадастровые инженеры, специалисты горнодобывающих и ряда других отраслей промышленности, также относятся к этой группе. В качестве примеров можно привести бинарные отношения среди нульмерных, одномерных или двумерных объектов геопространства при использовании геоинформацонных технологий (ранжирование объектов по величине, упорядочение выработок по времени разработки, разбиение выемочных единиц на классы по величине потерь полезного ископаемого, принадлежность выработок панели), множества, а также последовательности символов. С ними невозможно выполнять какие-либо арифметические и алгебраические действия, не теряя при этом содержательного

19

смысла. Например, множество всех пунктов геодезических сетей на территории Верхнекамского месторождения калийно-магние- вых солей (ВКМКС) отличаются как по точности, так и по территориальной принадлежности. Вычислительные технологии статистики объектов нечисловой природы основываются на применении расстояний (мер близости или показателей различия) в пространствах этих объектов. Пункты, используемые маркшейдерской службой каждого рудника, выделяются в отдельные подмножества. Если группировка пунктов по рудникам использует только расстояние (как меру близости или степень различия), её результаты также следует относить к данной области статистики, поскольку они могут работать с объектами произвольного пространства, если в нем задана метрика или ее аналоги. Таким образом, многие методы классификации могут быть связаны с объектами нечисловой природы [29; 44]. Среди этих методов для анализа геопространственных объектов чаще всего используются процедуры дискриминации, кластеризации и группировки.

1.4.Особенности подготовки горно-геологических

иприродных данных для исследования с помощью методов математической статистики

Проведём статистические исследования на примере отработки ВКМКС в программе Statistica. Месторождение приурочено к центральной части Соликамской впадины Предуральского краевого прогиба. Залежи полезного ископаемого (калийномагниевых солей) расположены внутри соляной толщи – покровной и подстилающей каменной соли – и имеют пластовую форму. Калийная залежь отрабатывается по четырем промышленным пластам из тринадцати, слагающих продуктивную толщу. Складки всех порядков распространены неравномерно, наиболее интенсивная складчатость наблюдается в антиклинальных складках высших порядков. Складки группируются в складча-

20

Соседние файлы в папке книги