Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Для правильного отображения пробами свойств генеральной совокупности, требуется, чтобы выборка была представительной, или репрезентативной. Для выполнения этого требования необходимо отбирать пробы с большого количества выработок изучаемого участка шахтного поля.

2.7. Простейшие описательные статистики

(Descriptive Statistics) выборки

Из-за того, что выборка представляет только часть генеральнойсовокупности,объективновозникаетрасхождение между характеристиками выборки и генеральной совокупности. Величина расхождений зависит от ряда факторов: степени изменчивости изучаемогопризнака,размеравыборки,методаотбораотдельныхзначений в выборочную совокупность, принятого уровня достоверности результата исследования. Поскольку значения переменных непостоянны, на первом этапе статистического анализа необходимо научиться описывать их ожидаемые величины и разброс. Поэтому рассмотрим числовые характеристики, наиболее часто используемые на начальном этапе обработки выборочных данных и дающие общее представление о значениях, которые принимает переменная. К таким характеристикамотносятсяописательныестатистики.

Приведём краткий обзор основных описательных статистик, начиная с показателей центра распределения и структурных характеристик вариационного ряда.

Среднее арифметическое ( x ) показывает центральное положение переменной, рассматривается совместно с доверительным интервалом и описывается формулой:

n

xi

x

 

i 1

,

(2.9)

n

 

 

 

 

где xi – отдельные значения переменной; n – общее число значений переменной.

41

Поскольку количество наблюдений n ограничено, то среднее будем именовать выборочным средним. При статистическом анализе значений переменной также могут определяться среднее взвешенное, степенные средние (геометрическое, гармоническое, квадратическое).

Доверительный интервал – это интервал значений, в котором с данным уровнем доверия находится «истинное» (чаще всего неизвестное) среднее генеральной совокупности [20]. Увеличение количества наблюдений в выборке повышает надёжность оценки среднего. С увеличением рассеивания наблюдаемых значений в выборке относительно среднего значения снижается надёжность оценки. Следует помнить, что вычисление доверительных интервалов предполагает нормальное распределение наблюдаемых величин. Если предположение о нормальности не выполняется, оценка может оказаться низкой, тем ниже, чем меньше выборка. При значительном объёме выборки (более 100) качество оценки повышается и без предположения о нормальности выборки. Подробнее о доверительном интервале будет изложено в разделе 4.5

Медиана (Me) – значение переменной, соответствующей

середине упорядоченного вариационного ряда, т.е. такое значение, которое разбивает выборку на две равные части по количеству значений.

При нечётном числе вариантов:

Me xm 1, где m n21.

При чётном числе вариантов:

Me

xm xm 1

,

где m n .

 

2

 

2

(2.10)

(2.11)

Мода (Mo) – это значение переменной, соответствующее наибольшей частоте появления переменной в выборке. Как пра-

42

вило, используется для оценки среднего. На гистограмме, показанной рис. 2.1, а, больше всего попадает проб в интервал (23,73–25,43) – 19 проб. Это и есть модальный интервал. Если пробы собрать в достаточном количестве с богатых и бедных участков, то на гистограмме может быть несколько мод. В этом случае гистограмму именуют мультимодальной.

Среднее арифметическое, медиана и мода могут быть использованы для общей оценки симметричности ряда распределения. В симметричном распределении соблюдается следующее

соотношение: x Me Mo.

Если x Me Mo , то имеет место правосторонняя асимметрия, т.е. большая часть значений изучаемого признака больше модального значения.

Если x Me Mo, то имеет место левосторонняя асимметрия, т.е. большая часть значений изучаемого признака меньше модального значения.

Мода и медиана представляют собой численную характеристику структуры строения вариационного ряда, поэтому их ещё именуют структурными средними [20].

К структурным характеристикам относятся и аналогичные статистики:

квартили – делящие ряд на 4 равные части, т.е. делят две половины выборки (разбитые медианой) ещё раз пополам.

Выделяют нижний квартиль (q1) – число, ниже которого находится 25 % значений выборки. Также выделяется и верхний

квартиль (q3) – число, выше которого находится 25 % значений выборки. Второй квартиль (q2) равен медиане;

децили – делящие ряд на 10 частей;

перцинтили – делящие ряд на 100 частей и др.

Средние величины, характеризуя вариационный ряд одним числом, не отражают изменчивости наблюдавшихся значений, т.е. вариацию. В целях анализа и сопоставления меры рассеивания вариационных рядов рассчитывают численные показатели

43

размера и интенсивности вариации. Для характеристики размера вариации в статистике используют абсолютные показатели вариации: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение и дисперсию. Рассмотрим основные из этих показателей.

Размах (R) – разница между наибольшим и наименьшим значениями вариационного ряда (выборки):

R xmax xmin,

(2.12)

Межквартильный размах (межквартильное расстояние) – величина, равная разности между верхней и нижней квартилями: q = q3 – q1.

Дисперсия ( 2 ) – средняя арифметическая сумма квадратов отклонений значений от их средней арифметической, рассчитывается по формулам:

– для сгруппированных значений переменной:

n xi x 2 mi

2

i 1

 

;

(2.13)

 

n

 

 

mi

 

 

i 1

не сгруппированного вариационного ряда:

n xi x 2

2

i 1

 

,

(2.14)

 

n

где mi –частота(вес)значенийдлясоответствующейпеременной; n mi – общее число значений в переменной (объём

совокупности);

xi – значение переменной;

x – среднее арифметическое значение вариационного ряда.

44

Дисперсия может меняться от нуля до бесконечности. Значение дисперсии, равное нулю, свидетельствует об отсутствии изменчивости, в этом случае значения переменной постоянны.

Вычисленную по формуле (2.14) дисперсию именуют смещённой.

Если объём выборки небольшой, в знаменателе вышеприведенной формулы дисперсии используют не n, а (n – 1). В этом случае граница разброса данных относительно среднего значения искусственно увеличивается, что является «платой» за риск некорректного вычисления дисперсии при ограниченных данных. Такую 2 именуют несмещённой оценкой дисперсии. При увеличении объёма выборки смещённая дисперсия становится близкой к несмещённой оценке.

Стандартное отклонение (среднее квадратическое отклонение или просто стандарт, или «сигма») вычисляется как

корень квадратный из дисперсии:

2 .

Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Размах вариации R и стандартное отклонение σ имеют ту же единицу измерения, что и изучаемая переменная. Дисперсия2 единицы измерения не имеет.

При анализе разнородных данных величина стандартного отклонения явно не характеризует меру рассеивания исследуемых признаков. Например, в табл. 2.3 рассчитаны средние значения и стандартное отклонение для сильно отличающихся значений проб. Координата Y имеет пять значащих цифр перед десятичным разделителем, а мощность – одну. Стандартное отклонение по Y много больше, чем у мощности пласта и нерастворимого остатка (NO). Казалось бы, рассеивание в пространстве (по Y) больше, чем изменчивость мощности или NO. Но если отнести меру рассеивания к среднему значению признака, получаем размах области рассеивания, и он больше у мощности и у нерастворимого остатка.

45

Коэффициент вариации (V) показывает степень вариации (разброса, рассеивания) переменной относительно её среднего значения. Эта статистика позволяет сравнить вариацию двух и более переменных изучаемой выборки [20].

V 100.

(2.15)

x

Таблица 2.3

Расчёт описательных статистик для выбранных переменных

Чем больше величина коэффициента вариации, тем больше разброс значений вокруг среднего, тем больше неоднородность выборки. В приведенном примере (см. табл. 2.3) разброс NO в два раза выше, чем вариация по координате Y.

Форма гистограммы распределения также может свидетельствовать о типе распределения переменной или отклонениях от него как в отдельных интервалах, так и в целом. Она показывает, с какой частотой те или иные значения наблюдаемой переменной попадают в определённые интервалы. Как правило, рассматривается соответствие выбранных значений нормальному закону распределения, который подробно будет нами рассмотрен ниже (п. 2.11.2). В свою очередь, важнейшими характеристиками формы распределения являются показатели «асимметрия» и «эксцесс».

Асимметрия ( As ) – это мера симметричности распределения относительно центра распределения. Ранее нами уже от-

46

мечалось, что, если большая часть выборки расположена левее центра симметрии, имеет место левосторонняя отрицательная асимметрия, если правее – правосторонняя положительная. Если распределение симметрично, то асимметрия равна нулю. Нормальное и равномерное распределение абсолютно симметричны.

Для детального описания всех характерностей распределения используются некоторые дополнительные характеристики, в частности моменты распределения. Способ моментов был разработан русским математиком П.Л. Чебышевым. Моменты распределения случайной величины вводятся как математические ожидания некоторых простейших функций от случайной величины. Моментом порядка k относительно точки х0 называется математическое ожидание М (Х х0)k. Моменты распределения относительно начала координат х = 0 называются начальными моментами.

Для оценки степени асимметричности вариационного ряда применяютмоментныйиструктурныйкоэффициентыасимметрии:

моментный коэффициент асимметрии:

 

 

 

 

 

 

As

M3

,

 

(2.16)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

где

 

M3

центральный

момент третьего

порядка:

 

 

(xi

 

)3

m

 

 

 

 

 

 

 

 

M3

 

x

;

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

структурный коэффициент асимметрии:

 

 

 

 

 

 

 

As

 

 

M 0

 

 

 

 

 

 

 

 

x

,

(2.17)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где M0 – мода эмпирического распределения.

Основной недостаток моментного коэффициента асимметрии заключается в том, что на его величину влияет присутствие в выборке резко выделяющихся значений (выбросов). В таких случаях рекомендуют либо исключить из анализа резко

47

отличающиеся значения, либо использовать структурные показатели асимметрии [12].

На направление асимметрии указывает знак коэффициента: если As 0, то это левосторонняя асимметрия, при As 0 – правосторонняя асимметрия.

Степень существенности асимметрии можно оценить с помощью средней квадратической погрешности коэффициента асимметрии ( As ): если соблюдается отношение As : As 3, то

асимметрия признаётся несущественной, вызванной влиянием случайных обстоятельств.

Эксцесс (E) – это отклонение вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. При этом эксцесс определяется только для симметричных и умеренно асимметричных распределений.

 

 

 

xi

 

4 m

 

 

E

M

3; M 4

x

,

(2.18)

44

m

где M 4 – центральный момент четвёртого порядка [54].

Когда график распределения имеет более острую вершину, чем нормальное распределение, оно обладает положительным эксцессом (E 0), если в большей степени плосковершинное – отрицательным (E 0).

Положительное значение эксцесса свидетельствует, что в выборке есть слабо меняющееся по данному признаку ядро, а в плосковершинных распределениях такое ядро отсутствует и наблюдаемые значения распределены по всем значениям признака более равномерно.

Существенность эксцесса распределения оценивают с использованием средней квадратической ошибки эксцесса ( E ).

Если отношение E : E 3, отклонение от нормального закона распределения можно считать существенным.

48

2.8. Классификация статистических показателей

Все выборочные статистики можно разбить на несколько групп.

Показатели положения описывают место размещения данных на числовой оси (или в пространстве). Показателями положения служат прежде всего выборочное среднее и выборочная медиана. К этой же группе показателей можно отнести минимальное и максимальное значения выборки, а также верхнюю и нижнюю квартили.

Показатели разброса отражают степень разброса (рассеивания) данных относительно центра группирования (места локализации). К этой группе показателей можно отнести выборочную дисперсию, стандартное отклонение, размах и межквартильный размах. Стандартная ошибка среднего также является показателем разброса, но не исходных данных, а усредненных по выборке заданного объема.

Показатели формы распределения. К этой группе показа-

телей можно отнести параметрический и непараметрический коэффициенты асимметрии, а также эксцесс.

Показатели, описывающие закон распределения. К этой группе показателей можно отнести эмпирическую функцию распределения, выборочные квантили, а также рассматриваемые ниже гистограммы, таблицы частот, кумулятивные кривые, гра-

фики Box-Whiskers.

2.9. Робастные и неробастные оценки

Под робастностью3 понимают устойчивость статистических характеристик по отношению к тем или иным (обычно немногочисленным) грубым ошибкам и резко выделяющимся наблюдениям. Примеры робастных оценок – медиана, верхняя и

3 Термин «робастность» (robustness) образован от англ. robust – крепкий, грубый.

49

нижняя квартили, межквартильный размах и непараметрическая асимметрия. Примеры неробастных оценок: среднее, дисперсия, стандартное отклонение, максимум, минимум, размах, параметрическая асимметрия, эксцесс. Для оценки количественной меры робастности той или иной статистической характеристики может применяться два основных параметра. Первый – так называемая точка срыва, второй важной характеристикой является функция влияния, введенная Хампелем [53].

Точка срыва, которая определяется как максимальная доля выбросов, это тот порог выбросов в выборке, до которого оценка все еще дает непротиворечивые результаты. В табл. 2.4 представлены значения точки срыва для некоторых статистических характеристик.

Таблица 2.4

Значения точки срыва для некоторых статистических характеристик, %

Статистика

Среднее

Сигма

Медиана

Нижняя

Верхняя

Межквартальное

квартиль

квартиль

расстояние

 

0

 

 

Точкасрыва

0

50

25

25

25

Как видно из приведенной таблицы, среднее и сигма являются неустойчивыми статистическими характеристиками и имеют нулевую точку срыва. Это означает, что даже один грубый промах в измерениях может сколь угодно сильно исказить эти характеристики, если этот промах будет находиться достаточно далеко от основной группы наблюдений. Напротив, квартильные оценки остаются устойчивыми, пока число выбросов не достигнет 25 %. Самой устойчивой в этом списке является медиана. Для нее точка срыва составляет 50 %.

Пример. Иллюстрация чувствительности статистических характеристик к резко выделяющимся наблюдениям. При двойном измерении длин линий рулеткой получены следующие разности,

мм: 1 11 12 9 14 28 15 3 10 6 12 17 14 7 11 5 18 10 13 4 16 13 2.

50

Соседние файлы в папке книги