Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

10535

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
6.66 Mб
Скачать

Пример Вычисление показателей вариации Выборочное среднее ( х )

Выборочное среднее определяется с помощью функции СРЗНАЧ из категории Статистические. В диалоговое окно функции СРЗНАЧ вводят диапазон всех данных.

Размах выборки (R) – разность между максимальным и минимальным значени-

ем выборки (R = ). Максимальное и минимальное значение можно определить с помощью статистических функций МАКС (диапазон дан-

ных) и МИН(диапазон данных) из категории Статистические функции.

Выборочная дисперсия ( 2)

Дисперсия — это мера рассеяния, описывающая сравнительное отклонение

между значениями данных и средней величиной 2 =

 

2

 

=1

 

.

−1

 

 

MS Excel предлагает для вычисления две функции: ДИСП.Г и ДИСП.В.

ДИСП.В – возвращает дисперсию по выборке. Логические значения и текст иг-

норируются.

ДИСП.Г — возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются.

10

Разница в формуле расчета дисперсии между выборкой и совокупностью за-

ключается в знаменателе. Для выборки (ДИСП.В) он будет равен (n-1), а для генеральной совокупности (ДИСП.Г) только n.

Пример Добавление элементов на диаграмму Как правило, диаграммы и графики строят по определенному набору данных.

Однако, часто приходится добавлять информацию на графии для большей ин-

формативности. Примером такого многократного добавления является по-

строение контрольных карт качества. Для добавления элементов на график не-

обходимо выделить диаграмму и воспользовавшись правой кнопкой мыши

[Выбрать данные], либо воспользоваться вкладкой Работа с диаграммами

[Конструктор Выбрать данные].

11

На-

жимаем кнопку Добавить и указываем тот же диапазон ячеек, что и для гисто-

граммы. При работе с рядами данных в окне Имя можно ввести комментарий,

поясняющий содержание набора данных для графика.

Графическое представление данных

Графическое изображение зависимости между величинами отличается наглядностью. Графики могут служить основой для открытия новых свойств,

соотношений и закономерностей. Наиболее употребительными графиками для изображения вариационных рядов являются полигон, гистограмма и кумулята.

Гистограмма — это способ графического изображения интервальных распреде-

лений вариант при непрерывном варьировании признака.

Рассмотрим характерные типы гистограмм:

а) обычный тип гистограммы с двусторонней симметрией, что указывает на стабильность процесса;

б) в распределении имеется два пика (двугорбая гистограмма). Такая гисто-

грамма получается при объединении двух распределений, например, в случае двух видов сырья, изменения настройки процесса или объединения в одну пар-

12

тию изделий, обработанных на двух разных станках. Требуется расслоение продукции;

в) показана гистограмма с обрывом. Такое распределение получается, когда не-

возможно получить значение ниже (или выше) некоторой величины. Подобное распределение имеет место также, когда из партии исключены все изделия с показателем ниже (и/или выше) нормы, т.е. изначально это была партия с большим количеством дефектных изделий. Такое же распределение получается,

когда измерительные приборы были неисправны;

г) показана гистограмма с островком. Получается при ошибках в измерениях,

или когда некоторое количество дефектных изделий перемешано с доброкаче-

ственными;

д) показана гистограмма с прогалами («гребѐнка»). Получается, когда ширина интервала не кратна единице измерения или при ошибках оператора;

е) показана гистограмма в форме плато. Получается, когда объединяются не-

сколько распределений при небольшой разнице средних значений. В этом слу-

чае требуется расслоение.

Контрольные вопросы

1. Как вычислить основные статистические показатели с помощью вкладки Формулы?

13

2. Как построить интервальный статистический ряд с помощью функции Гисто-

грамма?

3.Как можно визуализировать статистические данные?

4.Каким образом можно дополнить уже построенные графики?

5.Как настроить пакет Анализа данных?

Тема 2: Описательная статистика. Функции распределения. Проверка статистических гипотез

При сборе и анализе данных аналитики часто имеют дело с разнообраз-

ными случайными величинами. Под случайной величиной понимается пере-

менная величина, принимающая те или иные значения с определенными веро-

ятностями. Например, объем продаж, количество покупателей товара, число единиц выпущенной продукции за отчетный период, количество баллов сту-

дента, полученное в процессе обучения, число вызовов в единицу времени на телефонной станции.

Для того, чтобы обнаружить общие свойства совокупности, выявить законо-

мерности и в результате прийти к правильным выводам, необходимы обоб-

щающие количественные показатели.

Эти показатели называются Показателями Описательной статистики.

Показатели Описательной статистики

Показатели Описательной статистики можно условно разделить на четыре группы.

Показатели уровня ― описывают положения данных на числовой оси. (мини-

мальный и максимальный элементы выборки, различные средние и т.д.)

Показатели рассеяния― описывают степень разброса данных относительно своего центра. (дисперсия, стандартное отклонение, размах выборки и т.д.)

14

Показатели асимметрии ― характеризуют симметрию распределения данных около своего центра. (положение медианы относительно среднего и т.п.)

Показатели, описывающие закон распределения данных ― к ним относятся таблицы частот, полигоны, гистограммы.

Microsoft Excel располагает инструментом Описательная статистика.

[Данные →Анализ → Анализ данных →Описательная статистика]

Диалоговое окно включает следующие параметры:

1. Входной интервал – вводится диапазон ячеек, содержащих анализируемые данные.

2.Группирование – по строкам и столбцам в зависимости от расположения данных во входном диапазоне.

3.Метки в первой строке – флажок ста-

вится, если первая строка содержит заго-

ловок, в противном случае будут созданы стандартные заголовки автоматически.

4. Параметры вывода – указывается ме-

сто, где будет указана таблица результатов анализа.

5. Итоговая статистика – флажок ставится, если необходимо получить ре-

зультаты по каждому показателю.

6. Уровень надежности – флажок устанавливается, если требуется вывести значение ошибки выборки при установленном уровне надежности.

15

7. К-ый наименьший и К-ый наибольший – флажки устанавливаются, если тре-

буется получить определенный наименьший элемент (начиная с минимального значения среди элементов выборки) или наибольший (начиная с максимального значения выборки).

Прочитаем полученные показатели.

Показатели уровня

Среди показателей описательной статисти-

ки большое значение имеют средние, по-

скольку они позволяют обобщить получен-

ные данные и охарактеризовать их с помо-

щью типичного значения.

Используются две категории средних вели-

чин: степенные средние (ср. арифметиче-

ские, ср. геометрические, ср квадратиче-

ские, ср. гармонические) и структурные средние (мода и медиана). Средние величины бывают простые и взвешенные.

Взвешенными средними называют величины, которые учитывают, что некото-

рые варианты значений признака могут иметь различную частоту, в связи с чем,

каждую варианту приходится умножать на эту частоту.

16

Медиана выборки (me)

Медиана – это число, которое является серединой множества чисел (выборки)

половина чисел множества больше, чем медиана, а половина чисел меньше, чем медиана. Например, медиана для чисел 2, 3, 3, 4, 5, 7, 10 медиана равна 4.

Если множество содержит четное количество чисел, то вычисляется среднее двух чисел, находящихся в середине множества. Например, медианой для чисел

2, 3, 3, 5, 7, 10 будет 4, т.к. (3+5)/2 = 4

Главное свойство медианы в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины.

Мода выборки (ma)

Мода – это наиболее часто встречающееся (повторяющееся) значение в выбор-

ке. Например, 1, 1, 2, 2, 2, 3, 4, 5 число 2 встречается чаще других, значит, чис-

ло 2 является модой.

Замечание: Мода и среднее значение симметричных распределений совпадает

(речь идет о симметричности плотности распределения).

Показатели рассеяния

Показатели уровня дают усредненное представление о характерных значениях,

принимаемых случайными величинами. Информации в этих характеристиках тем больше, чем меньшие отклонения от них могут наблюдаться в реальном эксперименте. Показатели, описывающие возможные отклонения значений случайной величины от «средних», называются показателями рассеяния. К ним относятся дисперсия, среднеквадратичное отклонение, срединное отклонение,

коэффициент вариации и некоторые другие.

Размах вариации – показывает, в каких пределах колеблется размер признака,

образующего ряд распределения

Среднее квадратическое отклонение – показывает, на сколько в среднем от-

клоняются значения признака от его среднего значения.

Дисперсия – средний квадрат отклонений индивидуальных значений признака от их средней величины.

17

Показатели асимметрии

Асимметрия

Асимметрия это мера отклонения распределения частоты от симметричного распределения, то есть такого, у которого на одинаковом удалении от среднего значения по обе стороны выборки данных располагается одинаковое количест-

во значений.

 

 

3

 

6 −1

 

=

=1

 

; =

, где

 

3

 

+1

+3

 

 

 

 

 

А - показатель асимметрии,

m a – ошибка показателя асимметрии, σ - среднеквадратическое отклонение, n - число измерений параметра,

xi - измеренное значение на i-м шаге.

Если наблюдения подчиняются нормальному распределению, то асимметрия равна нулю. Для проверки на нормальное распределение можно применять сле-

дующее правило:

если асимметрия значительно отличается от нуля, то гипотезу о том, что данные взяты из нормально распределенной генеральной совокупности,

следует отвергнуть.

если вершина асимметричного распределения сдвинута к меньшим зна-

чениям, то говорят о положительной асимметрии, в противоположном случае — об отрицательной.

18

Если A < 0, то это означает, что преобладают данные с большими значениями, а

если A > 0, то больше данных с меньшими значениями, чем среднеарифметиче-

ское.

Эксцесс выборки

Эксцесс – выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения.

 

 

4

 

24 −2 −3

 

=

=1

 

− 3; =

, где

 

4

 

−1

2

+3

+5

 

 

 

 

 

 

Е - показатель эксцесса, σ - среднеквадратическое отклонение,

me – ошибка показателя эксцесса

хi - измеренное значение на i-м шаге.

Положительный эксцесс обозначает относительно остроконечное распределе-

ние.

Отрицательный эксцесс обозначает относительно сглаженное распределение.

Эксцесс равен нулю, если наблюдения подчиняются нормальному распределе-

нию. Поэтому для проверки на нормальное распределение можно применять еще одно правило:

если коэффициент вариации значительно от-

личается от нуля, то гипотезу о том, что дан-

ные взяты из нормально распределенной ге-

неральной совокупности, следует отвергнуть.

Если E < 0, то данные более равномерно распределены по всей области значе-

ний, если E > 0, то данные сконцентрированы около среднеарифметического значения.

При отношении и меньше 3 анализируемая информация подчиняется закону нормального распределения.

19

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]