Макарова Н.В. Статистика в Excel-1
.pdfiuz
Р 18
19 pi 20^
22
23
24
25
26 i. • 27.
28
29
30
31
|
Таблица 4,2 |
|
В . |
Столбец 1 |
|
Среднее |
416,03 |
Стандартная ошибка |
14,71 |
Медиана |
405,12 |
Мода |
#Н/Д |
Стандартное отклонение |
44,13 |
Дисперсия выборки |
1947,78 |
Эксцесс |
6,06 |
Асимметричность |
2,26 |
Интервал |
154,00 |
Минимум |
371,96 |
Максимум |
525,96 |
Сумма |
3744,28 |
Счет |
9,00 |
Наибольший (1) |
525,96 |
Наименьший (1) |
371,96 |
Уровень надежности (95,0%) |
33,92 |
На основании проведенного выборочного обследования {см, табл. 4.1) и рассчитанных по данной выборке показателей описа тельной статистики {см. табл. 4.2) с уровнем надежности 95% можно предположить, что средняя стоимость набора из 25 про дуктов питания в целом по всем городам центрального региона России в декабре 1998 г. находилась в пределах от 382,11 до 449,95 руб.
Поясним, на основании каких показателей описательной статистики был сформулирован соответствующий вывод. Таки ми показателями являются: средняя арифметическая выборки х (показатель Среднее в табл. 4.2) и предельная ошибка выборки Азр(показатель Уровень надежности (95,0%) в табл. 4.2). Из выра жения для доверительного интервала
5й
Описательная статистика
I-Входной 1^терс»ал;. |
:|$B$3BiTo |
^ |
• е ж : •• |
|||
Отмена |
||||||
> • • . |
. . • ' |
• |
|
|
||
|
|
^ |
nocTonSicw |
|
|
|
|
|
Г |
гто cipopcai^t |
|
Сгравка |
IП Метки в первой стр<же
;:Парг*^*фь1 вывода- •
i;^ Вй^дной ^»1тврвая'.
J<^ Новыйра6<>«^Ш1СТг : ; <^ Новая р^^очая |о<ига
kJ^W^oroim статистика! рУ )^роте№>надеж>-юстн^
Рис. 4.2
X -A;r <X <X-\-Az
находим: 416,03 - 33 ,92 = 382,11 • левая граница; 416,03 + 33,92'
= 449,95 — правая граница.
Коэффициент вариации
v = -5^-100% = -^i^l00%«10,6% X 416,03
существенно меньше 40 %, что свидетельствует о небольшой ко леблемости признака в исследованной выборочной совокупнос ти. Надежность средней в выборке подтверждается также и ее не значительным отклонением от медианы: 416,03 - 405,12 = 10^91. Значительные положительные значения коэффициентов асим метрии {А^) и эксцесса (Ej^) позволяют говорить о том, что данное эмпирическое распределение существенно отличается от нор мального, имеет правостороннюю асимметрию и характеризует ся скоплением членов ряда в центре распределения.
51
Математико-статистическая интерпретация полученных ре зультатов рассмотрена в описании соответствующих статистичес ких функций,
4.3.
Статистические функции, связанные с режимом «Описательная статистика»
Функция СРЗНАЧ
См, также СРЗЫАЧА, УРЕЗСРЕДНЕЕ, CPDVPM, СРГЕОМ.
Синтаксис:
СРЗНАЧ (число1; число2;...)
Результат:
Рассчитывает среднюю арифметическую значений, заданных в списке аргументов.
Аргументы:
число], число2,,..; от 1 до 30 аргументов, для которых вычисля ется средняя арифметическая.
Замечания:
•аргументы должны быть числами или именами, массивами или ссылками, содержащими числа;
•если аргумент, который является массивом или ссылкой, со держит текстовые, логические значения или пустые ячейки, то та кие значения игнорируются; однако ячейки, содержащие нулевые значения, учитываются;
•вычисляя средние значения ячеек, следует учитывать разли чие между пустыми ячейками и ячейками, содержащими нулевые значения, особенно если не установлен флажок Нулевые Значения на вкладке Вид в диалоговом окне Параметры. Пустые ячейки не учитываются, но нулевые ячейки учитываются. Чтобы открыть диалоговое окно Параметры, выберите команду Параметры... в
меню Сервис.
Математико-статистическая интерпретация:
Средняя арифметическая является наиболее распространен ным видом средних величин. В зависимости от характера имею щихся данных средняя арифметическая может быть невзвешенной {простой) и взвешенной. Функция СРЗНАЧ рассчитывает значение невзвешенной средней арифметической по формуле
52
>^Z^/
Рассмотрим использование функции СРЗНАЧ для расчета среднего объема индивидуального жилищного строительства по районам Ярославской области в 1998 г. (табл. 43) [2].
Таблица 4.3
|p-fi-i;riii;rii?iiVrrt-ii.i.M^i.w
РЖ. : 3 8 • •:••
Объем индивидуального жилищного
строительства по районам Ярославской области в 1998 г.
Районы
1 : ' • * « . Большесельский
1 . 41 '.^ Борисоглебский t . /ii :: Брейтовский
i "^з:; Гаврилов-Ямский | Г 44 • -;Даниловский | . "45: /•.:Любимский
р . 46' ;• Мышкинский 1 • ^'. Некоузский
[;.; '"^8 |
Некрасовский |
|1^14?:Г:1 Первомайский
Щ-^-' |
|
' |
Переславский |
|
|
|
Пошехонский |
F |
• |
"' |
Ростовский |
Щ: S3 |
|
Рыбинский |
|
|
|
|
Тугаевский |
Щ 55 |
|
Угличский |
|
^, |
|
. • |
; |
Ш^-Щмй |
Ярославский |
Средний объем строительства
Площадь, м^ 718 1319 632 919 1321 437 218 206 2121 457 8872 ЗОН 1363 1389 730 4728 3439
1875
S3
Ячейка С57 содержит формулу =СРЗНАЧ(С40:С56), по кото рой рассчитывается средний объем индивидуального жилищного строительства.
Однако на практике все же наиболее часто приходится иметь дело со взвешенной средней арифметической, которая рассчиты вается по формуле
Zfi
Взвешенная средняя арифметическая используется при расче те индексов Стендарда и Пура (Standard and Poor's 500 Stock Index), ROS-INDEXидp.
В явном виде функция для расчета взвешенной средней ариф метической не представлена в Microsoft Excel, но ее можно легко получить комбинацией других функций. Рассмотрим, как рассчи тывается средний курс продажи долларов США по итогам торгов на российских валютных биржах (табл. 4.4 [12]).
|
|
|
Таблица |
4.4 |
|
|
|
У:--^>^^^ |
|
|
|
1 "• ^'•••: • |
Итоги торгов на российских валютных биржах 06.02.95 г. |
||||
|
|
Валютные биржи |
Объем продаж, |
Курс, |
1 |
|
|
млн долл. |
руб./долл. |
||
|
|
|
|||
\Ш1 Московская межбанковская |
72,99 |
4133 |
|
||
ЙЧ#;: Санкт-Петербургская |
8,40 |
4165 |
|
||
\.т"'Сибирская межбанковская |
3,97 |
4126 |
|
||
lilis |
Уральская региональная |
25,69 |
4130 |
|
|
f'"-f"- Азиатско-Тихоокеанская |
3,50 |
4115 |
j |
||
|
|
межбанковская |
|||
ЩШ: Ростовская межбанковская |
0,64 |
4127 |
|
||
• |
м |
Нижегородская валютно- |
|
|
|
|
|
фондовая |
0,02 |
4133 |
|
\ |
l-S". |
Средний курс продажи |
4133,8 |
|
|
|
|
долларов США на 06.02.95 |
|
|
S4
Ячейка D12 содержит формулу =СУММПРОИЗВ(С5:С11; D5:Dll)//CyMM(C5:Cll), по которой рассчитывается средне взвешенный курс доллара США по проведенным торгам.
• В примере 4.1 значение средней арифметической (показатель Среднее в табл. 4.2) рассчитывается формулой =СРЗНАЧ(В2:В10).
Функция МЕДИАНА
См, также МОДА, КВАРТИЛЬ, ПЕРСЕНТИЛЬ.
Синтаксис:
МЕДИАНА (число 1; число2;...)
Результат:
Рассчитывает медиану заданных аргументов.
Аргументы:
число 1, число!,...: от 1 до 30 аргументов, для которых опреде ляется медиана.
Замечания:
•аргументы должны быть числами или именами, массивами или ссылками, содержащими числа;
•если аргумент, который является ссылкой, содержит пустые ячейки, текстовые или логические значения, то такие значения игнорируются; однако ячейки, которые содержат нулевые значе ния, учитываются.
Математико-статистинеская интерпретация:
Медианой {Me) называется значение признака, приходящееся на с^р^лящранжированной (упорядоченной) совокупности.
Для ранжированного ряда с нечетным числом элементов меди аной является варианта, расположенная в центре ряда. Так, дан ные из табл. 4.5 после ранжировки в порядке возрастания будут представлять последовательность (200, 236, 250, 305, 337). Медиа ной для данного ряда является третья варианта - 250 костюмов.
Функция МЕДИАНА не требует предварительной ранжиров ки данных, она проводит ее автоматически. Если в ячейку С9 по местить формулу ==МЕДИАНА(С4:С8), то она рассчитает значе ние 250.
Для ранжированного ряда с четным числом элементов медиа ной будет средняя арифметическая из двух смежных вариант. Так, функция =МЕДИАНА(200;236;250;305;337;220) рассчитает значе ние медианы 243 = (236 + 250)/2.
55
|
|
|
|
Таблица 4.5 |
|
|
|
|
в |
с: |
|
|
|
|
Спрос на спортивные костюмы |
' |
|
i |
^ •• |
в фирме «Чемпион» (за 2000г.) |
|
||
|
|
|
|||
|:;.\з::;д| |
Производитель костюмов |
Число купленных |
|
||
костюмов |
|
||||
fi-:.:A':M:.Diadora |
236 |
|
|||
pr-^^ |
|
•^'•••• |
Adidas |
200 |
|
|:-..:::;:6:;--f:: Reebok |
337 |
|
|||
|
|
|
Nike |
250 |
|
t-;--'"-^- |
31 Umbro |
305 |
|
||
1 ..:э ;i|Медиана |
250 |
|
Главное свойство медианы заключается в том, что сумма абсо лютных отклонений членов ряда от медианы есть величина наи меньшая: Z|xy — Ме\ = min.
В отличие от дискретных вариационных рядов определение медианы по интервальным рядам требует проведения определен ных расчетов. Так как медиана делит численность ряда пополам, то, следовательно, она будет там, где накопленная частота состав ляет половину или больше половины всей суммы частот, а преды дущая накопленная частота меньше половины численности сово купности.
Если предполагать, что внутри медианного интервала нарас тание или убывание изучаемого признака происходит по прямой равномерно, то формула медианы в интервальном ряду распреде ления будет иметь следующий вид:
|
Me = XQ-\-i,о,51у;-5д^,_, |
|
f^ |
|
Me |
где XQ |
— нижняя граница медианного интервала; |
/ |
— величина медианного интервала; |
/ме |
"" частота медианного интервала; |
*^Ме-1~ накопленная частота интервала, предшествующего ме дианному
в табл. 4.6 медианным интервалом величины научного стажа сотрудников научно-исследовательского центра будет интервал 8-10 лет, а медианой продолжительности стажа - 8,13 лет
|
|
|
Таблица 4.6 |
|
В |
|
|
|
Нау^1ный стаж |
Число |
Накопленная |
|
сотрудников н и ц , лет |
сотрудников,/- |
частота, 5} |
|
До 4 |
14 |
14 |
|
4-6 |
33 |
47 |
|
6-8 |
30 |
77 |
|
8-10 |
45 |
122 |
|
10-12 |
21 |
143 |
|
Свыше 12 |
17 |
160 |
|
Итого |
160 |
|
10 |
50% числа сотрудников |
80 |
|
ИСмещение на max < N/2
12 |
Значение max < N/2 |
|
77 |
13 |
Смещение на медианный |
|
|
интервал |
|
|
|
|
|
|
|
14 |
Частота медианного |
ин |
45 |
тервала |
|
||
|
|
|
|
15 |
Медианный интервал |
|
8-10 |
16Нижняя граница медиан ного интервала
17 |
Значение |
накопленной |
|
|
частоты предшествующе |
77 |
|||
|
го интервала |
|
||
18 |
Медиана |
продолжитель |
8,13 |
|
ности стажа |
||||
|
|
57
Содержимое ячеек в табл. 4.6:
•в ячейках D3:D8 вычисляются накопленные частоты (на пример, ячейка D5 содержит формулу =D4+C5);
•ячейка С9 содержит формулу =СУММ(СЗ:С8) - рассчиты вается численность совокупности (число сотрудников);
•ячейка СЮ содержит формулу =С9/2 - определяется поло вина численности совокупности (50 % числа сотрудников);
•ячейка С11 содержит формулу =ПОИСКПОЗ(С10;ОЗ:О8;1) -
вмассиве D3:D8 определяется номер позиции числа, которое яв ляется наибольшим среди чисел меньших или равных середины интервала, т. е. числа 80;
•ячейка С12 содержит формулу =ИВДЕКС(03:08;С11;1) ~ из массива D3:D8 извлекается число, удовлетворяющее условиям поиска, сформированным в ячейке СП;
•ячейка С13 содержит формулу =ЕСЛИ(С10=С12;С11;С11+1)
-рассчитывается смещение на медианный интервал;
•ячейка С14 содержит формулу =ИНДЕКС(СЗ:С8;С13;1)- отображается значение частоты медианного интервала;
•ячейка С15 содержит формулу =ИНДЕКС(ВЗ:В8;С13;1) - в массиве ВЗ:В8 находится медианный интервал;
•ячейка С16 содержит формулу =ЛЕВСИМВ(С15;1) - отоб ражается нижняя граница медианного интервала;
•ячейка С17 содержит формулу =ИВДЕКС(ВЗ:08;С13-1;1) - находится значение накопленной частоты интервала, предшест вующего медианному;
•ячейка С18 содержит формулу =С16+2*((С9/2-С17)/С14) - рассчитывается медиана продолжительности стажа.
Безусловно, из приведенных формул можно составить одну интегрированную формулу (ел/., например, описание функции МОДА). Однако с целью более быстрого составления и поиска возможных ошибок рекомендуется сложные формулы составлять по частям.
•В примере 4.1 значение медианы (показатель Медиана в табл. 4.2) рассчитывается по формуле =МЕДИАНА(В2:В10).
Функция МОДА
См, также МЕДИАНА.
Синтаксис:
МОДА(число1; число2;...)
58
Результат:
Отображает наиболее часто встречающееся значение в интер вале данных.
Аргументы:
число!, число!, ...: от 1 до 30 аргументов, для которых вычис ляется мода.
Замечания:
•аргументы должны быть числами, именами, массивами или ссылками, которые содержат числа;
•если аргумент, который является массивом или ссылкой, со держит текстовые, логические значения или пустые ячейки, то такие значения игнорируются, однако ячейки, содержащие нуле вые значения, учитываются;
•если множество данных не содержит одинаковых данных, то функция МОДА помещает в ячейку значение ошибки #Н/Д.
Математико-статистическая интерпретация:
Модой (Мо) называется чаще всего встречающаяся варианта или то значение признака, которое соответствует максимальной точке теоретической кривой распределения.
Мода широко используется в коммерческой практике при изучении покупательского спроса (при определении «ходовых» размеров одежды и обуви, наиболее употребляемых продуктов и т. п.). В дискретном ряду мода - это варианта с наибольшей час тотой. По данным, приведенным в табл. 4.7, можно судить, что наибольшим спросом пользуются спортивные костюмы 50 раз мера, соответственно он и является модальным.
Однако, если использовать функцию МОДА, то в ячейку СЮ она поместит значение ошибки #Н/Д. Это объясняется тем, что функция МОДА находит наиболее часто встречаю щееся значение в интервале данных. Так, если в ячейку СЮ ввести формулу ==МОДА(В4:В8;52), то она поместит в ячейку значение 52.
Для получения модального (максимального) значения по данным табл. 4.7 в ячейку С9 введена формула =МАКС(С4:С8), а
вячейку СЮ - ИНДЕКС(В4:В8;ПОИСКПОЗ(С9;С4:С8)).
Вотличие от дискретного вариационного ряда определение моды по интервальному ряду требует проведения расчетов по фор муле
59