Макарова Н.В. Статистика в Excel-1
.pdfПример 2.1. Общий объем розничного товарооборота по райо нам Ярославской области за 1998 г. приведен в табл. 2.4 [2], сфор мированной на рабочем листе Microsoft Excel.
Таблица 2.4
— ^ .
Объем розничного товарообора!^ но районам
Ярославской области за 1998 г.
Район |
Товарооборот, млн руб. |
Большесельский |
31,0 |
Борисоглебский |
38,5 |
Брейтовский |
34,0 |
Гаврилов-Ямский |
87,6 |
Даниловский |
139,6 |
ЛюбИМС1СИЙ |
46,0 |
Мышкинский |
46,0 |
Некоузский |
76,6 |
Некрасовский |
68,3 |
^49-^V Первомайский |
41,1 |
Переславский |
93,7 |
Пошехонский |
80,9 |
Ростовский |
52,6 |
Рыбинский |
76,3 |
Тугаевский |
45,8 |
Угличский |
28,5 |
Ярославский |
190,5 |
По набору данных (см. табл. 2.4) необходимо построить гисто грамму и кумуляту.
Для решения задачи воспользуемся режимом работы «Гис тограмма». Значения параметров, установленных в диалоговом окне Гистограмма, показаны на рис. 2.5. Частоты и накоплен-
30
ные частости, рассчитанные в данном режиме, представлены в табл. 2.5, а построенные гистограмма и кумулята изображены на рис. 2.6.
Поясним подробнее порядок расчета накопленных частостей (см. в табл. 2.5 фафу «Интегральный %»). На основании частот
Гистограмма
• ВхЬднйё^ данные'^''''• Входной интврвсгл:
Интервадгдарианое; ' •
J ^*' Вы;<однойинтёрвая1^
Щ, с Новый рабочий ^ICT:
1 (^ Новая рабочий i ^ f а
Г" Q|^^<5 (otcopти|Ювaмнaя гистограмма)
Р Йчтв«^0&а5Г^ьй проиемт
Рис. 2.5
::В-^ т:ж
Карман Частота
28,5
69
109,5
150
Еще
(Ж :
Отиана
.^:Sffl^^;:.
Таблица 2.5
т-
Интегральный %
5,
58,82%
88,24%
94,12%
100,00%
31
-г 120.00%
4100,00%
69 109,5 150
Карман
Рис. 2.6
i Частота -Интефэльныи %\
(см. в табл. 2.5 графу «Частота») рассчитываются накопленные частоты. Каждое значение накопленной частоты делится на мак симальное накопленное значение, в результате чего получаются частости, выраженные в долях единицы. После преобразования последних к процентному формату получаем окончательный ре зультат. Промежуточные и заключительные итоги вычислений сведены в табл. 2.6.
Как правило, гистограммы изображаются в виде смежных прямоугольных областей, поэтому столбики гистограммы на рис. 2.6 целесообразно расширить до соприкосновения друг с другом. Для этого на панели инструментов Диаг/?ал1Л1а необходи-
|
|
|
|
Таблица 2.6 |
|
Частота |
Накопленная |
Частость |
Частость, % |
|
частота |
|||
|
|
|
|
|
|
1 |
1 |
0,0588 |
5,88 |
|
9 |
10 |
0,5882 |
58,82 |
|
5 |
15 |
0,8824 |
88,24 |
[_ |
1 |
16 |
0,9412 |
94,12 |
1 |
17 |
1,0000 |
100,00 |
32
МО в раскрывающемся списке элементов диаграммы выбрать эле мент Ряд 'Частота', после чего щелкните по кнопке Формат ря дов данных. В появившемся одноименном диалоговом окне необ ходимо активизировать вкладку Параметры и в поле Ширина за зора установить значение 0. После указанных преобразований гистофамма примет стандартный вид (рис. 2.7).
Внимание! В примере 2.1 величина интервала определялась авто матически в соответствии с формулой
(2.1)
W - 1
где h — величина равного интервала; соответственно максималь признака в совокупности;
{п) - округленное оптимальное число групп, определяемое по формуле Стерджесса д? = 1 + 3,322 »IgTV (TV — число еди ниц совокупности).
Так, для примера 2.1 имеем:
«= 1 + 3,322 • lgl7 « 5,09; ^^190,5-28,5^
Примечание. Формула (2.1) используется только при работе в режиме «Гистограмма». В других случаях следует применять формулу
П
В режиме работы «Гистограмма» пользователь может самостоя тельно задать величину интервалов ряда (параметр Интервал кар манов диалогового окна П|стограмма). В случае если заданные ин тервалы будут не равны между собой, то сгенерированная гистофамма будет представлять собой обычную столбиковую диаграмму, в которой частоты попадания в интервал не связаны с его размером, что не позволит правильно оценить характер распределения изуча емого явления. Во избежание подобных ошибок рекомендуется за давать интервалы одинаковой величины или пользоваться режимом автоматического формирования интервалов.
33
OS Ia-
o zr
69 109,5 150 ЧШЩ^ Чэстотэ
Карман |
• Интефаль^ный %\ |
|
Рис. 2.7
2.3.
Статистические функции, связанные с режимом «Гистограмма»
Функция ЧАСТОТА
См, также СЧЕТ, СЧЕТЗ.
Синтаксис:
ЧАСТОТА (массив данных; массив карманов).
Результат:
Вычисляет для множества исходных данных число значений, попадающих в заданные интервалы, т. е, частоты статистическо го распределения.
Аргументы:
• массив |
данных: массив множества данных, для которых |
|
вычисляются частоты. Если массив |
данных не содержит значе |
|
ний, то функция ЧАСТОТА помещает в ячейки массив нулей; |
||
• массив |
карманов: массив интервалов, в которые фуппи- |
|
руются значения аргумента массив |
данных. Если массив кар |
манов не содержит значений, то функция ЧАСТОТА рассчитыва ет количество элементов в аргументе массив данных.
34
Замечания:
•функция ЧАСТОТА вводится как формула массива после вы деления интервала смежных ячеек, в которые нужно поместить рассчитываемый массив распределения;
•количество элементов в результирующем массиве на еди
ницу больше количества элементов в аргументе массив кар манов,
• функция ЧАСТОТА игнорирует пустые ячейки и тексты.
Математико-статистинеская интерпретация:
Функция ЧАСТОТА рассчитывает для множества исходных данных массив частот, соответствующих числу появлений значе ний в заданных интервалах. Интервалы значений задаются в аргу менте массив карманов, причем фаницы интервалов являются строгими нижними границами и нестрогими верхними: а<х<Ь.
Примечание, Если требуется задать интервал с другим характером границ (например, нестрогими нижними границами и строгими верхними: а<х<Ь)у то в этом случае необходимо воспользоваться функцией СЧЕТЕСЛИ.
• В примере 2.1 значения частот {см, в табл. 2.5 графу Частота) рассчитываются по формуле массива
{=ЧАСТОТА(С40:С56;В60:В63)},
где диапазон С40:С56 содержит массив исходных данных {см, табл. 2.4), а диапазон В60:В63 — массив автоматически рассчитывае мых границ интервалов {см, в табл. 2.5 графу Карман).
ГЛАВА 3 Выборка
3.1.
Краткие сведения из теории статистики
Методология исследования массовых статистических явлений в зависимости от полноты охвата изучаемого объекта (явления) различает сплошное и несплошное наблюдение [8, 12]. Разновидно стью несплошного наблюдения является выборочное, которое в
35
условиях развития современных рыночных отношений находит все более широкое применение.
Под выборочным наблюдением понимается метод статистиче ского исследования, при котором обобщающие показатели изу чаемой совокупности устанавливаются по некоторой ее части на основе положений случайного отбора. При выборочном методе обследованию подвергается сравнительно небольшая часть всей изучаемой совокупности, получившая название выборочной сово купности или просто выборки.
Выборка должна быть представительной (репрезентативной
чтобы по ней можно было судить о генеральной совокупности. Репрезентативность означает, что объекты выборки достаточно хорошо представляют генеральную совокупность. Заметим, что при отборе объектов могут сыграть роль личные мотивы или пси хологические факторы, о которых исследователь, проводящий выборку, и не подозревает. При этом выборка, как правило, не будет репрезентативной.
Предупреждение систематических (тенденциозных) ошибок выборочного обследования достигается в результате применения научно обоснованных способов формирования выборочной со вокупности, в зависимости от которых выборка может быть [12]:
•собственно-случайной;
•механической;
•типической;
•серийной;
•комбинированной.
Втабличном процессоре Microsoft Excel реализована собст венно-случайная выборка.
Собственно-случайная выборка состоит в том, что выборочна
совокупность образуется в результате случайного (непреднаме ренного) отбора отдельных единиц из генеральной совокупнос ти. Именно принцип случайности попадания любой единицы ге неральной совокупности в выборку предупреждает возникнове ние систематических (тенденциозных) ошибок выборки.
Собственно-случайная выборка может быть осуществлена по схемам повторного и бесповторного отбора. Повторный отбор предполагает возможность включения в выборку одного и того же элемента генеральной совокупности два раза и более. Беспов торный отбор исключает такую возможность. В Microsoft Excel
реализована схема повторного отбора,
36
На практике, особенно при большом объеме генеральной со вокупности, для организации собственно-случайной выборки часто используют таблицу случайных чисел или генератор слу чайных чисел {см, подробнее в главе 6). В Microsoft Excel выбор ка формируется на основе генератора случайных чисел.
Предположим, например, что для проверки качества изготов ленных за месяц приборов требуется сформировать контрольную выборку из 10 изделий. Прибор имеет заводской номер, присва иваемый по порядку. Допустим, что было изготовлено 500 прибо ров с номерами от 7001 до 7500 включительно. Тогда для форми рования случайной выборки необходимо сгенерировать 10 слу чайных чисел из диапазона 7001—7500. Такая выборка является случайной выборкой с повторением, так как некоторые номера могут повторяться, следовательно, приборы с этими номерами должны обследоваться дважды. Если же необходимо организо вать случайную выборку без повторения, то вновь встретившееся число следует пропустить и сгенерировать его повторно.
Выборочный метод, обладая несомненным достоинством, со стоящим в возможности значительно сократить время на кон троль и получение основных статистических характеристик, при водит к появлению ошибки и уменьшению гарантии получения истинных характеристик генеральной совокупности. Данное об стоятельство особенно важно учитывать при формировании так называемых малых выборок. При этом достаточно сложной про блемой является определение необходимого (оптимального) объ ема выборки. В математической статистике доказывается, что не обходимая численность собственно-случайной повторной выборки определяется выражением
П = '
где Ау. — предельная ошибка выборки;
а^ —дисперсия генеральной совокупности;
t — коэффициент доверия (определяется в зависимости от то го, с какой доверительной вероятностью надо гарантиро вать результаты выборочного обследования)*.
*Более подробно об этих статистических показателях см, в подразд. 4.2,4.4.3,6.3.1,6 3.8.
37
Затруднительным моментом применения приведенной фор мулы на практике является расчет генеральной дисперсии а . Для ее оценки пользуются или материалами предыдущих исследова ний, или производственно-техническими нормативами, или, ес ли предыдущие варианты неосуществимы, проводят пробное об следование. По результатам пробного обследования оценивают значение генеральной дисперсии ддя последующего обоснования необходимого объема выборки,
3.2.
Справочная информация по технологии работы
Режим «Выборка» служит для формирования выборки из гене ральной совокупности на основе схемы повторного собственно-слу чайного отбора, а также из периодических данных. Генеральная сово купность рассматривается при этом в качестве входного диапазона.
В диалоговом окне данного режима (рис. 3.1) задаются следу ющие параметры:
Выборка |
|
|
Ш;. ш |
||
|
|
|
~mi |
||
|
|
|
• |
• Ы ' ! - ' ^ ' ' " ^ - • : |
••: |
••. ^ |
Оериодическмк! |
|
|
|
|
|
Пвр4одг |
Г |
|
|
|
^•^..Сяучайиьм , - |
|
|
|
|
|
; л..Д:;?^^Ж) выборок: ' . |
• ;| |
•. •• . 'Ч • |
- ^ - . |
;•;• |
|
"Л^эапетры вывода |
|
".'^^SSS^^^BBi^^SS^^HHBI^. |
|
||
|
е.. I |
|
'"i |
||
• Г* 8^однЫ1 жтервал: |
! |
|
|||
|
|
|
|||
(* |
Нош>й рабочий а^ст; |
% |
|
|
|
\ ^ |
Ное^ рабочая юнуга |
|
|
|
|
ife^^^i^>w;..^:fc^-^&^^^ |
|
1^кшШ!^^^Ш^^^^^^й |
|
Рис. 3.1
Ш
L Входной интервал — см. подразд. 1.1.2.
2. Метки — см. подразд. 1.1.2.
3.Периодический/Случайный метод выборки.
Вположении Периодический активизируется поле Период, в которое необходимо ввести размер периодического интервала, в соответствии с которым будет сформирована выборка. Значение из генеральной совокупности, номер которого совпадает с номе ром, заданным в поле Период, и каждое последующее с номером, кратным периоду, будет скопировано в выходной столбец. Про цесс создания выборки прекратится при достижении конца вход ного диапазона.
Вположении Случайный акгивизируется поле Число выборок, в которое необходимо ввести число размещаемых в выходном столбце случайных значений. Позиция каждой извлекаемой пере менной во входном диапазоне выбирается случайно, и любое ис ходное значение может быть выбрано более одного раза.
4.Выходной интервал/Новый рабочий лист/Новая рабочая кни га — см. подразд. 1.1.2.
Пример 3.1. Фирма, торгующая бытовой техникой, решила для посетителей своего Web-сайта организовать лотерею по рас сылке каталогов новой продукции. Для этого на сайте фирмы ре ализован счетчик посещений и предлагается (по желанию поль зователя) заполнить электронный бланк с указанием своего поч тового адреса. Отбор посетителей производится на основе пока заний счетчика посещений за неделю. Для этого случайным об разом отбираются пять показаний счетчика и проверяются соот ветствующие им регистрации посетителей. Если посетитель не указал своего адреса — каталог не высылается, в противном слу чае - высылается. При этом если одно и то же показание счетчи ка попало в выифышную выборку несколько раз или несколько «выигрышных визитов» на сайт осуществил один и тот же посе титель, каталог высылается по одному и тому же адресу в соответ ствующем количестве экземпляров.
Рассмотрим следующую ситуацию. За последнюю неделю на сайте фирмы было зарегистрировано 25 посещений (показания счетчика увеличились с 360 до 385), информация по которым приведена в табл. 3.1, сформированной на рабочем листе Microsoft Excel.
39