книги / Прикладная статистика
..pdfСевереппрфиним
,ццч«ниет_____
Рис. 2 5
Чтобы найти медиану» нужно сначала найти медианный цнтррррд [х ; х (), где у ''“ <0,5; у™1' >0,5, тогда 1 € (д:,,; х). Используя формулу» выведенную в пункте 2.1.2, получаем, что
Л( 0 ,5 - у - )
Л—Л.* I п---------------------
'1 П.11Г 11»
В выборке 2 медианным интервалом является интервал [3,6; 3»9), так как V ,/" = 0,32; V, ,"**= 0,66. Тогда
0,3(0,5-0,32)
.т =3,6 + |
= 3,76.. |
|
0,66 -0,32 |
2.2,2. К вартили, декати ли, псрсснтилк
Медиана делит выборку на две части; половина вариант меньше медианы» половина — больше медианы. Можно най ти три числа: в р 0^, которые аналогичным образом делят выборку на 4 равные части. Эти числа называются квартилями. Число 0 , совпадает с медианой Зс, число 0 , называется нижней квартилыо. число 0 , называется верхней квартллью. В теории вероятностей квартилями непрерывной случайной величины X
называются числа (?? (?3>определяемые из условия
П *< б , ) - Р«2 ,< х<б , ) в т |
2<Х< бз) = |
е 3) = 0 ,2 5 . |
Точно также можно найти 9 |
чисел: Пу Ог |
й 9 которые |
разбивают выборку (площадь под графнком>?У) нп десять рав ных частей. Эти числа называются дскатилями. Если разбить выборку (площадь под графиком/(х)) на сто равных частей, точ ки деления называются дерсентилямн. Их 99, они обозначаются
Р,, Р , ....Р „ .Ясно, что Р„ = (>,,Я„ = 0 , = х, Р „ = д ,. Числа 2 Г
в* |
Ру Ру '• |
|
нах°Дятся точно так же, как г Например, |
|
У0 " |
= 0,25, тогда |
|
/г(0,25-у;™‘) |
|
|
|
е , |
||
|
|
как _ |
как 9 |
|
|
|
|
Ъ |
*<1 |
где |
У*Г < 0>25; уГ |
;>0>25: & 6 |
|
2.2.3. Измерение разброса: размах, выборочная дисперсия, выборочное среднее квадратическое отклонение (стандартное отклонение), коэффициент вариации
Размах/? — простейшая мера разброса значений данной вы борки. Если хю — максимальная, хтЫ— минимальная варианты, то Л =хлжг- х яЫ. Этой величиной пользуются при работе с малы ми выборками.
Более эффективные меры разброса должны учитывать вес элем ент выборки. Одна из самых распространенных мер на зывается выборочной дисперсией 3*. Она вычисляется точно так же, как дисперсия дискретной случайной величины. Следова тельно, выборочная дисперсия оценивает средний разброс зна чении выборки относительно выборочного среднего.
= ( 1 /л ) 2 0 , - * ) 3 |
= < 1 / ; » $ > 3-<*)’ = |
|||
« |
Н |
М |
|
1=1 |
2 —1 |
|
|
|
|
г-; |
, где к — число разных вариант выборки. |
|||
= ^ |
1Х1 ~ х |
|||
1=1 |
|
|
|
|
Если выборка сгруппирована, частота У-го интервала л, ум |
||||
ножается на середину интервала — число (дг, + |
Соответ- |
22
ствеино корень квадратным из выборочной дисперсии -назы вается выборочным средним квадратическим отклонением н обозначается 5. Другое, часто встречающееся название дня
— стандартное отклонение; оно короче, поэтому мы будем чаще нспользопать его.
Найдем эти параметры для выборки 2.
3* » 3,153 х 0,1 + 3.452 х 0,22 + 3,75* х 0,34 4- 4,05* х 0,22 +
+4,351 х 0,1 + 4,65* х 0,02 - (3,77)* - 0,127; 5 = 0,36.
Всреднем масса ребенка отличается от средней массы на 0,36 кг. В теории вероятностей для нормального закона распре деления доказываются так называемые «правило двух сигм» н «правило трех сигм»: вычисляются вероятности того, что нор мально распределенная случайная величина отклонится по мо дулю от своего математического ожидания а не более чем ешдва или три средних квадратических отклонения а.
/41 х- (Л <2а) = 0,9545; Р(I о| < За) = 0,9973.
Эти правила приблизительно выполняются для большинства унимодальных законов распределения и соответственно выбо
рок из таких генеральных совокупностей: |
|
|
]. |
Более 95% значений выборки лежат в интервале (х - |
25, |
* + 25). |
|
(х - 35, |
2. |
Более 99% значении выборки лежат в интервале |
х+ 35).
Для выборки 2 имеем:
х - 25 = 3,77 - 0,36 х 2 = 3,05;х - 35 = 3,77 - 0,36 * 3 = 2,69; х + 25= 3,77 + 0,36 х 2 =4,49; * + 35= 3,77 + 0,36 * 3 = 4,85.
В интервале (3,05; 4,49) лежат 48 значений (или 96%) выбор ки; в интервале (2,69; 4,85) лежат 100% значении выборки.
Коэффициент вариации V служит для сравнения стандарт ных отклонений нескольких выборок и вычисляется по формуле
К = 5 /х .
Если коэффициенты вариации оказались величинами одного порядка, то средние рассеяния данных относительно среднего в этих выборках можно считать примерно равными.
Рассмотрим простой пример. Пусть массы трех килограммо вых пакетов с сахаром оказались такими: хг= 0,995 кг; х2- I кг; х, = 1,005 кг. Тогда х, = 1,00 кг, 5, = 4,08 * 1С3 кг, V, = 4,08 * 10°.
23
Допустим также, что масса некоторого железобетонного блока должна равняться 100 кг, а массы трех отобранных блоков оказа лись равными 99,5 кг, 100,00 кг и 100,5 кг, Отсюда х2= 100 кг;
5? = 0*408 кг; У1—4,08 к ЮЛ Пусть, наконец, некоторый студент, сдавая сессию, получил
такие оценки; 4,3,5. Значит, хт=4,0; ^ = 0,82; Ул = 0,21. Сравнивая три найденных коэффициента вариации, заклю
чаем, что точности работы устройств, развешивающих сахар в пакеты н изготовляющих железобетонные блоки, одинаковы. Хотя в первом случае максимальное отклонение массы от номи нала составило 5 г, а во втором случае в 100 раз больше — 500 г. Зато разброс оценок студента значительно больше: «50 Уу
2.2.4, О симметричных н несимметричных распределениях
Закон распределения непрерывной случайной величины X называется симметричным, если график функции плотности вероятности /(х) имеет ось симметрии, например, нормальный закон распределения симметричен (рис. 2.6), Для унимодаль ного симметричного закона распределения очевидно равенс тво моды, медианы н математического ожидания. Если имеет место небольшая асимметрия, то возможны только два случал:
хт <хмс< МРО М(Х) < х ш < хыУ То же справедливо и для выборок из подобных гонсральных совокупностей. Значит, раз ность (х - $) можно использовать в качестве меры асимметрии: чем больше эта разность, тем больше асимметрия. Асимметрия называется положительной, когда х> и отрицательной, когда
х<
Для получения безразмерной меры разность (х - $) делят на 5. Число (х - Ъ)!8 называется первым коэффициентом асим метрии Пирсона (К. Пирсон (1857-1936) — один из создателей современной математической статистики). Второй коэффици ент асимметрии Пирсона приблизительно равен первому, толь ко мода заменяется медианой. Второй коэффициент асимметрии равен числу 3(х - х УЗ. Коэффициент 3 появился нз-за того, что
24
Слм.чстрц'шос |
Положительная |
Отрицательная |
распределение |
асимметрия |
асимметрия |
Рис. 2.6
обычно верна приближенная формула {х - $) « 3(5 - 5). Для вы борки 2 имеем:
1- й коэффициент асимметрии Пирсона равен (3,77 - 3,76): :0,36 = 0,056;
2- й коэффициент асимметрии Пирсона равен 3(3,77 - 3,76): :0,36 = 0,683.
Наша выборка навлечена из генеральной совокупности с симметричным законом распределения.
5 теории вероятностей коэффициент асимметрии определя ется как отношение третьего центрального момента к кубу срсднсквадратнчсского отклонения.
2.2.5.Вычисление выборочного среднего и выборочной дисперсии для объединения двух выборок
Пусть из одной и той же генеральной совокупности ^извле чены две выборки объемов и п2и для каждой выборки отде льно вычислены выборочное среднее и выборочная дисперсия:
х/г |
5*ш8*. Найдем параметры х и Я* для объединения этих |
|||
выборок. |
|
|
|
|
|
Л|+г/ч |
|
_ «|+"* |
_ |
1. |
х - ( |
|
(«1 + «а)-г = |
+ |
|
у=1 |
|
;*| |
|
л |
|
- |
л.Х|+л,х‘а. |
|
Отсюда |
х - |
- 1-------1— |
|
/I, +мд
Эта же формула применяется и тогда, когда выборки сгруп пированы.
25
2 (Л, +«,)У2 = |
Т |
Х) -("I +»1)*г=Ъ ) * |
/^И 1 |
+ " 2 ^ 2 + |
||
|
|
/=| |
|
>=1 |
|
|
ч |
1 |
э |
э |
л _? -1 |
(Л|Х|+М1.Т)) |
|
+(-Л,Х|2+»|]Г|3-«2х]+Я2л>) =М | |
+ П2^2 +й1,т1 +;№ |
^ + ^ |
Рассмотрим: выражение
0,4х„ + 0 ,9 х ц + 0,5*2, + 0,Зх13 + 0,7л-Я1 + 0,9х^г.
После приведения к общему знаменателю получаем, что оно равно
|
^ Ч |
л - ^ ) |
3- |
|
И |+»г |
|
|
Следовательно, |
|
|
|
5 а _ 1>Х +"А ? |
п,и* |
-{х \-Х~1 Т |
|
|
II, +Иа |
С», +«,)" |
|
Но если выборки извлечены из одной и той же генеральной |
|||
совокупности, |
|
х. не должны сильно отличаться |
|
друг от друга. Кроме того, легко видеть, что |
|||
|
|
<;|/4 . |
|
|
(«,+»а)2 |
|
|
Поэтому членом |
Я|Нг—(Х| - хэ)2 можно пренебречь к по |
||
ложить |
И1+ л2 |
|
|
|
<.1 .М ? + » А * |
|
|
|
|
ч « . |
' |
Для примера разобьем выборку 2 на две части по 25 вариант в каждой. Как разбивать — все равно, главное, чтобы выбор был случайным. Пусть выборки будут такие:
26
1-я часть; |
|
|
|
|
|
|
|
|
|
3,7 |
3,85 |
3,7 |
3,78 |
3.6 |
4,45 |
4,2 |
3,87 |
3,33 |
3,76 |
3.75 |
+,03 |
3,75 |
4,18 |
3,8 |
4,75 |
3,25 |
4.1 |
3,55 |
3,35 |
3.38 |
3,3 |
4,15 |
3,95 |
3,5 |
|
|
|
|
|
Для этой выборки 5 |
- ЗЛУ,2= 0,132. |
|
|
|
|||||
2-л часть: |
|
|
|
|
|
|
|
|
|
3,88 |
3,71 |
3,15 |
4,15 |
3,8 |
4,22 |
3,75 |
3,58 |
3,55 |
4,08 |
4,03 |
3,24 |
4,05 |
3,56 |
3,05 |
3,58 |
3,98 |
3,88 |
3,78 |
4,05 |
3,4 |
3,8 |
3,06 |
4,38 |
4,2 |
|
|
|
|
|
Для этой выборки яг =3,76; |
8% =0,131Тогда |
|
|
||||||
|
|
- |
25x3,8+23x3,76 |
= 3,78; |
|
|
|
||
|
|
л = -------1-----------— |
|
|
|
||||
|
|
|
|
50 |
|
|
|
|
|
у 1 25*0,132 + 23x0,131 = 0,1315; 5 = 0,36. 50
Небольшие отличия х и 53 от найденных ранее получились из-за того, что У|, д2 8 ), 8* считались «в лоб» для несгруппированкых выборок.
2.2.6.Общая, межгрупповая
ивнутригрупповая дисперсии
Пусть из к выборок объемов пу |
пксоответственно об* |
разована одна выборка объема »г - |
л ,+ п2 -К..+ пг Обозначим |
через хя .... ху 3*, 8/, .... 3* выборочные средине и выбороч ные дисперсии объединенной выборки и исходных выборок со ответственно. Обобщая формулы, рассмотренные выше, полу чим, что объединенная дисперсия равна
. . |
2 ^ . 4 |
+ - ------------ |
н Ц |
— |
|
» |
и |
Величину Уназывают еще обшей дисперсией. Величины 5 /,
.... Л / имыймпт внутригрупповыми дисперсиями.
27
Величина -I 1 ■ - *-)3", ■ппынастсямежгпуппорой днспер-
" м сиен. Она показывает, насколько б среднем выборочные сред
ние отдельных выборок отличаются от общего выборочного среднего. Тем самым оценивается, насколько внутригрупповые выборочные средние отличаются друг от друга. Мы разложили общую дисперсию на сумму межгрупповой дисперсии и средне го из внутригрупповых дисперсии.
2.2.7.Кривая Лоренца и показатели концентрации
Спомощью кривой Лоренца представляют распределение некоторых ресурсов (капитала, земли, рабочей силы и т.п.) сре ди владельцев ресурсов. Если значительная часть ресурсов со
средоточена у небольшой доли владельцев, говорят о высокой степени концентрации ресурсов.
Степень концентрации оценивают с помощью специаль ных коэффициентов. Неравномерность распределения ресурсов можно проследить и по кривой Лоренца, при построении этой кривой по горизонтальной оси откладывают накопленные доли владельцев ресурсов, а по вертикальной оси — относительные накопленные частоты объема ресурсов. Полученные точки со единяют отрезками.
Рассмотрим распределение в 1964 г. ферм в США, сгруппи рованных по величине занимаемых площадей, (табл. 2.5).
Площадь |
Чясло |
Общая |
фермы, |
ферм, |
площадь заик- |
акр |
тыс. |
маемон земли, |
(1ахр=0,4га) |
|
тыс. ахров |
1 |
2 |
3 |
(0-10) |
183 |
77* |
(10-30) |
637 |
17325 |
Та&гща 2.5
Олюсительныс Относительные частоты няколлеиные
частоты, %
Число |
Площадь |
Число |
Площадь |
ферм |
земли |
ферм |
земли |
4 |
5 |
6 |
7 |
0,057 |
0,0007 |
5,7 |
0,07 |
0,202 |
0,0156 |
25,9 |
1,63 |
28
|
|
|
|
|
Окончание пшб.1. 2.5 |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
(50-100) |
542 |
39589 |
0Л72 |
0,0357 |
43,1 |
5,2 |
(100-180) |
633 |
86592 |
0,201 |
0,0780 |
63,2 |
13,0 |
(180-260] |
355 |
76857 |
0,112 |
0,0692 |
74,4 |
19,92 |
(260-500) |
451 |
159598 |
0,143 |
0,1438 |
88,7 |
34,3 |
(500-1000) |
210 |
144600 |
0,067 |
0,1302 |
95,4 |
47,32 |
>1000 |
145 |
584848 |
0,046 |
0,5268 |
100,0 |
100,0 |
ВСЕГО |
3156 |
1110187 |
1,00 |
1,00 |
- |
- |
|
|
|
|
|
|
Здесь ресурсы — это земля; владельцы ресурсов — фермы. Кривая Лоренца построена на рис. 2.7.
Если бы распределение земли было строго равномерным, то 5,7% ферм располагали бы 5,7% земли; 25,9% ферм располагали бы 25,7% земли и т.д., а кривая Лоренца стала бы биссектрисой коордннатЕсого угла. Эта биссектриса называется линией равиот мерного распределения.
Чем сильнее кривая Лоренца отклоняется от линии равно мерного распределения, тем выше концентрация ресурсов, В нашем случае 52,7% всей земли сконцентрировано у 4,6% крупных ферм. А на остальные 95,4% небольших ферм прихо дится менее половины угодий.
Степень концентрации можно оценить, вычисляя площадь фигуры А (см. рис. 2.7), ограниченной линией равномерного распределения и кривой Лоренца. Если принять площадь квад рата за 1, то удвоенная площадь фигуры А равна разности 1 ми нус удвоенная площадь фигуры В.
Последняя легко считается как сумма площадей трапеций, составляющих фигуру В. Таким образом определяется коэффи циент Джинк:
29
где А— число интервалов группировки;
— относительная частота г-го интервала группировки вла дельцев ресурсов;
Ул — относительная частота /-го интервала группировки ре сурсов;
V м* — относительная накопленная частота ;-го интервала группировки ресурсов.
На рис. 2.8 показана /-я трапеция, составляющая фигуру В9и приведен расчет площади этой трапеции.
й = 0Я А В +ОС)-АО=
= 0 . 5 ( 4 “ " % ) ^ , = = 0 .5 < * ;» + у й ) .у „ .
.У,=0,5*(Лв + 1>С)*ЛЙ =
= 0,5Х( & ,7 - у ,> у ,=
= 0,5*(А-“ ; +Ул )*у,.
Рис. 2.8
30