Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладная статистика

..pdf
Скачиваний:
7
Добавлен:
12.11.2023
Размер:
9.53 Mб
Скачать

Севереппрфиним

,ццч«ниет_____

Рис. 2 5

Чтобы найти медиану» нужно сначала найти медианный цнтррррд [х ; х (), где у ''“ <0,5; у™1' >0,5, тогда 1 € (д:,,; х). Используя формулу» выведенную в пункте 2.1.2, получаем, что

Л( 0 ,5 - у - )

Л—Л.* I п---------------------

'1 П.11Г 11»

В выборке 2 медианным интервалом является интервал [3,6; 3»9), так как V ,/" = 0,32; V, ,"**= 0,66. Тогда

0,3(0,5-0,32)

.т =3,6 +

= 3,76..

 

0,66 -0,32

2.2,2. К вартили, декати ли, псрсснтилк

Медиана делит выборку на две части; половина вариант меньше медианы» половина — больше медианы. Можно най­ ти три числа: в р 0^, которые аналогичным образом делят выборку на 4 равные части. Эти числа называются квартилями. Число 0 , совпадает с медианой Зс, число 0 , называется нижней квартилыо. число 0 , называется верхней квартллью. В теории вероятностей квартилями непрерывной случайной величины X

называются числа (?? (?3>определяемые из условия

П *< б , ) - Р«2 ,< х<б , ) в т

2<Х< бз) =

е 3) = 0 ,2 5 .

Точно также можно найти 9

чисел: Пу Ог

й 9 которые

разбивают выборку (площадь под графнком>?У) нп десять рав­ ных частей. Эти числа называются дскатилями. Если разбить выборку (площадь под графиком/(х)) на сто равных частей, точ­ ки деления называются дерсентилямн. Их 99, они обозначаются

Р,, Р , ....Р „ .Ясно, что Р„ = (>,,Я„ = 0 , = х, Р „ = д ,. Числа 2 Г

в*

Ру Ру '•

 

нах°Дятся точно так же, как г Например,

У0 "

= 0,25, тогда

 

/г(0,25-у;™‘)

 

 

е ,

 

 

как _

как 9

 

 

 

Ъ

*<1

где

У*Г < 0>25; уГ

;>0>25: & 6

 

2.2.3. Измерение разброса: размах, выборочная дисперсия, выборочное среднее квадратическое отклонение (стандартное отклонение), коэффициент вариации

Размах/? — простейшая мера разброса значений данной вы­ борки. Если хю — максимальная, хтЫ— минимальная варианты, то Л =хлжг- х яЫ. Этой величиной пользуются при работе с малы­ ми выборками.

Более эффективные меры разброса должны учитывать вес элем ент выборки. Одна из самых распространенных мер на­ зывается выборочной дисперсией 3*. Она вычисляется точно так же, как дисперсия дискретной случайной величины. Следова­ тельно, выборочная дисперсия оценивает средний разброс зна­ чении выборки относительно выборочного среднего.

= ( 1 /л ) 2 0 , - * ) 3

= < 1 / ; » $ > 3-<*)’ =

«

Н

М

 

1=1

2 —1

 

 

 

г-;

, где к — число разных вариант выборки.

= ^

1Х1 ~ х

1=1

 

 

 

 

Если выборка сгруппирована, частота У-го интервала л, ум­

ножается на середину интервала — число (дг, +

Соответ-

22

ствеино корень квадратным из выборочной дисперсии -назы­ вается выборочным средним квадратическим отклонением н обозначается 5. Другое, часто встречающееся название дня

— стандартное отклонение; оно короче, поэтому мы будем чаще нспользопать его.

Найдем эти параметры для выборки 2.

3* » 3,153 х 0,1 + 3.452 х 0,22 + 3,75* х 0,34 4- 4,05* х 0,22 +

+4,351 х 0,1 + 4,65* х 0,02 - (3,77)* - 0,127; 5 = 0,36.

Всреднем масса ребенка отличается от средней массы на 0,36 кг. В теории вероятностей для нормального закона распре­ деления доказываются так называемые «правило двух сигм» н «правило трех сигм»: вычисляются вероятности того, что нор­ мально распределенная случайная величина отклонится по мо­ дулю от своего математического ожидания а не более чем ешдва или три средних квадратических отклонения а.

/41 х- (Л <2а) = 0,9545; Р(I о| < За) = 0,9973.

Эти правила приблизительно выполняются для большинства унимодальных законов распределения и соответственно выбо­

рок из таких генеральных совокупностей:

 

].

Более 95% значений выборки лежат в интервале (х -

25,

* + 25).

 

(х - 35,

2.

Более 99% значении выборки лежат в интервале

х+ 35).

Для выборки 2 имеем:

х - 25 = 3,77 - 0,36 х 2 = 3,05;х - 35 = 3,77 - 0,36 * 3 = 2,69; х + 25= 3,77 + 0,36 х 2 =4,49; * + 35= 3,77 + 0,36 * 3 = 4,85.

В интервале (3,05; 4,49) лежат 48 значений (или 96%) выбор­ ки; в интервале (2,69; 4,85) лежат 100% значении выборки.

Коэффициент вариации V служит для сравнения стандарт­ ных отклонений нескольких выборок и вычисляется по формуле

К = 5 /х .

Если коэффициенты вариации оказались величинами одного порядка, то средние рассеяния данных относительно среднего в этих выборках можно считать примерно равными.

Рассмотрим простой пример. Пусть массы трех килограммо­ вых пакетов с сахаром оказались такими: хг= 0,995 кг; х2- I кг; х, = 1,005 кг. Тогда х, = 1,00 кг, 5, = 4,08 * 1С3 кг, V, = 4,08 * 10°.

23

Допустим также, что масса некоторого железобетонного блока должна равняться 100 кг, а массы трех отобранных блоков оказа­ лись равными 99,5 кг, 100,00 кг и 100,5 кг, Отсюда х2= 100 кг;

5? = 0*408 кг; У1—4,08 к ЮЛ Пусть, наконец, некоторый студент, сдавая сессию, получил

такие оценки; 4,3,5. Значит, хт=4,0; ^ = 0,82; Ул = 0,21. Сравнивая три найденных коэффициента вариации, заклю­

чаем, что точности работы устройств, развешивающих сахар в пакеты н изготовляющих железобетонные блоки, одинаковы. Хотя в первом случае максимальное отклонение массы от номи­ нала составило 5 г, а во втором случае в 100 раз больше — 500 г. Зато разброс оценок студента значительно больше: «50 Уу

2.2.4, О симметричных н несимметричных распределениях

Закон распределения непрерывной случайной величины X называется симметричным, если график функции плотности вероятности /(х) имеет ось симметрии, например, нормальный закон распределения симметричен (рис. 2.6), Для унимодаль­ ного симметричного закона распределения очевидно равенс­ тво моды, медианы н математического ожидания. Если имеет место небольшая асимметрия, то возможны только два случал:

хт <хмс< МРО М(Х) < х ш < хыУ То же справедливо и для выборок из подобных гонсральных совокупностей. Значит, раз­ ность (х - $) можно использовать в качестве меры асимметрии: чем больше эта разность, тем больше асимметрия. Асимметрия называется положительной, когда х> и отрицательной, когда

х<

Для получения безразмерной меры разность (х - $) делят на 5. Число (х - Ъ)!8 называется первым коэффициентом асим­ метрии Пирсона (К. Пирсон (1857-1936) — один из создателей современной математической статистики). Второй коэффици­ ент асимметрии Пирсона приблизительно равен первому, толь­ ко мода заменяется медианой. Второй коэффициент асимметрии равен числу 3(х - х УЗ. Коэффициент 3 появился нз-за того, что

24

Слм.чстрц'шос

Положительная

Отрицательная

распределение

асимметрия

асимметрия

Рис. 2.6

обычно верна приближенная формула - $) « 3(5 - 5). Для вы­ борки 2 имеем:

1- й коэффициент асимметрии Пирсона равен (3,77 - 3,76): :0,36 = 0,056;

2- й коэффициент асимметрии Пирсона равен 3(3,77 - 3,76): :0,36 = 0,683.

Наша выборка навлечена из генеральной совокупности с симметричным законом распределения.

5 теории вероятностей коэффициент асимметрии определя­ ется как отношение третьего центрального момента к кубу срсднсквадратнчсского отклонения.

2.2.5.Вычисление выборочного среднего и выборочной дисперсии для объединения двух выборок

Пусть из одной и той же генеральной совокупности ^извле­ чены две выборки объемов и п2и для каждой выборки отде­ льно вычислены выборочное среднее и выборочная дисперсия:

х/г

5*ш8*. Найдем параметры х и Я* для объединения этих

выборок.

 

 

 

 

Л|+г/ч

 

_ «|+"*

_

1.

х - (

 

(«1 + «а)-г =

+

 

у=1

 

;*|

 

л

 

-

л.Х|+л,х‘а.

 

Отсюда

х -

- 1-------1—

 

/I, +мд

Эта же формула применяется и тогда, когда выборки сгруп­ пированы.

25

2 (Л, +«,)У2 =

Т

Х) -("I +»1)*г=Ъ ) *

/^И 1

+ " 2 ^ 2 +

 

 

/=|

 

>=1

 

ч

1

э

э

л _? -1

(Л|Х|+М1.Т))

+(-Л,Х|2+»|]Г|3-«2х]+Я2л>) =М |

+ П2^2 +й1,т1 +;№

^ + ^

Рассмотрим: выражение

0,4х„ + 0 ,9 х ц + 0,5*2, + 0,Зх13 + 0,7л-Я1 + 0,9х^г.

После приведения к общему знаменателю получаем, что оно равно

 

^ Ч

л - ^ )

3-

 

И |+»г

 

 

Следовательно,

 

 

 

5 а _ 1>Х +"А ?

п,и*

-{х \-Х~1 Т

 

II, +Иа

С», +«,)"

 

Но если выборки извлечены из одной и той же генеральной

совокупности,

 

х. не должны сильно отличаться

друг от друга. Кроме того, легко видеть, что

 

 

<;|/4 .

 

(«,+»а)2

 

Поэтому членом

Я|Нг—(Х| - хэ)2 можно пренебречь к по­

ложить

И1+ л2

 

 

 

<.1 .М ? + » А *

 

 

 

ч « .

'

Для примера разобьем выборку 2 на две части по 25 вариант в каждой. Как разбивать — все равно, главное, чтобы выбор был случайным. Пусть выборки будут такие:

26

1-я часть;

 

 

 

 

 

 

 

 

3,7

3,85

3,7

3,78

3.6

4,45

4,2

3,87

3,33

3,76

3.75

+,03

3,75

4,18

3,8

4,75

3,25

4.1

3,55

3,35

3.38

3,3

4,15

3,95

3,5

 

 

 

 

 

Для этой выборки 5

- ЗЛУ,2= 0,132.

 

 

 

2-л часть:

 

 

 

 

 

 

 

 

3,88

3,71

3,15

4,15

3,8

4,22

3,75

3,58

3,55

4,08

4,03

3,24

4,05

3,56

3,05

3,58

3,98

3,88

3,78

4,05

3,4

3,8

3,06

4,38

4,2

 

 

 

 

 

Для этой выборки яг =3,76;

8% =0,131Тогда

 

 

 

 

-

25x3,8+23x3,76

= 3,78;

 

 

 

 

 

л = -------1-----------—

 

 

 

 

 

 

 

50

 

 

 

 

 

у 1 25*0,132 + 23x0,131 = 0,1315; 5 = 0,36. 50

Небольшие отличия х и 53 от найденных ранее получились из-за того, что У|, д2 8 ), 8* считались «в лоб» для несгруппированкых выборок.

2.2.6.Общая, межгрупповая

ивнутригрупповая дисперсии

Пусть из к выборок объемов пу

пксоответственно об*

разована одна выборка объема »г -

л ,+ п2 -К..+ пг Обозначим

через хя .... ху 3*, 8/, .... 3* выборочные средине и выбороч­ ные дисперсии объединенной выборки и исходных выборок со­ ответственно. Обобщая формулы, рассмотренные выше, полу­ чим, что объединенная дисперсия равна

. .

2 ^ . 4

+ - ------------

н Ц

»

и

Величину Уназывают еще обшей дисперсией. Величины 5 /,

.... Л / имыймпт внутригрупповыми дисперсиями.

27

Величина -I 1 ■ - *-)3", ■ппынастсямежгпуппорой днспер-

" м сиен. Она показывает, насколько б среднем выборочные сред­

ние отдельных выборок отличаются от общего выборочного среднего. Тем самым оценивается, насколько внутригрупповые выборочные средние отличаются друг от друга. Мы разложили общую дисперсию на сумму межгрупповой дисперсии и средне­ го из внутригрупповых дисперсии.

2.2.7.Кривая Лоренца и показатели концентрации

Спомощью кривой Лоренца представляют распределение некоторых ресурсов (капитала, земли, рабочей силы и т.п.) сре­ ди владельцев ресурсов. Если значительная часть ресурсов со­

средоточена у небольшой доли владельцев, говорят о высокой степени концентрации ресурсов.

Степень концентрации оценивают с помощью специаль­ ных коэффициентов. Неравномерность распределения ресурсов можно проследить и по кривой Лоренца, при построении этой кривой по горизонтальной оси откладывают накопленные доли владельцев ресурсов, а по вертикальной оси — относительные накопленные частоты объема ресурсов. Полученные точки со­ единяют отрезками.

Рассмотрим распределение в 1964 г. ферм в США, сгруппи­ рованных по величине занимаемых площадей, (табл. 2.5).

Площадь

Чясло

Общая

фермы,

ферм,

площадь заик-

акр

тыс.

маемон земли,

(1ахр=0,4га)

 

тыс. ахров

1

2

3

(0-10)

183

77*

(10-30)

637

17325

Та&гща 2.5

Олюсительныс Относительные частоты няколлеиные

частоты, %

Число

Площадь

Число

Площадь

ферм

земли

ферм

земли

4

5

6

7

0,057

0,0007

5,7

0,07

0,202

0,0156

25,9

1,63

28

 

 

 

 

 

Окончание пшб.1. 2.5

1

2

3

4

5

6

7

(50-100)

542

39589

0Л72

0,0357

43,1

5,2

(100-180)

633

86592

0,201

0,0780

63,2

13,0

(180-260]

355

76857

0,112

0,0692

74,4

19,92

(260-500)

451

159598

0,143

0,1438

88,7

34,3

(500-1000)

210

144600

0,067

0,1302

95,4

47,32

>1000

145

584848

0,046

0,5268

100,0

100,0

ВСЕГО

3156

1110187

1,00

1,00

-

-

 

 

 

 

 

 

Здесь ресурсы — это земля; владельцы ресурсов — фермы. Кривая Лоренца построена на рис. 2.7.

Если бы распределение земли было строго равномерным, то 5,7% ферм располагали бы 5,7% земли; 25,9% ферм располагали бы 25,7% земли и т.д., а кривая Лоренца стала бы биссектрисой коордннатЕсого угла. Эта биссектриса называется линией равиот мерного распределения.

Чем сильнее кривая Лоренца отклоняется от линии равно­ мерного распределения, тем выше концентрация ресурсов, В нашем случае 52,7% всей земли сконцентрировано у 4,6% крупных ферм. А на остальные 95,4% небольших ферм прихо­ дится менее половины угодий.

Степень концентрации можно оценить, вычисляя площадь фигуры А (см. рис. 2.7), ограниченной линией равномерного распределения и кривой Лоренца. Если принять площадь квад­ рата за 1, то удвоенная площадь фигуры А равна разности 1 ми­ нус удвоенная площадь фигуры В.

Последняя легко считается как сумма площадей трапеций, составляющих фигуру В. Таким образом определяется коэффи­ циент Джинк:

29

где А— число интервалов группировки;

— относительная частота г-го интервала группировки вла­ дельцев ресурсов;

Ул — относительная частота /-го интервала группировки ре­ сурсов;

V м* — относительная накопленная частота ;-го интервала группировки ресурсов.

На рис. 2.8 показана /-я трапеция, составляющая фигуру В9и приведен расчет площади этой трапеции.

й = 0Я А В +ОС)-АО=

= 0 . 5 ( 4 “ " % ) ^ , = = 0 .5 < * ;» + у й ) .у „ .

.У,=0,5*(Лв + 1>С)*ЛЙ =

= 0,5Х( & ,7 - у ,> у ,=

= 0,5*(А-“ ; +Ул )*у,.

Рис. 2.8

30