Часть II. Математическая статистика Введение
Математическая статистика – раздел математики, занимающийся обработкой статистических данных с целью установления закономерностей, присущих массовым случайным явлениям. Статистические данные представляют собой сведения о том, какие значения принял в результате наблюдений интересующий нас признак (случайная величина). Методы математической статистики разработаны на основе методов теории вероятностей. Основной метод математической статистики – выборочный метод. Суть его в том, что по сравнительно небольшому количеству статистических данных делаются выводы о рассматриваемом явлении, процессе и т. п. Разумеется, эти выводы – лишь приблизительные оценки вероятностного характера для изучаемого явления или процесса. Математическая статистика разработала методы сбора выборочных данных и их описание, позволяющее получать, по возможности, более точные и надежные оценки, указывая при этом степень их надежности.
Математическая статистика возникла в XVI веке и развивалась параллельно с теорией вероятностей. В XIX-XX веках большой вклад в развитие математической статистики внесли П. Л. Чебышев, А.А. Марков, А.Н. Ляпунов, К. Гаусс, К. Пирсон, А.Н. Колмогоров, Р. Фишер, Ю. Нейман и другие известные ученые-математики.
Тема 10. |
ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ |
Основные понятия Методика рациональной организации выборки большого объема
Пример 10.1. Пусть дана случайная выборка, состоящая из 100 значений признака :
Таблица 10.1
50.2 |
54.0 |
41.0 |
42.0 |
58.2 |
59.3 |
84.8 |
45.0 |
76.5 |
58.3 |
21.0 |
55.0 |
45.0 |
21.5 |
46.0 |
44.0 |
42.5 |
49.0 |
48.7 |
75.0 |
15.3 49.7 23.0 51.7 18.4 43.8 85.0 30.0 |
55.0 63.0 47.8 50.0 35.6 44.0 63.0 10.0 |
23.8 30.0 47.4 48.8 28.4 69.1 30.0 63.0 |
46.5 32.0 50.8 49.4 37.6 46.3 43.8 48.8 |
53.0 42.4 78.3 57.5 49.5 76.7 64.8 71.2 |
62.8 22.4 27.0 47.4 26.7 37.1 22.0 54.4 |
78.5 52.0 56.6 33.5 54.0 69.2 38.8 47.8 |
67.0 70.4 51.3 27.0 68.6 39.3 42.3 31.2 |
34.5 57.2 58.6 39.7 29.3 30.0 64.8 46.1 |
49.9 50.0 28.4 57.5 62.7 43.0 41.0 17.8 |
Для лучшей обозримости элементы выборки можно было бы переписать в порядке возрастания с указанием соответствующих им частот. Получился бы так называемый вариационный ряд. Но не следует торопиться: для выборки большого объема это все равно не даст желаемой наглядности. Кроме того, данные таблицы 10.1 почти не повторяются. Это, по-видимому, связано с тем, что случайная величина непрерывна. А для непрерывных признаков имеет смысл лишь вероятность или частота попадания их значений в интервал.
Учитывая сказанное, построим интервальное распределение значений признака (интервальный вариационный ряд). Для этого, прежде всего, отметим, что у нас , , а размах выборочных значений .
Теперь определим длину каждого частичного интервала (иногда их называют классовыми интервалами), воспользовавшись формулой Стерджеса
,
где – объем выборки. В рассматриваемом примере
Далее устанавливаем границы частичных интервалов: нижнюю границу первого интервала принимаем равной
,
а его верхнюю границу — ; второй интервал будет (15; 25), третий (25; 35) и т. д., до выполнения условия , где — верхняя граница последнего интервала. Отметим, что если некоторое выборочное значение совпадает с границей двух соседних интервалов, то его договоримся относить к предыдущему из них (так, в нашем случае, например, число 55 дважды будет отнесено к интервалу (45;55) и ни разу – к интервалу (55;65)).
В итоге реализации предыдущих рекомендаций получаем следующее интервальное распределение исходной выборки, куда внесены не только частоты , но и относительные частоты выборочных значений признака, попавших в частичный интервал :
|
5 - 15 |
15- 25 |
25- 35 |
35- 45 |
45- 55 |
55- 65 |
65- 75 |
75- 85 |
|
1 |
9 |
14 |
19 |
29 |
15 |
7 |
6 |
|
0.01 |
0.09 |
0.14 |
0.19 |
0.29 |
0.15 |
0.07 |
0.06 |
З а м е ч а н и е. Для проверки правильности результатов
заполнения таблицы нужно убедиться в том, что сумма элемен-