Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
матем 1-31.docx
Скачиваний:
14
Добавлен:
23.04.2019
Размер:
708.41 Кб
Скачать

№1 задачи мат статистики

Задачи математической статистики

Установление закономерностей, которым подчи­нены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.

Первая задача математической статистики—указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики — разрабо­тать методы анализа статистических данных в зависи­мости от целей исследования. Сюда относятся:

а)      оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависи­мости случайной величины от одной или нескольких случайных величин и др.;

б)      проверка статистических гипотез о виде неизвест­ного распределения или о величине параметров распре­деления, вид которого известен.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.

Итак, задача математической статистики состоит в со­здании методов сбора и обработки статистических данных для получения научных и практических выводов.

№2 выборочный метод, виды выборок

Выборочный метод, статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку. Математическая теория Выборочный метод опирается на два важных раздела математической статистики - теорию выбора из конечной совокупности и теорию выбора из бесконечной совокупности. Основное отличие Выборочный метод для конечной и бесконечной совокупностей заключается в том, что в первом случае Выборочный метод применяется, как правило, к объектам неслучайной, детерминированной природы (например, число дефектных изделий в данной партии готовой продукции не является случайной величиной: это число - неизвестная постоянная, которую и надлежит оценить по выборочным данным). Во втором случае Выборочный методобычно применяется для изучения свойств случайных объектов (например, для исследования свойств непрерывно распределённых случайных ошибок измерений, каждое из которых теоретически может быть истолковано как реализация одного из бесконечного множества возможных результатов).

Выборки. Типы выборок. Расчет ошибки выборки

Генеральная совокупность Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей: - Все жители Москвы (10,6 млн. человек по данным переписи 2002 года) - Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года) - Юридические лица России (2,2 млн. на начало 2005 года) - Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.  Выборка (Выборочная совокупность) Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.  Репрезентативность выборки Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей. Пример: - Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.  - Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России. - Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей. В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно. Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки. Пример: Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.  Ошибка выборки (доверительный интервал) Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности. Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже. Пример: Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку. Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону. Пример: - Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома). - Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%) В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.  Типы выборок Выборки делятся на два типа: - вероятностные - невероятностные 1. Вероятностные выборки  1.1 Случайная выборка (простой случайный отбор) Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.  1.2 Механическая (систематическая) выборка Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k  1.3 Стратифицированная (районированная) Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.  1.4 Серийная (гнездовая или кластерная) выборка При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.  2. Невероятностные выборки Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..  2.1. Квотная выборка Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.  2.2. Метод снежного кома Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)  2.3 Стихийная выборка Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.  2.4 Выборка типичных случаев Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения. 

Калькулятор расчета ошибки и размера выборки (для случайной выборки)

Пояснения к полям: Доверительная вероятность Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность Ошибка выборки (доверительный интервал) Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения. Доля признака Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

№3 статистическое распределение выборки

татистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причемнаблюдалось nt раз, х2 п2 раз,  раз и  - объем выборки. Наблюдаемые значения  - называют вариантами, а последовательность вариант, записанных в возрастающем порядке,— вариа­ционным рядом. Числа наблюдений называютчастотами, а их отношения к объему выборки  — относи­тельными частотами.

Статистическим распределением выборки называют пе­речень вариант и соответствующих им частот или относи­тельных частот. Статистическое распределение можно за­дать также в виде последовательности интервалов и соответ­ствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математи­ческой статистике — соответствие между наблюдаемыми вариантами и их частотами, или относительными частотами.

Пример. Задано распределение частот выборки объема я = 20:

     2     6     12

     3      10      7

    Написать распределение относительных частот.

Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки:

=3/20 = 0,15,  W2= 10/20 = 0,50, W3 = 7/20 = 0,35.

Напишем распределение относительных частот:

  xi     2         6           12

Wi     0,15     0,50     0,35

Контроль: 0,15+0,50+ 0,35= 1.

№4 эмпирическая функция распределения, определения, свойства

Пусть известно статистическое распределение частот количественного признака X. Обозначим через   число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X<x равна   и являетсяфункцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию  , определяющую для каждого значения x относительную частоту события X<x. Таким образом, по определению  , где   – число вариант, меньших x, n – объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения   генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция   определяет вероятность события X<x, тогда как эмпирическая – относительную частоту этого же события.

При росте n относительная частота события X<x, т.е.  стремится по вероятности к вероятности  этого события. Иными словами:

.

№5 полигон и гистограмма частот,

Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.

Полигоном частот называют ломаную линию, отрезки которой соединяют точки  . Для построения полигона частот на оси абсцисс откладывают варианты  , а на оси ординат – соответствующие им частоты   и соединяют точки  отрезками прямых.

Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты  .

В случае непрерывного признака строится гистограмма, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала   – сумму частот вариант, попавших в i–й интервал.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению  . Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте)  . Площадь i–го прямоугольника равна   – сумме частот вариант i–о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

В случае гистограммы относительных частот по оси ординат откладываются относительные частоты  , на оси абсцисс – частичные интервалы, над ними проводят отрезки, параллельные оси абсцисс на высоте  . Площадь i–го прямоугольника равна относительной частоте вариант  , попавших в i–й интервал. Поэтому площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.

№ 6 алгоритм построения гистограммы по генеральной совокупности значений непрерывного признака

Особенности метода

Для осмысления качественных характеристик изделий, процессов, производства (статистических данных) и наглядного представления тенденции изменения наблюдаемых значений применяют графическое изображение статистического материала, т. е. строя гистограмму распределения.

Гистограмма - один из вариантов столбиковой диаграммы, позволяющий зрительно оценить распределение статистических данных, сгруппированных по частоте попадания в определенный (заранее заданный) интервал.

Порядок построения гистограммы

  1. Собрать данные, выявить максимальное и минимальное значения и определить диапазон (размах) гистограммы.

  2. Полученный диапазон разделить на интервалы, предварительно определив их число (обычно 5-20 в зависимости от числа показателей) и определить ширину интервала.

  3. Все данные распределить по интервалам в порядке возрастания: левая граница первого интервала должна быть меньше наименьшего из имеющихся значений.

  4. Подсчитать частоту каждого интервала.

  5. Вычислить относительную частоту попадания данных в каждый из интервалов.

  6. По полученным данным построить гистограмму - столбчатую диаграмму, высота столбиков которой соответствует частоте или относительной частоте попадания данных в каждый из интервалов:

  • наносится горизонтальная ось, выбирается масштаб и откладываются соответствующие интервалы;

  • затем строится вертикальная ось, на которой также выбирается масштаб в соответствии с максимальным значением частот.

Гистограмма (нормальное распределение)

Дополнительная информация:

  1. Структуру вариаций легче увидеть, когда данные представлены графически в виде гистограммы.

  2. Прежде чем сделать выводы по результатам анализа гистограмм, убедитесь, что данные представительны для существующих условий процесса.

  3. Не делайте выводов, основанных на малых выборках. Чем больше объем выборки, тем больше уверенность в том, что три важных параметра гистограммы - ее центр, ширина и форма - представительны для всего процесса или группы продукции.

  4. Для каждой структуры вариаций (типа распределения) существуют свои интерпретации.

  5. Интерпретация гистограммы - это всего лишь теория, которая должна быть подтверждена дополнительным анализом и прямыми наблюдениями за анализируемым процессом.

Достоинства метода

  • Наглядность, простота освоения и применения.

  • Управление с помощью фактов, а не мнений.

  • Позволяет лучше понять вариабельность, присущую процессу, глубже взглянуть на проблему и облегчить нахождение путей ее решения.

Недостатки метода

Интерпретация гистограммы, построенная по малым выборкам, не позволяет сделать правильные выводы.

Ожидаемый результат

Собранные данные служат источником информации в процессе анализа с использованием различных статистических методов и выработке мер по улучшению качества процессов.

№7 статистическая оценка неизвестного параметра теоретического распределения.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.

Поясним каждое из понятий.

  Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.

M(Q*) = Q.

 Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

  Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую  возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

  Состоятельной называют статистическую оценку, которая при п стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п  стремится к нулю, то такая оценка оказывается и состоятельной.

 Рассмотрим точечные оценки параметров распределения, т.е.

оценки, которые определяются одним числом Q* =f( x1, x2,…,xn), где x1, x2,…,xn- выборка.

№8 параметры теоретического распределения

Подбор теоретического распределения и его параметров

Закон теоретического распределения подбирается исходя из вида гистограммы. Вначале предположим, что теоретическое распределение может быть одного из 4-х видов:

  1. нормальное;

  2. показательное (экспоненциальное);

  3. равномерное;

  4. Рэлеевское.

Затем (в следующем параграфе) мы выберем наиболее подходящее из них.

Параметры, входящие в выражение для функции и плотности теоретического распределения, найдём исходя из принципа максимума правдоподобия: так, чтобы вычисленные по этим параметрам математическое ожидание (для 1-параметричеких законов) или математическое ожидание и дисперсия (для 2-параметрических законов) совпали с выборочными. Так, для нормального распределения параметры m и s берём равными соответственно выборочным математическому ожиданию и дисперсии:

 (10)

Для показательного распределения параметр l находим:

 (11)

Параметры равномерного распределения a и b будут равны:

 (12)

Параметр s для Рэлеевского распределения равен:

 (13)

Приведём формулы для вычисления функции и плотности распределения. Для нормального распределения:

 (14)

где F (u) – интеграл Лапласа.

Для показательного распределения:

 (15)

Для равномерного распределения:

 (16)

и для Рэлеевского распределения

 (17)

mx=Mx; sx=Sx; % параметры нормального распределения

lam=abs(1/Mx); % параметр показательного распределения

a=Mx-Sx*3^0.5; b=Mx+Sx*3^0.5; % параметры равномерного распределения

sig=abs(Mx)*(2/pi)^0.5; % параметр Рэлеевского распределения

s={'нормальное распределение'; 'показательное распределение'; 'равномерное распределение'; 'Рэлеевское распределение'}; % строки заголовков

fprintf('%s: mx=%12.7f; sx=%12.7f\n%s: lam=%12.7f\n',s{1},mx,sx,s{2},lam)

fprintf('%s: a=%12.7f; b=%12.7f\n%s: sig=%12.7f\n',s{3},a,b,s{4},sig)

нормальное распределение: mx= 1.9607780; sx= 1.0243977

показательное распределение: lam= 0.5100017

равномерное распределение: a= 0.1864691; b= 3.7350868

Рэлеевское распределение: sig= 1.5644745

Построим на одном графике теоретические и эмпирическую плотности распределения. Эмпирическая плотность распределения – это та же гистограмма, у которой масштаб по оси ординат изменён таким образом, чтобы площадь под кривой стала равна 1. Для этого все метки по оси ординат в гистограмме нужно разделить на nh, где n – число экспериментальных данных, а h – ширина интервала при построении гистограммы. Теоретические плотности распределения строим по формулам (14-17). Эмпирическую плотность распределения нарисуем красной линией, а предполагаемые теоретические – линиями таких цветов:

  1. нормальное – синий;

  2. показательное (экспоненциальное) – зелёный;

  3. равномерное – фиолетовый;

  4. Рэлеевское – жёлтый.

 

[nj,xm]=hist(x,k); % нашли число попаданий и середины интервалов

delta=xm(2)-xm(1); % ширина интервала

clear xfv fv xft ft % очистили массивы для плотностей распределения

xfv=[xm-delta/2;xm+delta/2]; % абсциссы для эмпирической f(x)

xfv=reshape(xfv,prod(size(xfv)),1); % преобразовали в столбец

xfv=[xl;xfv(1);xfv;xfv(end);xr]; % добавили крайние

fv=nj/(n*delta); % значения эмпирической f(x) в виде 1 строки

fv=[fv;fv]; % 2 строки

fv=[0;0;reshape(fv,prod(size(fv)),1);0;0]; % + крайние, 1 столбец

xft=linspace(xl,xr,1000)'; % абсциссы для теоретической f(x)

ft=[normpdf(xft,mx,sx),exppdf(xft,1/lam),unifpdf(xft,a,b),raylpdf(xft,sig)];

col='bgmy'; % цвета для построения графиков

plot(xfv,fv,'-r', xft,ft(:,1),col(1), xft,ft(:,2),col(2), xft,ft(:,3),col(3), xft,ft(:,4),col(4)) % рисуем

title('\bfProbability Density')

xlabel('x'), ylabel('f(x)') % метки осей

xlim([xl xr]), ylim([0 1.4*max(fv)]) % границы рисунка по осям

№9 точечные оценки генеральной совокупности, (выборочная средняя, свойства, медиана)

В качестве точечной оценки для “a” берут выборочную среднюю  .

Def: выборочной средней  называется среднее арифметическое выборки.

  (2)

Теорема: выборочная средняя является состоятельной и несмещенной оценкой математического ожидания  .

Доказательство.

Нужно доказать, что   в вероятностном смысле стремится к “a”, и что  - несмещенность. Чтобы доказать это, к последовательности случайных величин  , каждая из которых имеет тот же закон распределения, что и  , применим теорему Чебышева:

. В левой части – выборочная средняя.

Найдем правую часть.

В силу теоремы Чебышева:

Самостоятельность доказана.

Вычислим математическое ожидание:

Теорема доказана.

Найдем дисперсию выборочной средней:

 при 

Из этого соотношения следует эффективность выборочной средней.

Таким образом, при больших значениях “n” имеем приближенное равенство:

(оцениваемое значение “a” называют еще “генеральной средней”)