Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8860

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
1.97 Mб
Скачать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

x1n1

x2 n2 xk nk

 

xi ni

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

xв

. (2)

 

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Состоятельной, смещенной оценкой генеральной дисперсии (дисперсия

признака X генеральной совокупности) является выборочная дисперсия:

 

 

 

 

 

 

 

 

 

 

2 ,

 

 

 

 

 

 

Д в x 2

 

 

 

 

 

xв

 

 

(3)

 

 

 

k

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

x2n

 

 

 

 

 

 

 

 

x

 

ni

 

 

 

 

x2

i 1 i i

,

 

 

i 1

i

 

 

 

 

 

где

xв

 

 

.

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

Несмещенной, состоятельной оценкой генеральной дисперсии является исправленная выборочная дисперсия

S2 n Д в . (4) n 1

Если дано интервальное распределение выборки, то надо перейти к дис-

кретному, взяв за значения вариант середины частичных интервалов.

Выборочные оценки являются приближенными. Чтобы с помощью стати-

стических данных можно было сделать правильные выводы, нужно знать точ-

ность и надежность этих оценок.

Пусть * – статистическая оценка неизвестного параметра . Надежно-

стью (доверительной вероятностью) оценки по * называют вероятность , с

которой осуществляется неравенство | - *| < .

Обычно надежность оценки задается наперед, причем в качестве берут число,

близкое к единице. По надежности ищут такое число , чтобы Р(| - *|< )= . (5)

Число называют точностью оценки, или предельной ошибкой. Из ра-

венства (5) следует, что

 

Р( *─ < Θ < * + ) = .

(6)

Интервал ( *─ , *+ ) называется доверительным интервалом; он называется интервальной оценкой неизвестного параметра .

11

Интервальной оценкой с надежностью математического ожидания М(Х)=а

нормально распределенного признака X генеральной совокупности при извест-

ном среднем квадратическом отклонении D(X) этого признака служит доверительный интервал

 

 

 

 

 

 

t a

 

 

 

t ,

 

 

x

x

 

(7)

 

 

в

 

n

 

в

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где n – объем выборки, x в

– выборочная средняя, t – значение аргумента

функции Лапласа Ф(t), при котором Ф(t)=

 

,

t

– точность оценки.

2

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Различные экономические показатели не являются независимыми, а свя-

заны между собой; например, цена какого-либо товара и величина спроса на этот товар, объем производства и прибыль фирмы, располагаемый доход и объ-

ем личного потребления, инфляция и безработица. Взаимосвязи показателей в экономике редко имеют простой функциональный вид, поскольку на интересу-

ющий нас показатель, кроме явно учитываемых факторов, влияет еще множе-

ство других, которые являются случайными. Поэтому одной из основных задач в экономических исследованиях является анализ зависимостей между перемен-

ными.

Пусть требуется оценить связь между переменными X и Y. Возникает два вопроса: 1) связаны ли между собой эти переменные;

2) какова теснота этой связи?

В качестве характеристики тесноты линейной связи между количествен-

ными признаками в выборке используется выборочный коэффициент корреля-

ции rB : rB x y x y

x y

Свойства выборочного коэффициента корреляции:

1)значения rB заключены в промежутке от -1 до +1.

2)если rB = 0, то между Х и У отсутствует линейная корреляционная

связь, но возможно наличие между ними другого типа связи.

12

3)если rB > 0, то увеличение признака Х в среднем приводит к увеличе-

нию признака У. Если rB < 0, то с увеличением Х в среднем признак У уменьшается.

4)если rВ 1, то между Х и У существует линейная функциональная за-

висимость, не искажаемая действием случайных факторов.

Для качественной оценки тесноты корреляционной связи между X и Y

можно воспользоваться таблицей Чеддока (табл.1).

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

Диапазон

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

изменения | rB |

Характер

слабая

умеренная

заметная

высокая

весьма

тесноты связи

высокая

 

 

 

 

Статистическая проверка гипотез. Критерий согласия Пирсона

В экономических исследованиях часто возникает необходимость знать закон распределения генеральной совокупности. С этой целью производят наблюдения и получают опытное (или эмпирическое) распределение случайной величины в виде вариационного ряда. Поставленная задача сводится к оценке закона распределения признака в генеральной совокупности на основе выбо-

рочных данных.

Для точной формулировки проблемы дадим основные определения.

Определение 1. Распределение признака в выборке называется эмпириче-

ским распределением.

Определение 2. Распределение признака в генеральной совокупности называется теоретическим распределением.

Определение 3. Статистической называют гипотезу о виде неизвестного распределение или о параметрах известных распределений. Определение 4.

Нулевой (основной) называют выдвинутую гипотезу Н0.

Определение 5. Конкурирующей (альтернативной) называют гипотезу Н1,

которая противоречит основной.

В результате проверки гипотезы могут быть допущены ошибки двух родов.

13

Определение 6. Ошибка 1 рода состоит в том, что будет отвергнута пра-

вильная нулевая гипотеза. Вероятность ошибки 1 рода называется уровнем зна-

чимости и обозначается .

Определение 7. Ошибка 2 рода состоит в том, что будет принята непра-

вильная нулевая гипотеза. Вероятность ошибки 2 рода обозначается .

Определение 8. Критерием согласия называется критерий проверки гипо-

тезы о предполагаемом законе неизвестного распределения. Это численная ме-

ра расхождения между эмпирическим и теоретическим распределением.

Основная задача. Дано эмпирическое распределение (выборка). Сделать предположение (выдвинуть гипотезу) о виде теоретического распределения и проверить выдвинутую гипотезу на заданном уровне значимости а.

Решение основной задачи состоит из двух частей: I. Выдвижение гипотезы.

II. Проверка гипотезы на заданном уровне значимости. Рассмотрим по-

дробно эти части.

I. Выбор гипотезы о виде теоретического распределения удобно делать с помощью полигонов или гистограмм частот. Сравнивают эмпирический поли-

гон (или гистограмму) с известными законами распределения и выбирают наиболее подходящий.

Приведем графики важнейших законов распределения:

Нормальное

Равномерное

Распределение

распределение N(a,σ)

распределение [a,b]

Пуассона

 

 

14

Пример эмпирических законов распределения

а)

б)

в)

В случае (а) выдвигается гипотеза о нормальном распределении, в случае

(б) — гипотеза о равномерном распределении, в случае (в)

гипотеза о Пуассо-

новском распределении.

Основанием для выдвижения гипотезы о теоретическом распределении могут быть теоретические предпосылки о характере изменения признака.

Например, выполнение условий теоремы Ляпунова позволяет сделать гипотезу о нормальном распределении. Равенство средней и дисперсии наводит на гипо-

тезу о распределении Пуассона.

На практике чаще всего приходится встречаться с нормальным распреде-

лением, поэтому в наших задачах требуется проверить только гипотезу о нор-

мальном распределении.

II. Проверка гипотезы о теоретическом распределении отвечает на во-

прос: можно ли считать расхождение между предполагаемыми теоретическим и эмпирическим распределениями случайным, несущественным, объясняемым случайностью попадания в выборку тех или иных объектов, или же это расхож-

дение говорит о существенном расхождении между распределениями. Для про-

верки существуют различные методы (критерии согласия) – 2 (хи-квадрат),

Колмогорова, Романовского и др. В наших задачах рассматривается метод 2.

Алгоритм метода Эмпирическое распределение задано в виде последовательности интерва-

лов одинаковой длины и соответствующих им частот.

15

1.Находим хв , в . В качестве вариант принимают среднее арифметическое концов интервала.

2.Переходим к случайной величине Z, Z Х xв . Вычисляем концы интерва-

в

 

 

 

 

 

 

 

 

 

 

лов Zi

xi xв

 

,

Zi 1

xi 1

xв

 

, причем наименьшее значение Z полагают

в

 

в

 

 

 

 

 

 

 

равным - , а наибольшее

+ .

 

 

 

 

3. Вычисляем теоретические частоты.

n n Pi , где n – объем выборки, Pi= Ф(Zi+1) –Ф(Zi), Ф(Z) – интегральная функ-

ция Лапласа.

4. Сравниваем эмпирические и теоретические частоты. Для этого:

 

2

k (n

i

n'

i

) 2

а) находим наблюдаемое значение критерия Пирсона

 

 

 

 

набл

 

 

n'i

 

 

 

 

i 1

 

 

 

б) по таблице критических точек распределения 2, по заданному уровню зна-

чимости и числу степеней свободы R=S–3 (S – число интервалов в выборке)

находим критическую точку кр2 ( ; R) .

Если табл2 кр2 ( ; R) , нет оснований отвергнуть гипотезу о нормальном

распределении генеральной совокупности. Если табл2 кр2 ( ; R) , гипотезу отвергают.

Замечание. Интервалы, содержащие малочисленные эмпирические часто-

ты (ni<5), следует объединить, а частоты этих интервалов сложить. Если произ-

водилось объединение интервалов, то при определении числа степеней свободы по формуле R=S–3 следует в качестве S принять число оставшихся после объ-

единения интервалов.

16

2.3.2. Раздел 2. Предмет и методы интеллектуального анализа данных.

Предварительный разведочный анализ данных.

Оценка качества данных. Технологии и методы оценки качества данных.

Аудит данных. Сокращение признаков. Обогащение данных.

Оценка качества бизнес-данных, используя обработчики АП Deductor.

Подготовка данных для анализа: выявление пропусков, дубликатов, про-

тиворечий, аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригодном для дальнейшего анализа. Применение методов первичного разведочного анализа данных в ре-

шении задач интеллектуального анализа данных (ИАД) средствами АП

Deductor. Аналитическая отчетность и многомерное представление данных Online Analytical Processing (OLAP). Визуализация данных и манипуляция с дан-

ными на основе графического изображения (диаграммы, гистограммы, OLAP-

кубы).

Оценка качества данных, очистка и предобработка

В настоящее время технологии оценки качества данных широко исполь-

зуются не только в процессе анализа данных, но и в информационных системах самого различного назначения, а реализующие их программные средства стали привычным явлением на рынке программного обеспечения. Рассмотрим не-

сколько практических аспектов оценки качества данных.

Оценка качества данных является необходимым этапом в процессе подго-

товки их к загрузке в хранилище данных и дальнейшего их анализа. Она позво-

ляет своевременно выявить в данных проблемы, которые не позволят их кор-

ректно анализировать, снизят значимость и достоверность результатов анализа,

следствием чего может стать выработка неверных управленческих решений.

Контроль качества данных должен проводиться на всех этапах аналитического процесса – от извлечения данных из источников до их обработки в аналитиче-

ской системе, поскольку для каждого этапа характерно наличие своих проблем с качеством данных.

17

Проблемы с качеством встречаются в отдельных наборах данных – таких,

как файлы и базы данных, например, как результат ошибок при вводе, утери информации и других загрязнений данных. Когда интеграции подлежит множество источников данных, например в хранилищах, интегрированных системах баз данных или глобальных информационных Интернет-системах,

необходимость в очистке данных существенно возрастает. Это происходит оттого, что источники часто содержат разрозненные данные в различном представлении.

Термин «качество данных» появился задолго до IT-технологий. Изна-

чально под качеством данных понималось количество ошибок при вводе и форматировании данных. В контексте современных аналитических технологий

качество данных – совокупность их свойств и характеристик, определяющих степень пригодности к анализу.

Сравнительная характеристика уровней качества данных приводится в табл. 3.

 

 

 

 

 

 

Таблица 3.

 

Уровни качества данных

 

 

 

Уровень

Факторы

 

 

Проявления

Технический

Нарушения в структуре данных

Мешают

 

 

Некорректное

 

наименование

интегрированию

 

 

таблиц и полей

 

 

 

данных, их загрузке в

 

Некорректные

 

форматы

и

ХД и в аналитические

 

кодировки данных

 

 

системы

 

 

Нарушение

полноты

и

 

 

 

 

целостности данных

 

 

 

 

 

Противоречия

и

дубликаты

на

 

 

 

 

уровне таблиц и файлов БД

 

 

 

 

 

 

 

 

 

 

 

Аналитический

Пропуски

 

 

 

Снижают

 

 

Аномальные

и

фиктивные

достоверность

данных

 

значения, опечатки

 

и искажают результаты

 

Шумы

 

 

 

их

анализа,

не

 

Противоречия

и

дубликаты

на

позволяют

 

 

уровне записей

 

 

 

использовать некоторые

 

 

 

 

 

аналитические методы

 

 

 

 

 

 

 

 

18

Концептуальный

Собранные

и

Отсутствие

или

 

консолидированные

 

недостаток данных для

 

данные в недостаточной мере

 

анализа

 

 

отражают исследуемые процессы

 

 

 

 

 

 

 

С целью повышения качества данных используется комплекс методов и алгоритмов, получивших название очистка данных (cleaning, refinement).

Предобработку данных можно рассматривать как комбинацию методов очистки и специальных методов оптимизации данных для решения конкретной аналитической задачи и приведения их в соответствие с требованиями,

определяемыми спецификой задачи и способами ее решения.

Соотношение между очисткой и пре-

добработкой дается на схеме

Рис. 2. Связь между очисткой и предобработкой Типичный набор инструментов предобработки и подготовки данных к

анализу, поставляемый с большинством аналитических платформ, содержит следующие средства:

1.Очистка от шумов и сглаживание рядов данных.

Очень часто ряды данных содержат быстрые случайные изменения значений, которые можно рассматривать как шум. Шум мешает выполнять анализ данных, делает неустойчивой работу аналитических алгоритмов, не

19

позволяет обнаруживать в данных скрытые закономерности, структуры,

тенденции.

2.Восстановление пропущенных значений необходимо, потому что пустые значения вызывают неопределенность при работе многих аналитических алгоритмов. Даже одно пропущенное значение может вызвать сбой в процессе анализа данных, который может привести к непредсказуемым результатам. Если же пропущенных данных много, то это может привести к недостаточному объему информации в анализируемой выборке.

3.Редактирование аномальных значений.

Аномальные значения также требуют большого внимания при подготовке данных к анализу. В большинстве случаев они являются просто ошибками ввода. Если же аномальные значения – это действительные события,

вызванные исключительными обстоятельствами, то они все равно не отражают реальную ситуацию в исследуемом процессе, а только искажают истинную его картину. С другой стороны, исследование аномального поведения данных позволит прогнозировать условия, вызывающие аномальные события и их последствия, исследовать реакцию информационно-аналитических систем на аномальные изменения условий.

4.Обработка дубликатов и противоречий.

Дубликаты и противоречия также весьма распространенные явления в данных. Дубликатами являются просто одинаковые данные (записи). Они могут дублировать информацию об одном и том же событии, а могут содержать идентичную информацию о двух различных, но похожих событиях. В первом случае дубликаты должны быть просто удалены, а во втором случае требуют более тонкой обработки. Противоречия возникают там, где нарушается логика причинно-следственной связи. Например, два одинаковых события являются следствием различных исходных условий, или одинаковые условия породили различные события. Противоречия существенно мешают анализу данных,

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]