Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

QalOGUGtk0

.pdf
Скачиваний:
2
Добавлен:
15.04.2023
Размер:
4.97 Mб
Скачать

называется рядом Тейлора для функции f(x). Если же для всех значений x

из некоторой окрестности точки x0

ряд сходится и имеет суммой f(x), т.е.

 

f (n) (x

)

(x x0 )n f (x) ,

 

0

 

n!

 

n 0

 

 

 

 

 

то функция f(x) называется разложимой в ряд Тейлора в окрестности точки x0 ( или по степеням x x0 ).

Теорема 15. Для того, чтобы функция y f (x) была разложима в ряд Тейлора в окрестности т. x0 , необходимо и достаточно, чтобы

lim Rn (x) 0 , где Rn (x) - остаточный член формулы Тейлора. Записанный в

n

форме Лагранжа, он имеет вид:

R (x)

f (n 1)

( )

(x x )n 1

, где

 

 

 

n

(n 1)!

0

 

 

 

 

 

x0 (x x0 ), 0 1

Справедливо утверждение: Степенной ряд an (x x0 )n с ненуле-

n 0

вым радиусом сходимости всегда является разложением в точке x x0 в ряд Тейлора своей суммы.

Примеры исследования сходимости рядов

Задание 1. Исследовать на сходимость числовые ряды:

 

3n 4

 

1.1.

.

 

n 1

n 1

 

 

Решение. Проверим сначала для данного ряда выполнения необходимого

условия сходимости: lim an

lim

3n 4

3 0 . Предел общего члена ряда не

n 1

 

 

 

 

n

n

 

равен нулю, следовательно, данный ряд является расходящимся.

 

1

 

 

 

 

 

1.2.

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 3

n2

 

 

 

Решение. Данный ряд относится к типу обобщённых гармонических рядов

1

 

, причём p

2

1 , значит, ряд расходится.

 

 

 

 

 

 

 

 

 

 

 

 

n p

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.3.

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение. Используем признак Даламбера. Найдём lim

an 1

 

. Здесь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

a

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2n 1

 

 

 

 

 

 

2n 1

 

 

 

2n

 

 

2(n2 1)

 

 

 

a

n

1

 

 

 

 

 

 

 

 

 

.

Получим:

lim

 

 

 

:

 

 

 

 

 

lim

 

 

 

 

 

 

2

1

. Согласно

 

 

 

(n 1)

2

 

1

 

 

 

 

(n 1)

2

1 n

2

1

 

 

n

2

2n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

 

 

признаку Даламбера, данный ряд расходится.

61

 

 

 

 

n

 

 

 

 

 

 

 

 

1.4.

 

e

.

 

 

 

 

 

 

2n

 

 

 

n 1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение.

 

 

Применим радикальный признак Коши. Найдём lim n an . Полу-

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

чим: lim n

 

 

en

 

 

 

 

n2n

 

n

 

 

 

 

 

lim

e

 

0 1. Согласно признаку Коши, данный ряд сходится.

 

 

 

n n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

5

 

 

 

 

 

1.5.

n

 

.

 

 

 

 

 

 

 

 

 

n 1

 

cosn

 

 

 

Решение. Проверим сначала для данного ряда выполнения необходимого

условия сходимости: lim an

lim

n2 5

. Числитель данной дроби стремится

cosn

n

n

 

к бесконечности, а знаменатель – ограниченная величина, принимающая, в зависимости от n значения различных знаков. Предел общего члена ряда, таким образом, не определён (и, естественно, не равен нулю), следовательно, данный ряд является расходящимся.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2n

 

 

Задание 2. Найти радиус, интервал и область сходимости ряда:

x

 

 

 

.

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 n 5

 

 

Решение. Запишем коэффициент данного ряда:

1

. Найдём радиус схо-

 

 

 

 

n 5n

 

 

 

an

 

 

1

 

 

 

 

1

 

 

 

5(n 1)

 

 

димости данного ряда:

R lim

 

 

 

lim

 

 

:

 

 

 

 

lim

 

 

 

 

5 .

 

 

 

 

n

 

 

n 1

 

 

 

 

 

n an 1

 

 

 

 

(n 1) 5

 

 

n

 

 

 

 

 

n n 5

 

 

 

 

 

n

 

 

 

 

Интервал сходимости данного ряда будет 5;5 . Проверим поведение ряда в конечных точках данного интервала.

 

 

 

 

 

 

5

2n

 

 

 

 

5

n

 

 

 

 

 

 

 

 

 

Пусть x 5 . Получим ряд

 

 

 

 

 

 

. Проверим его сходимость по при-

n 5

n

 

 

 

 

 

 

 

 

 

n 1

 

 

n 1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

a

n 1

 

 

 

 

5n 1

 

 

5n

 

5n

 

 

 

 

 

 

знаку

Даламбера.

lim

 

lim

 

 

 

:

 

 

 

 

 

lim

 

 

 

5

1. Ряд расходится,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n an

 

 

 

 

 

 

 

 

 

 

 

 

n n 1

 

 

 

 

 

n n 1

 

 

 

n

 

 

 

следовательно, точка x 5 не принадлежит области сходимости.

 

 

 

 

 

 

 

 

 

( 5)2n

 

 

 

 

 

( 1)n 5

2n

 

( 1)n 5n

Пусть

x 5 . Получим ряд

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. Получили

 

n 5

n

 

 

 

n 5

n

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

n 1

 

 

 

 

n 1

n

знакочередующийся ряд, расходимость которого легко устанавливается с помощью признака Лейбница (не выполняется первое условие). То есть, точка x 5 также не входит в область сходимости. Итак, область сходимости данного ряда - ( 5; 5) .

62

Давидюк Е.С.

Решение задач по теме «Методы обнаружения грубых ошибок. Робастные оценки»

1. Устойчивые методы оценки Опр. Грубые ошибки – резко выделяющиеся из основной массы

наблюдения Опр. Методы оценивания, чувствительные к "грубым ошибкам"

называются неустойчивыми.

Опр. Методы оценивания, учитывающие наличие "грубых ошибок" и позволяющие при этом достаточно точно определять оценки параметров, называются робастными или устойчивыми.

При обработке экономической информации, как правило, считают, что экономические показатели подчиняются нормальному распределению. Однако практика обработки такой информации показывает, что экономические показатели не так часто подчиняются теоретическому нормальному распределению. Наблюдаются отклонения как односторонние, так и двухсторонние, когда "хвосты" дифференциального закона оказываются более тяжелыми, чем можно было предположить, исходя из данных таблиц нормального распределения. Иногда статистическая информация по данному показателю, подлежащая обработке, представляет собой смесь нескольких законов распределения с разными дисперсиями.

Встречаются смеси основного нормального распределения с распределениями других видов. Наблюдаются случаи, когда из-за малого объема выборки не представляется возможным достаточно точно определить вид закона, засоряющего распределения. Кроме того, хорошо известно, что при применении метода наименьших квадратов небольшое число грубых ошибок может существенно исказить значение характеристик распределения. Следовательно, необходимо применять такие методы обработки экономической информации, которые были бы менее чувствительными к виду закона распределения и влиянию небольшого числа больших случайных отклонений.

При определении структуры неоднородных совокупностей здесь возникают две задачи. Первая задача заключается в разбиении общей неоднородной совокупности на некоторое число однородных совокупностей, а вторая - в оценке параметров совокупностей, которые содержат грубые ошибки.

При решении первой задачи необходимо:

классифицировать элементы по однородным совокупностям;

оценить параметры распределения однородных составляющих, входящих в общую неоднородную совокупность.

63

При решении второй задачи чаще используются методы непосредственного выявления грубых ошибок и методы, которые сводят к минимуму искажения, создаваемого грубыми ошибками, а также комбинированные методы, которые выделяют грубые ошибки и дают наиболее правдоподобную оценку параметров распределения, не искаженную грубыми ошибками.

Грубые ошибки могут появиться при сборе исходной информации, а также в результате искажения информации в каналах ее передачи.

Грубые ошибки появляются при построении регрессионных моделей при недостаточно строгом предварительном экономическом анализе исходных показателей объектов. В результате в совокупность могут быть включены "нетипичные" предприятия. Если же в выборку входит малое количество предприятий, то даже одно нетипичное предприятие может существенно исказить результаты анализа. При проведении многомерного анализа методы устойчивого оценивания параметров распределения приобретают особую актуальность.

п.2. Распределение Тьюки

Пусть совокупность вместе с "обычными" значениями элементов содержит "грубые ошибки". Таким образом, основная масса элементов является реализациями случайной величины, закон распределения которой известен с точностью до некоторого параметра. Вероятность появления этих элементов в совокупности равна 1 , где - вероятность появления другой случайной величины , определяющей грубые ошибки.

Известно, что средняя арифметическая оценка является несмещенной, состоятельной и эффективной оценкой математического ожидания. Однако, эффективность ее падает с утяжелением "хвостов" распределения, т.е. наличием достаточно большого числа наблюдений, значительно удаленных от среднего значения.

Д.Тьюки предложил свою модель (1) для оценки характеристик распределения с утяжеленными относительно нормальной совокупности хвостами. В ней предусматривается наличие нормальной совокупности с ма-

тематическим ожиданием , дисперсией 2 , которая засоряется другой нормальной совокупностью с этим же математическим ожиданием и с

дисперсией (3 )2

9 2 .

 

 

 

 

 

 

 

 

 

 

x

x

F (x)

(1 )

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

x

t2

 

 

 

 

(x)

 

 

e

 

 

 

 

 

 

 

 

2 dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

64

 

(1)

(2)

п.3. Оценки среднего значения при наличии грубых ошибок

Пусть x1, x2 ,..., xN - выборка. Упорядочим ее, построив вариацион-

ныйряд x(1) , x(2) ,..., x( N ) , где x(1) x(2) ... x( N )

Пуанкаре рассматривал выборку, в которой основные элементы подчинены нормальному распределению, а некоторая доля является грубой ошибкой. Он предложил вместо средней арифметической выборки опреде-

лять -урезанную среднюю.

 

Для выборочной

совокупности

x1, x2 ,..., xN -урезанная средняя

(0

1

) определяется формулой

 

 

 

2

 

 

 

 

 

 

 

 

1

 

N [ N ]

 

T ( )

 

x(i)

(3)

 

 

N 2[ N ]

 

 

 

 

i [ N ] 1

 

где [ N ] - целая часть от N , т.е. наибольшее целое число, не превосходящее N .

Из формулы (3) видно, что для получения из вариационного ряда удаляются 100 % минимальных элементов и 100 % максимальных элементов выборки. По оставшимся элементам определяется среднее арифметическое значение.

В экономических задачах более интересной является -

винзорированная оценка, предложенная Винзором.

По совокупности x1, x2 ,..., xN среднее значение для уровня , где

0 12 , определяется формулой:

 

1

N [ N ]

 

 

 

 

W ( )

 

 

x(i)

[ N ](x[ N ] 1

xN [ N ] )

(4)

 

 

N i [ N ] 1

 

 

 

 

Данная процедура отличается от средней по Пуанкаре, так как значения не исключаются ни с левого, ни с правого конца вариационного ряда x(1) , x(2) ,..., x( N ) . Эти значения проецируются в ближайшую точку оставшей-

ся части, упорядоченной в вариационный ряд выборки. Таким образом, при определении средней арифметической участвуют все N наблюдений.

2. Методы обнаружения засорения (грубые ошибки) Метод выявления грубых ошибок Смирнова-Граббса

Проверка максимального наблюдения

Пусть x1, x2 ,..., xN результаты наблюдения. По полученным наблюдениям построим вариационный ряд.

x(1) x(2) ... x( N ) .

(5)

Если известны среднеквадратическое отклонение

и математиче-

ское ожидание , то можно воспользоваться критерием

 

65

 

t

 

 

 

x( N )

 

 

 

 

 

 

 

 

(6)

 

( N )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и сравнить его с данными таблицы процентных точек критерия

Смирнова-Граббса

 

 

 

 

 

 

 

 

 

 

 

 

 

max | x(i) |

 

 

 

 

 

 

tmax

 

 

 

 

i

 

 

(7)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если же и

неизвестны, то необходимо воспользоваться табл.2.

Для этого надо определить

 

 

 

 

 

 

T

 

x( N ) x

 

 

 

 

 

 

 

 

(8)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( N )

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

N

 

 

 

1

 

N

 

 

 

 

где

x

 

xi , s2

(xi x )2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N i 1

 

 

 

N i 1

 

 

 

 

Затем сравнить значение T( N ) сC из табл.1.

 

 

 

Таблица1

 

 

 

 

 

 

 

 

 

 

Таблица Граббса. Критические значения C

 

 

 

Количество

 

 

 

 

 

 

Количество

 

 

 

наблюдений

=0,10

 

=0,05

 

=0,025

наблюдений

=0,10

=0,05

=0,025

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

2,297

2,461

2,602

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

2,326

2,493

2,638

3

 

 

 

 

 

 

1,406

 

1,412

 

1,414

16

2,354

2,523

2,670

4

 

 

 

 

 

 

1,645

 

1,689

 

1,710

17

2,380

2,551

2,701

5

 

 

 

 

 

 

1,791

 

1,869

 

1,917

18

2,404

2,577

2,728

6

 

 

 

 

 

 

1,894

 

1,996

 

2,067

19

2,426

2,600

2,754

7

 

 

 

 

 

 

1,974

 

2,093

 

2,182

20

2,447

2,623

2,778

8

 

 

 

 

 

 

2,041

 

2,172

 

2,273

21

2,467

2,644

2,801

9

 

 

 

 

 

 

2,097

 

2,237

 

2,349

22

2,486

2,664

2,823

10

 

 

 

 

 

 

2,146

 

2,294

 

2,414

23

2,504

2,683

2,843

11

 

 

 

 

 

 

2,190

 

2,343

 

2,470

24

2,520

2,701

2,862

12

 

 

 

 

 

 

2,229

 

2,387

 

2,519

25

2,537

2,717

2,880

13

 

 

 

 

 

 

2,264

 

2,426

 

2,562

26

2,553

2,734

2,897

Если T( N ) < C ,то верна гипотезаНо о том, что x(N)не является грубой ошибкой. При T( N ) > C , x(N)значимо отклоняется от x , следовательно, явля-

ется грубой ошибкой. Встречаются таблицы, где используется вместо понятие доверительной вероятности , где =1- и, тогда критическое значение C C1 ; C соответствует величине T(N) при гипотезеНо, отве-

чающей доверительной вероятности P(T( N ) C ) .

Критерий Граббса для обнаружения одного экстремального наблюдения

66

Пусть дан ряд наблюдений x1, x2 ,..., xN , по которому построен вариационный ряд x(1) , x(2) ,..., x( N ) и получены оценки

 

1

 

N 1

 

1

N

1

 

N

x1

 

x(i) ;

x

x(i) , x1

 

x(i) ;

N 1

N

N 1

 

i 1

 

i 1

i 2

 

 

 

 

 

 

 

Для проверки максимального значения на наличие грубой ошибки:

N 1

(x(i) x1)2

G

i 1

--------------------

(10)

N

N

 

 

 

(x(i) x )2

 

 

i 1

Для проверки минимального значения на наличие грубой ошибки:

 

N

 

 

(x(i) x1)2

 

G

i 2

(11)

N

1

 

 

(x(i) x )2

 

i 1

Критические значения Са для критериев GN и G1; можно определить по табл.2.

Наблюдения х(1)или x(N)относят к грубым ошибкам, если наблюдаемые значения статистик GN илиG1окажутся больше критического Са.

 

Таблица 2

 

 

 

 

 

 

 

Критические значения Сапри использовании критериев GN и G1

Количество

=0,10

 

 

Количе-

=0,10

 

 

наблюде-

 

=0,05

=0,025

ство

 

=0,05

=0,025

 

 

 

 

 

 

ний

 

 

 

 

наблюде-

 

 

 

 

 

 

 

 

ний

 

 

 

1

 

 

 

 

14

0,5942

0,5340

0,4792

2

 

-

-

 

15

0,6134

0,5559

0,5030

3

 

0,0109

0,0027

0,0007

16

0,6306

0,5755

0,5246

4

 

0,0975

0,0494

0,0248

17

0,6461

0,5933

0,5442

5

 

0,1984

0,1270

0,0808

18

0,6601

0,6095

0,5621

6

 

0,2826

0,2032

0,1453

19

0,6730

0,6243

0,5785

7

 

0,3503

0,2696

0,2066

20

0,6848

0,6379

0,5937

8

 

0,4050

0,3261

0,2616

21

0,6958

0,6504

0,6076

9

 

0,4502

0,3742

0,3101

22

0,7058

0,6621

0,6206

10

 

0,4881

0,4154

0,3526

23

0,7151

0,6728

0,6327

11

 

0,5204

0,4511

0,3901

24

0,7238

0,6829

0,6439

12

 

0,5483

0,4822

0,4232

25

0,7319

0,6923

0,6544

13

 

0,5727

0,5097

0,4528

 

 

 

 

67

Критерий исключения нескольких грубых ошибок

Подход Титьена-Мура - обобщение критерия Граббса на несколько экстремальных наблюдений.

Пусть по выборке объемом N построен вариационный ряд

x(1) x(2) ... x( N )

Тогда решающее правило для отношения к грубым ошибкам основано на статистике

Nk

(x(i) xk )2

L

 

i 1

 

 

 

N

 

 

 

(k )

 

 

 

 

 

 

(x(i) x )2

 

 

i 1

 

 

 

 

 

 

1

N k

где

xk

 

 

x(i) ;

 

N k

 

 

 

 

i 1

 

 

 

 

 

(12)

k наибольших наблюдений

(13)

(14)

где xk - средняя арифметическая (N-k) наблюдений после отбрасыва-

ния k наибольших наблюдений; x - выборочная средняя арифметическая всей выборки.

Решающее правило для отнесения k наименьших наблюдений к грубым ошибкам основано на статистике

 

 

N

 

 

 

 

 

 

 

(x(i) xk )2

 

 

L

 

i k 1

 

 

 

 

(15)

N

 

 

 

 

(k )

 

 

 

 

 

 

 

 

(x(i) x )2

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

1

N

 

 

где

xk

 

 

x(i)

;

(16)

 

 

 

 

 

 

 

N k

 

 

 

 

 

 

 

i k 1

 

 

(N-k) - число наибольших наблюдений в выборке;

xk - средняя арифметическая (N-k) наблюдений, оставшихся после удаления из выборки k наименьших наблюдений,

L(1) эквивалентна G(N)ta L(1) – величинеG(1)

Критические значения Са можно определить по табл.3.

Наблюдения относят к грубым ошибкам, если наблюдаемые значения статистик окажутся больше критического Са.

Таблица 3

Критические значения Сапри а=0,05 для L(k)и L(k )

n

3

4

5

6

 

7

8

9

10

11

k

 

 

 

 

 

 

 

 

 

 

1

0,003

0,05

0,125

0,203

 

0,273

0,326

0,372

0,418

0,454

2

 

0,001

0,018

0,055

 

0,106

0,146

0,194

0,233

0,270

3

 

 

 

0,010

 

0,032

0,064

0,099

0,129

0.162

 

 

 

 

 

68

 

 

 

 

n

12

13

14

15

16

17

18

19

20

k

 

 

 

 

 

 

 

 

 

10,489 0,517 0,540 0,556 0,575 0,594 0,608 0,624 0,639

20,305 0,337 0,363 0,387 0,410 0,427 0,447 0,462 0,484

30,196 0,224 0,250 0,276 0,300 0,322 0,337 0,354 0,377

Критерий обнаружения экстремальных наблюдений (наибольших и наименьших) одновременно

При помощи алгоритма метода по выборке вычисляется среднее арифметическое значение x и проводится расчет абсолютных отклонений от среднего:

r1 | x1 x |,r2 | x2 x |,...,rN | xN x |

Построится возрастающий ряд с переиндексацией: zi- наблюдение ri - i-е по величине. Самое близкое к x значение обозначим z1а через zN- самое удаленное от x наблюдение.

Для проверки гипотезы о том, что k наибольших по модулю наблюдений являются грубыми ошибками, используется величина:

Nk

(zi zk )2

E

 

i 1

 

 

(17)

N

 

 

(k )

 

 

 

 

 

 

 

 

(zi z )2

 

 

 

 

i 1

 

 

 

 

 

 

1

N k

 

zk

 

 

zi - средняя арифметическая из

N-kнаблюдений,

 

N k

 

 

i 1

 

 

 

 

 

 

оставшихся после исключения из выборки k подозрительных элементов); z - средняя арифметическая всей выборки.

Критические значения для Е(к)даны в табл. 4.

Таблица 4

Значения Садля Е(к) (а=0,05)

n

3

4

5

6

7

8

9

10

11

k

 

 

 

 

 

 

 

 

 

 

 

1

0,001

0,125

0,081

0,146

0,208

0,265

0,314

0,356

0,386

2

 

0,001

0,010

0,034

0,065

0,099

0,137

0,172

0,204

3

 

 

 

0,004

0,016

0,034

0,057

0,083

0,107

n

12

13

14

15

16

17

 

18

 

19

20

k

 

 

 

 

 

 

 

 

 

 

 

10,424 0,455 0,484 0,509 0,526 0,544 0,562 0,581 0,597

20,234 0,262 0,293 0,317 0,340 0,362 0,382 0,397 0,416

30,133 0,165 0,179 0,206 0,227 0,248 0,267 0,287 0,302

Значение Е(к)сравнивается с критическим значением Са. Если Е(к)а, то k рассматриваемых наблюдений являются грубыми ошибками.

69

Давидюк Е.С.

Решение задач по теме «Кластерный анализ»

1. Основные определения и обозначения Опр. Кластерный анализ — это совокупность методов, предназна-

ченных для группировки (кластеризации) совокупности объектов, каждый из которых описывается набором исходных параметров x1,x2, ..., xk. Целью кластерного анализа является разбиение множества объектов на заданное или неизвестное число кластеров на основании некоторого математического критерия качества классификации. Все параметры одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу.

Критерий качества кластеризации отражает следующие неформальные требования:

1.Внутри групп объекты должны быть тесно связаны между со-

бой.

2.Объекты разных групп должны быть далеки друг от друга.

3.При прочих равных условиях распределения объектов по группам должны быть равномерными.

Однако при проведении кластерного анализа возникают различные проблемы:

элементы (в нашем случае муниципальные образования) характеризуются большим количеством факторов, которые имеют разные единицы измерения и разные абсолютные величины, буквально не сопоставимые друг с другом и несущие разный объем информации;

первоначально неизвестно число кластеров, на которое необходимо разбить исходную совокупность элементов;

какие метрики использовать в качестве меры расстояния (меры близости) между элементами;

какой метод использовать для объединения элементов в кластеры.

Основная форма представления исходных данных в задачах кластерного анализа в виде матрицы X, размерности n k , где xij - значение j-го

 

 

 

 

показателя у i-го объекта ( i 1,n;

j 1,k )

:

 

 

 

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]