Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

569

.pdf
Скачиваний:
2
Добавлен:
06.12.2022
Размер:
2.09 Mб
Скачать

мости между {Xj}, j 1,k. Поэтому, исключив незначимые

факторы из модели, может получиться так, что коэффициент детерминации модели (характеризует качество модели) уменьшается. Это происходит потому, что, выбросив незначимый фактор Xj, усиливается влияние случайных (неучтенных) факторов, так как фактор Xj оказался неучтенным. Кроме того, в совокупности с другими входными факторами фактор Xj оказывал влияние на выходной фактор Y, так как мог быть связан с входными факторами статистической зависимостью. Следовательно, безоговорочно исключать из рассмотрения незначимые факторы нельзя.

Получили противоречие. С одной стороны, незначимые факторы надо исключать, с другой стороны — нет.

Алгоритмически решение проблемы выбора значимых (информативных) факторов усложняется статистической зависимостью исходных признаков. Это не позволяет строить надежный алгоритм выбора информативной подсистемы входных факторов, ориентируясь на значимость отдельных факторов.

На практике широкое распространение получил метод «последовательного включения». Суть метода состоит в следую-

щем. На первом шаге в качестве X(1) из {Xj} ( j 1,k), выбирается фактор Xj, для которого коэффициент корреляции по

модулю | Y / Xj | — максимален. Определяются остатки полу-

ченной модели Y*

= a + b X

по формуле

 

1,i

y

y*

,

(1)

1 (1)

 

 

i

(1),i

 

 

 

 

 

m

 

 

 

 

 

i

 

. Вычисляется ошибка 1

1,i. На втором шаге сре-

1,m

 

 

 

 

i 1

 

 

 

 

 

ди оставшихся входных факторов берется фактор X(2) с максимальным значением коэффициента корреляции. Получается модель вида: Y*(1) = a+ b1X(1) + b2X(2). Вычисляются остат-

 

 

 

m

ки 2,i yi y(*2),i, i

 

и ошибка 2

2,i. Процесс

1,m

 

 

 

i 1

включения факторов продолжается до тех пор, пока значение

ошибок ( = 1, 2, …) уменьшается.

61

Другой широко используемый алгоритм — алгоритм «последовательного исключения». Суть метода аналогична методу «последовательного включения», только на первом этапе в модель включаются все факторы. Определяются остатки полученной модели и вычисляется ошибка 1. На втором шаге из модели исключается фактор с минимальным значением коэффициента корреляции. Снова вычисляются остатки и находится ошибка регрессионной модели. Процесс исключения продолжается до тех пор, пока значение ошибок регрессии уменьшается.

Метод «последовательного исключения» более трудоемкий и, кроме того, его статистически надежные решения на первых шагах требуют большего объема обучающей выборки. Но второй алгоритм при больших объемах выборки решение второго метода потенциально лучше, чем первого, особенно для задач распознавания образов.

Рассмотрим проблему учета разнотипности входных факторов, которая часто возникает при комплексных статистических исследованиях. Можно выделить несколько подходов:

1)все признаки приводятся к одному типу с учетом или без учета статистической зависимости;

2)в разнотипных признаковых подпространствах используются свои методы анализа для получения частных моделей прогноза, которые затем приводятся к одной модели;

3)номинальные факторы без потери информативности преобразуют в количественную шкалу, и в объединенном пространстве количественных признаков строят модель прогноза.

Различным подходам свойственны свои достоинства и недостатки. Методы первого подхода при переводе количественных факторов в качественную шкалу теряют часть исходной информации. При переводе качественных факторов в квазиколичественные у исходного признака появляется не характерные для него свойства (возможность сравнения значений фактора, выполнения арифметических операций над значениями фактора). Методы второго порядка слабо учитывают статистическую зависимость между разнотипными признаками. Методы третьего подхода учитывают статистическую зависимость всех входных факторов, однако модели прогноза слож-

62

но интерпретировать, и численная устойчивость алгоритмов снижена искусственным увеличением признакового пространства и уменьшением числа обусловленности корреляционной матрицы признаков.

5.3.4. Точность регрессионного прогноза

Как известно, регрессия есть условное значение Y, зависящее от X. Прогнозируя значение y по регрессионной модели Y* = g(X), при заданном значении x можно совершить два типа ошибок.

Ошибка первого типа связана с тем, что регрессионная модель построена по выборке V, а не по генеральной совокупности, и, следовательно, прогнозное значение y* содержит ошибку модели. Средняя ошибка этого прогноза равна

t

1

 

(x

x

)2

. Здесь t — квантиль распределения Стью-

 

2

 

 

n

nsx

 

дента при n – 1 степени свободы и с уровнем значимости ;— стандартная ошибка регрессии; sx2 — выборочное значение дисперсии фактора X; x — средневыборочное значение фактора X; n –объем выборки.

Ошибка второго рода является ошибкой в индивидуальном прогнозе X и вычисляется по формуле

 

 

 

1

 

(x

 

)2

.

инд

t

1

x

n

 

 

 

 

 

 

 

nsx2

Нетрудно заметить, что этот вид ошибки больше ошибки первого рода. Ошибки первого и второго рода пропорциональны квадрату расстояния x от средневыборочного значения x .

Контрольные вопросы к разделу 5

1.Виды связей между случайными величинами. Стохастическая зависимость.

2.Уравнение и линия регрессии. Связь между коэффициентом регрессии и коэффициентом корреляции.

3.Метод наименьших квадратов для нахождения коэффициентов линейной регрессии.

4.Свойства коэффициента корреляции.

63

5.Проверка гипотезы о незначимости коэффициента корреляции.

6.Проверка гипотезы о незначимости регрессионной модели на основе дисперсионного анализа.

7.Понятие коэффициента детерминации.

8.Значение t-статистики. Выводы, полученные по значениям t-статистик.

9.Понятие остатков. График остатков.

10.Криволинейный регрессионный анализ. Основные этапы построения криволинейной регрессии.

11.Многофакторный регрессионный анализ.

12.Проверка гипотезы о незначимости многофакторной регрессионной модели на основе дисперсионного анализа.

13.Понятие информативности входных факторов. Выбор значимых факторов.

14.Проверка гипотезы о незначимости входных факторов (коэффициентов регрессии).

15.Использование регрессионных моделей для прогноза. Точность регрессионного прогноза.

16.Показатели качества регрессионной модели.

17.Показатель статистической значимости многофакторный регрессионной модели.

18.Связь коэффициента детерминации с множественным коэффициентом регрессии.

6. АНАЛИЗ ЗАВИСИМОСТИ МЕЖДУ КАЧЕСТВЕННЫМИ ФАКТОРАМИ

Зависимости между порядковыми переменными анализируются с помощью коэффициента согласованности (конкордации), а между номинальными — с помощью таблиц сопряженности.

6.1. Анализ зависимости между классификационными переменными

Остановимся на анализе зависимостей между номинальными факторами. Напомним, что номинальные (классификационные) переменные принимают значения, которые можно разбить на непересекающиеся множества, но эти множества труд-

64

но или невозможно упорядочить по какому-либо признаку. Примерами таких переменных являются профессии работников или пол особи, вид и род в биологии и т.д.

В общем случае основным инструментом исследования зависимостей между классификационными переменными являются таблицы сопряженности. Рассмотрим двумерные таблицы сопряженности, которые соответствуют двум классификационным переменным (такие таблицы иногда называют таблицами сопряженности с двумя входами).

Пусть имеется двумерная случайная величина Z = (X, Y), где случайная величина X принимает значения (признаки) A1, A2, …, As, а случайная величина Y — значения (признаки) B1, B2, …, Br. Выборочные данные представляются в виде таблицы сопряженности. Здесь xij — количество выборочных значений, имеющих признаки В и А.

Для проверки гипотезы о независимости случайных величин X и Y вычисляется критериальная статистика

 

r s

(xij

ni*n*j)

2

 

 

r s

2

 

t

n

 

 

n

 

xij

1

 

 

 

 

 

 

 

ni*n*j

 

 

 

 

 

 

 

i 1 j 1

 

 

 

i 1 j 1 ni*n*j

 

 

 

 

 

 

 

 

 

 

 

на основе матрицы сопряженности (табл. 7). Эта статистика приближенно имеет распределение 2 со степенью свободы, равной (r – 1)(s – 1). Для случая r = s = 2 используется точный критерий Фишера проверки гипотезы о независимости.

 

 

 

 

 

 

Таблица 7

 

Таблица сопряженности с двумя входами

 

 

 

 

 

 

 

 

 

Фактор Y

 

Фактор X

 

 

Всего

 

A1

A2

 

As

 

 

 

 

 

 

 

 

 

 

 

s

 

B1

x11

x12

 

x1s

n1* x1j

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

s

 

B2

x21

x22

 

x2s

n2* x2 j

 

 

 

 

 

 

j 1

 

 

...

 

 

 

 

 

 

 

s

 

Br

xr1

xr2

 

xrs

nr* xrj

 

 

 

 

 

 

j 1

 

 

r

r

 

 

r

s

s

Всего

n*1 xi1

n*2 xi2

 

n*s xis

n n*j

ni*

 

i 1

i 1

 

 

i 1

j 1

i 1

65

Если критерий проверки гипотезы о независимости устанавливает, что существует статистически значимая зависимость между переменными X и Y, то полезно иметь какую-то числовую меру этой зависимости (наподобие коэффициента корреляции для количественных факторов). Статистика t в силу ряда причин не может выступать непосредственно в качестве такой меры зависимости, однако на ее основе разработано несколько показателей зависимости классификационных переменных, среди которых выделим следующие:

— коэффициент сопряженности C

 

t

;

 

 

 

 

 

 

 

 

 

 

t n

 

— мера связи Чупрова K

 

 

t

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (r 1)(s 1)

— коэффициент

 

t

.

 

 

 

n

Эти коэффициенты используются в различных ситуациях, и каждый из них имеет свои преимущества и недостатки. Коэффициент сопряженности аналогичен коэффициенту корреляции. Чем больше значение коэффициента сопряженности, тем сильнее связь между классификационными переменными.

Для анализа зависимости номинальных факторов разработаны информационные показатели зависимости, использующие понятие энтропии и количества информации, что позволяет определять направленные меры зависимости между переменными.

6.2. Анализ зависимости междупорядковыми переменными

Порядковые (ординарные) переменные отличаются от классификационных (номинальных) тем, что значения порядковых переменных ранжированы в соответствии с некоторой заданной шкалой. Значения ординарных величин считаются рангами, присвоенными им в соответствии с этой шкалой. Количественные величины являются частным случаем порядковых величин.

Опишем процедуру преобразования выборки в ранги. Рассмотрим выборку объема n двухмерной случайной величины (X, Y): (x1, y1), (x2, y2), …, (xn, yn). Каждому выборочному зна-

66

чению (xi, yi) присваиваются ранги (ri, qi). Ранги присваиваются значениям xi и yi независимо путем построения отдельных

вариационных рядов x(1) x(2) … x(n) и y(1) y(2) … y(n). Число i члена вариационного ряда x(i) будет рангом соответ-

ствующего выборочного значения. Если есть совпадающие выборочные значения, то им присваиваются одинаковые ранги, которые были бы присвоены при отсутствии равенства значе-

ний. Например, пусть значения x(k), x(k+1) и x(k+2) равны между собой (а до этого в вариационном ряду не было совпадающих

значений), тогда они получают ранги (k + k + 1 + k + 2)/3 = = k + 1. Некоторые ранги могут быть дробными. Например, пусть значения x(k) и x(k+1) равны между собой (а до этого в вариационном ряду не было совпадающих значений), тогда они получают ранги (k + k + 1)/2 = k + 1/2. Вместо исходной выборки получается совокупность двухмерных значений

рангов (R, Q): (r1, q1), (r2, q2), …, (rn, qn).

Для оценивания степени зависимости между порядковыми факторами используют ранговые коэффициенты корреляции Спирмена и Кендалла.

6.2.1. Ранговый коэффициент корреляции Спирмена

Этот коэффициент корреляции вычисляется по формуле

 

 

 

6

n

 

 

 

 

 

 

rs

1

 

(ri

qi)2. Причем

 

r

 

1. Коэффициент кор-

 

 

 

n3

 

 

 

n i

1

 

 

s

 

 

 

 

 

 

 

реляции Спирмена равняется единице, если все ранги (ri, qi) попарно совпадают. Если же эти ранги противоположны (qi = n — ri + 1), то коэффициент корреляции Спирмена равняется минус единице.

При условии независимости случайных величин X, Y мате-

матическое ожидание M(r ) = 0 и дисперсия

D(r )

1

.

 

s

s

n 1

 

 

Ранговый коэффициент корреляции Спирмена применяют для проверки гипотезы о незначимости влияния X на Y при малом объеме выборки (n 10). В качестве критериальной статистики используют коэффициент rs, а критическое значение при заданном уровне значимости определяется по таблицам распределения коэффициента корреляции Спирмена. Если

67

9n(n 1)

объем выборки большой, то в качестве критериальной статис-

тики берется величина t

rs

n 2

, которая асимптотически

 

 

 

 

1 rs2

имеет распределение Стьюдента с (n – 2) степенями свободы.

6.2.2. Ранговый коэффициент корреляции Кендалла

Пусть для выборочных значений (x1, y1), (x2, y2), …, (xn, yn) вычислены ранги (r1, q1), (r2, q2), …, (rn, qn). Последовательность рангов сортируется в возрастающем порядке по рангу rs и получается модифицированная последовательность рангов (1, q(1)), (2, q(2)), …, (n, q(n)). Ранговый коэффициент Кендалла

 

2

n n

вычисляется по формуле rk

sign(q(j) q(i)),

 

 

n(n 1) i 1 j i 1

rk 1.

При условии независимости случайных величин X, Y мате-

2(2n 5)

матическое ожидание M(rk) = 0 и дисперсия D(rk) .

Ранговый коэффициент корреляции Кендалла также применяют для проверки гипотезы о незначимости влияния X на Y при малом объеме выборки (n 10). В качестве критериальной статистики используют коэффициент rk, а критическое значение при заданном уровне значимости определяется по таблицам распределения коэффициента корреляции Кендалла. Если объем выборки большой, то в качестве критериаль-

ной статистики берется величина t rk

9n(n 1)

,

которая

 

 

2(2n 5)

 

имеет стандартное нормальное распределение. Считается, что ранговый коэффициент корреляции Кендалла дает более статистически значимый результат при проверке гипотезы о незначимости влияния одного порядкового фактора на другой, чем ранговый коэффициент корреляции Спирмена.

68

6.2.3. Коэффициент согласованности множественной связи

Ранговые коэффициенты корреляции Спирмена и Кендалла применяют для оценки статистических связей между двумя порядковыми факторами. Иногда возникает необходимость в оценке статистической независимости между несколькими (более двух) факторами. Для этих целей используется коэффициент согласованности (коэффициент конкордации).

Рассмотрим выборку объема n m-мерной случайной величины Z = (X1, X2, , Xm). Каждому выборочному значению

(x1i,x2i, …, xmi), i 1,n присваиваются ранги(r1i,r2i,…,rmi), i 1,n. Коэффициент согласованности вычисляется по формуле

 

 

12

 

n

m

 

m(n 1)

2

 

 

 

 

 

 

 

 

 

 

W 2

(n

3

 

rji

 

2

.

 

m

 

n) i 1 j 1

 

 

Значение коэффициента конкордации лежит в пределах от нуля до единицы. Если W = 0, то считается, что переменные X1, X2, , Xm независимы. Если W = 1, тогда и только тогда,

когда все ранги rji ( j 1,m ), соответствующие выборочному

значению (x1i, x2i, …, xmi), равны.

При условии независимости случайных величин X1, X2, …,

1

Xm выполняются следующие равенства: M(W) m ,

2(m 1)

D{W} m3(n 1). В случае, когда m = 2 (два фактора),

W 1 rs , где r — коэффициент корреляции Спирмена. 2 s

Для проверкигипотезы онезависимостипеременныхX1,X2, …, Xm при малом объеме выборки в качестве критериальной статистики используется коэффициент конкордации W , а критическое значение при заданном уровне значимости определяется по таблице распределения коэффициента согласованности. Данное распределение можно аппроксимировать бета-распре- делением. Для выборок объемом более семи в качестве критериальной статистики берется значение t = m(n – 1)W, которое

69

асимптотически имеет распределение 2 с (n – 1) степенью свободы.

Контрольные вопросы к разделу 6

1.Способы оценки зависимости между номинальными (классификационными) показателями.

2.Матрица (таблица) сопряженности.

3.Коэффициент сопряженности.

4.Мера связи Чупрова.

5.Способы оценки независимости между двумя порядковыми показателями.

6.Ранговые индексы корреляции Спирмена и Кендалла.

7.Способ проверки независимости порядковых факторов

X1,X2,…,Xm.

7.ВЕРОЯТНОСТНЫЕ ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ

Основоположником теории информации является американский инженер К.Э. Шеннон. Клод Шеннон предложил способ измерения количества информации с помощью числа — энтропии. Энтропия дискретной случайной величины — это минимум среднего количества бит, которое нужно передавать по каналу связи о текущем значении данной дискретной случайной величины.

7.1. Энтропия простой системы

Пусть система X может находиться в одном из l возможных состояниях с той или иной вероятностью.

Таблица 8

Состояния системы

Х

 

x1

 

 

 

xk

Р

 

p1

 

 

 

pk

 

 

 

 

k

 

 

 

Причем выполняется условие pi

1. Энтропией системы

 

 

 

 

i 1

 

 

 

X при измерении

в

битах называется

величина

k

H(X) pi log2 pi 0. Свойства энтропии:

i1

1.H(X) = 0, если i: pi= 1, иначе говоря, если X — константа.

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]