Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

Часть 2

16.Линейная регрессия

До сих пор мы рассматривали статистические оценки, доступные исследователю при различных типах переменных. Мы оценивали различные параметры, интерпретировали их, объясняя гипотезу исследования. Теперь будем знакомиться со статистическими моделями.

Ремарка: Основной вопрос, на который должна ответить статистическая модель: дает ли модель, которая включает предполагаемый предиктор (фактор) больше информации о зависимой переменной, чем модель, которая не включает этот предиктор?

В статистических моделях обычно присутствует три компонента: случайный (random component), который идентифицируется как зависимая переменная (результат воздействия, эффект, исход наблюдения) y и предполагает, что в основе

переменной

y лежит некоторое распределение; систематический

(systematic

component),

который содержит предиктор

x или комбинацию предикторов

x1 ,x2 , ,xn

, т.е. правая часть модельного

уравнения; и функцию

связи (link

function), которая определяет функцию от ожидаемых (средних) значений y , стоящего в левой части модельного уравнения.

Ремарка: Мы сторим модель поведения переменной y от значений предиктора x . При этом, как правило, предметом интереса исследования является предиктор x , а не зависимая переменная y .

16.1.Простая линейная регрессионная модель

Самая первая модель – модель линейной регрессии с количественной переменной – исходом и количественным предиктором (независимой переменной модели).

Ремарка: Основное свойство линейных моделей (не обязательно статистических): приращение зависимой переменной пропорционально приращению независимой переменной.

Прежде чем перейти в к рассмотрению линейной регрессионной модели, напомним уравнение прямой: y kx b, где k – угол наклона прямой.

При k 0, y возрастает при возрастании x . При k 0, y убывает при возрастании x . При k 0, прямая параллельна оси абсцисс.

b является показателем ординаты точки пересечения прямой с осью ординат, т.е. при x 0, y b.

При b 0, прямая проходит через начало координат.

Приращение x на 1 единицу шкалы оси абсцисс вызывает пропорциональное изменение y на k единиц шкалы оси ординат.

Теперь рассмотрим простую линейную регрессию. Основная цель этой модели

– описать, как среднее значение зависимой переменной y изменяется при изменении единственной независимой переменной – предиктора x .

131

Ремарка: В контексте нижеследующего изложения предиктором называется некоторый показатель исследования, который несет некоторый биологический, клинический, эпидемиологический и др. смысл для исследователя. Переменная – это часть модели, которая имеет некоторое математическое описание. Иногда предиктор представляется несколькими переменными в модели, иногда переменная сама является некоторой функцией от значений предиктора (преобразование переменной) или нескольких предикторов.

В линейной модели предполагается, что, изменения в одной случайной переменной приводят к пропорциональным изменениям в другой случайной переменной, т.е. предполагается, что средние значения y лежат на линии регрессии

(линии средних). Систематический компонент модели:

E y| x 0 1x ,

Где E y|x – ожидаемое (среднее) значение y при данном x ;

β1 уклон линии регрессии, который интерпретируется как изменение в среднем значении y при изменении переменной x на одну единицу;

β0 пересечение, среднее значение y при x 0.

Случайный компонент модели: предполагается, что переменная y случайна1. Каждая пара наблюдений xi , yi выборки может быть представлена как:

yi E y | xi i 0 1xi i , где i – номер наблюдения в выборке, εi – ошибка.

Функция связи в данном случае – тождественна y : f y y (identity link function)2.

Статистические предположения, лежащие в основе модели, касаются распределения случайной величины ε . Предполагается, что i ~ N 0, 2 , т.е., что ошибка независима, одинаково распределена и

1.Имеет нормальное распределение;

2.Имеет среднее значение 0 для любого значения x ;

3.Имеет постоянную дисперсию 2 для любого значения x ;

4.Значения ошибки статистически независимы.

Первое предположение означает, что модель "устраняет" из значений переменной y вариацию, связанную с переменной x , а оставшаяся вариация носит

полностью случайный характер, второе предположение важно для проверки того, что связь между зависимой переменной y и переменной-предиктором x

действительно линейна, третье предположение касается гомоскедастичности (постоянной вариации y при любых значениях x ), четвертое – связано с

независимостью наблюдений.

1 Изучение регрессии основано на том, что случайные величины x и y , имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении x X величина y является случайной величиной с определенным (зависящим от значения x ) условным распределением вероятностей. Регрессия величины y по величине x определяется условным математическим ожиданием y , вычисленным при условии, что x X . Линейная регрессия предполагает пропорциональное изменение математического ожидания y при изменении x .

2 В отличие от уравнения прямой, в котором мы можем выразить x как функцию от y , x f 1 y , для уравнения линейной регрессии такое обратное преобразование неверно.

132

Позже будет показано, как изменяются модели при нарушении одного из предположений.

В простой линейной регрессии для переменной y часто выдвигается

предположение о "нормальности" ее распределения1. Для переменной-предиктора x не делается никаких предположений о виде распределения.

Коэффициенты регрессии носят название общее название параметров модели; β1 – уклон (slope), коэффициент при переменной модели; β0 – пересечение

(intersept), свободный член уравнения регрессии. Обычно о коэффициентах говорят, как о параметрах модели. Если в линейной модели есть свободный член β0 , то

количество параметров будет на единицу больше количества переменных. Обычно количество переменных обозначается p , таким образом, q p 1 – это количество

параметров модели ( с учетом β0 ).

Линия простой линейной регрессии полностью определяется этими двумя коэффициентами (параметрами модели) и задача исследователя – найти оценки

параметров βˆ0 и βˆ1 2. Нахождение этих оценок иначе называется подгонкой модели

(model fittng). Не вдаваясь в подробности математических подходов, можно сказать, что для линейной модели чаще всего используется оценка (подгонка модели) методом наименьших квадратов (Least Squares Estimation), метод минимизирует сумму квадратов отклонений переменной y от линии регрессии.

 

 

N

 

 

 

βˆ1

 

xi x yi y

; βˆ0 y βˆ1x .

 

i 1

 

 

 

N

 

 

 

xi x 2

 

i 1

Врезультате мы получим уравнение регрессии для i -го наблюдения:

yˆi βˆ0 βˆ1xi , yˆi – подходящее, ожидаемое значение (fitted value) для i -го наблюдения.

Разность ei yi yˆi называется величиной остатка (residual) i -го наблюдения.

Поскольку метод наименьших квадратов использует сумму вариаций (отклонений), то аналогично предыдущему разделу мы можем записать:

N

 

 

 

 

 

 

TSS yi y

2

– общая (Total SS) сумма квадратов ( рассеяние переменной

i 1

 

 

 

 

 

 

y );

 

 

 

 

 

 

N

 

N

 

βˆ1xi 2

 

 

RSS yi yˆi 2

yi

βˆ0

– сумма квадратов остатков (рассеяние

i 1

 

i 1

 

 

 

 

переменной y относительно линии регрессии – Residual SS);

 

N

 

N

βˆ1xi y 2

 

 

MSS yˆi y 2

βˆ0

– сумма квадратов модели

(Model SS)

i 1

 

i 1

 

 

 

 

(рассеяние оценок

переменной

y ,

полученных по уравнению

регрессии

относительно среднего y );

MSS TSS RSS .

1Это теоретический вопрос в области статистических моделей, который дискутируется по сей день.

2Символ “^” над параметром означает его оценку по имеющемуся набору данных, расчетное значение.

133

Среднеквадратичная ошибка (mean squared error) рассчитывается как MSE NRSSq , где N – количество наблюдений, в общем случае N q – это степени

свободы модели, q – количество параметров модели, обычно q p 1 , в случае простой регрессии с одной переменной, т.е. с двумя параметрами N q N 2 .

Для исследования связи предиктора x и зависимой переменной y тестируют нулевую гипотезу, которая гласит, что H0 : β1 0, т.е. нет систематической связи

между x и

y . Альтернативная гипотеза утверждает,

что HA : β1 0. Наиболее

подходящим

тестом является F-критерий, который

показывает, значимо ли

снижается вариация в результате использования модели; для модели с одной

переменной статистика рассчитывается как

F

 

MSS

 

,

 

статистика F подчиняется

 

MSE

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределению Фишера с 1;N 2 степенями свободы (см. раздел 16.7).

 

 

Также для проверки гипотезы используется критерий Вальда (Wald test). Он

 

 

t-тесту: T

βˆ1 β1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

аналогичен

SE βˆ

 

. Поскольку

нулевая

 

гипотеза предполагает, что

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H0 : β1 0, то T

 

βˆ1

 

 

.

Статистика T подчиняется распределению Стьюдента с

SE βˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N q N 2 степенями свободы, SE βˆ1 – стандартная ошибка оценки параметра βˆ1 ,

рассчитанная по имеющимся данным.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доверительные интервалы для параметров рассчитываются как:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SˆE βˆ

 

 

SE βˆ

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

βˆ

t

γ ; N 2

;

 

MSE

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi x 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

Также рассчитывается доверительный интервал для βˆ0 :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SE βˆ

 

 

SE βˆ

 

 

 

 

1

 

 

x2

 

 

 

 

 

 

 

βˆ

t

γ ; N 2

;

 

MSE

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

0

 

 

 

0

 

 

 

 

 

N

N

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

где tγ ; N 2 – значение γ -квантиля

распределения Стьюдента

с

N 2

степенями

свободы,

 

 

 

γ 1 α

 

для

 

двустороннего

интервала,

т.е.

для

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α 0,05

γ 0,975,

для одностороннего интервала γ 1 α ;

 

 

 

Если доверительный интервал не содержит нуля, то истинное значение β1

отлично от нуля с доверительной вероятностью 1 α .

 

 

 

 

 

Если βˆ1 значимо больше нуля, то связь между

 

y и x будет положительной,

если βˆ1

значимо

меньше нуля

– то отрицательной.

 

В

общем случае, уровень

значимости р критерия Вальда, и доверительные интервалы важны для понимания статистических результатов модели, более глубоких, чем ответ на вопрос – значима ли связь между пердиктором и зависимой переменной или нет.

Доверительный интервал (confidence limits) для точки линии регрессии равен:

134

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

yˆ

 

t

γ ; N 2

MSE

 

 

xi x

 

 

.

i

N

N

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi x

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

На основе формулы для доверительного интервала строится очень распространенный график взаимосвязи двух переменных с линией регрессии и доверительным интервалом (см. рис.16–1).

Если мы хотим осуществить предсказание ynew для нового значения xnew , то:

ynew βˆ0 βˆ1xnew ;

Доверительный интервал для ynew (prediction limits):

 

 

 

 

 

 

 

 

βˆ

 

 

t

 

 

1

 

βˆ x

 

 

MSE 1

 

 

γ ; N 2

N

0

1

new

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

xnew x

 

.

N

 

 

xi x 2

 

 

i 1

 

 

Все вычисления доверительных интервалов проводятся в предположении, что ошибка распределена нормально. Если это не так, то интервал может быть рассчитан неверно.

Можно построить на одном графике точечный график пар точек xi , yi ,

линию регрессии yˆ βˆ

βˆ

x , доверительные интервалы для линии регрессии и

0

1

 

доверительные интервалы для предсказанных значений (пример представлен на рис. 16–1). Эта информация наглядно представляет результаты подгонки модели линейной регрессии.

Рис. 16–1. Линия регрессии и доверительные интервалы для среднего и для предсказанных значений

Таким образом, коэффициент β1 является мерой эффекта: изменение величины x на 1 вызывает изменение y в среднем на β1 .

135

Коэффициент корреляции Пирсона между y и x (см. раздел 9) связан с β1 как

r βˆ1sx s y , где sx и s y – стандартные отклонения переменной x

и

y . Таким

образом тестирование гипотезы H0 : β1 0 эквивалентно H0 : ρ 0,

т.е.

быстрая

проверка (см. раздел 9) может осуществляться без построения простой линейной регрессии.

Квадрат коэффициента корреляции для простой линейной регрессии будет равен коэффициенту детерминации r2 R2 MSSTSS . R2 интерпретируется как доля

вариации, которая может быть объяснена предиктором. R2 не является мерой качества подгонки модели. R2 не является мерой величины уклона.

16.1.1. Корреляция vs регрессия

Корреляция определяет степень, в которой две переменные ассоциированы друг с другом. Корреляция не находит наиболее подходящую линию для выявления этой ассоциации. Мы просто вычисляем коэффициент корреляции ( r ), который свидетельствует о том, насколько одна переменная имеет тенденцию меняться при изменении другой.

Вычисляя корреляцию, исследователь может не сопоставлять переменным причину и следствие. Эта количественная оценка того, насколько хорошо две переменные связаны друг с другом. При регрессионном анализе предполагается, что есть причина и следствие, и линия регрессии – это способ, как наилучшим образом предсказать y от x в среднем.

В корреляционном анализе не имеет значения, какая из двух переменных, называется x , а какая y . Коэффициент корреляции не изменится, если их поменять

местами. В линейной регрессии это не так. .Линия, которая лучше предсказывает y на основании x не то же самое, что и линия, которая предсказывает x от y .

Корреляционный анализ чаще используется при измерении обеих переменных. Но его не стоит использовать, когда одной переменной манипулируют экспериментально (например, доза препарата или комбинации препаратов). В линейной регрессии, переменная x чаще неслучайна, а переменная y – изучается

как результат воздействия переменной x .

16.2.Линейная регрессия с бинарным предиктором

Уравнение такой модели не отличается от предыдущей:

E y | x β0 β1x .

Предположим, переменная x имеет только два состояния (0; 1), т.е. бинарная.

Для случая, когда x 0, уравнение

примет вид E y| x 0 β0 , для случая,

когда x 1, E y| x 1 β0 β1 . Различие

в средних при x 0 и x 1 составит

E y| x 1 E y| x 0 β0 β1 β0 β1 .

 

Поскольку у нас в левой части уравнения стоит среднее по переменной y , β1 интерпретируется не только как величина (эффект) изменения среднего у на

единицу изменения предиктора x . Более правильно ее трактовать как разность в средних для двух групп.

136

Нулевая гипотеза, которая гласит, что H0 : β1 0, равнозначна гипотезе об отсутствии различий в средних для двух групп (см. раздел 12).

16.3.Линейная регрессия с мультиноминальным предиктором

Предположим, у нас есть предиктор, который представляет собой мультиноминальную переменную ν (упорядоченную или неупорядоченную). Ее значения – это 5 категорий (ν1, v2, v3, v4, v5). Наиболее часто используется

следующий подход: вместо одной категориального предиктора создается несколько переменных модели (на единицу меньше, чем количество категорий в исходном предикторе ν ). Такие переменные называются индикаторными (в англоязычной литературе встречается название dummy variable или indicator).

Эти переменные кодируются как индикаторы состояния (Табл. 16–1):

Таблица 16–1. Кодирование индикаторных переменных

 

I2

I3

I4

I5

 

 

 

 

 

ν1

0

0

0

0

 

 

 

 

 

ν2

1

0

0

0

 

 

 

 

 

v3

0

1

0

0

 

 

 

 

 

v4

0

0

1

0

 

 

 

 

 

v5

0

0

0

1

 

 

 

 

 

Тогда модель запишется как

E y | x β0 β2 I2 β3 I3 β4 I4 β5 I5.

Если обратить внимание на кодировку этих переменных, то категория ν1 выбрана в качестве референтной группы, относительно которой будут оцениваться все остальные, а уравнение примет вид:

 

 

β0 ,

v v1

 

 

β2 ,

v v2

β

0

 

 

β3 ,

v v3

E y | x β0

β

 

β

 

,

v v4

 

0

 

4

 

 

β

0

β

5

,

v v5

 

 

 

 

Интерпретация коэффициентов βi – это разность в средних переменной y

между референтной категорией (группой) и i -ой категорией. Таким образом, рассчитываются эффекты остальных групп относительно референтной.

Основные особенности такой модели:

1.Данная модель в отсутствии других предикторов полностью повторяет однофакторную ANOVA.

2.Выбор референтной группы зависит от исследователя, многие статистические пакеты выбирают референтную группу автоматически по наименьшему/наибольшему номеру группы.

3.Разность средних между двумя любыми группами также определяется из данной модели. Например – разность между средними группы v4 и v5 определяется

как β4 β5 .

137

И для биноминальной переменной-предиктора, и для мультиноминального предиктора (состоящего из нескольких переменных модели) может использоваться критерий Вальда для проверки значимости коэффициентов.

Исследуя модель с одним мультиноминальным предиктором, мы получили модель с несколькими переменными. Нужно заметить, что количество оцениваемых параметров больше, чем предикторов. Т.е. для изучения количественного предиктора использовалась модель с двумя параметрами, для изучения бинарного предиктора – тоже. Мультиноминальный предиктор порождает модель с бóльшим числом параметров.

16.4. Линейная регрессионная модель с несколькими предикторами

Необходимость создания модели с несколькими предикторами может быть продиктована такими ситуациями как:

изучение нескольких предикторов, влияющих на изучаемый результат; изучение предиктора и возможного влияния вмешивающихся переменных.

Для модели с несколькими предикторами (несколькими независимыми переменными) можно записать:

E y | x β0 β1 x1 β2x2 βp xp ,

где x – это набор (вектор) переменных x 1 , x 2 , , x p .

β0 β1 x1 β2x2 βp xp – называется линейной комбинацией переменных. Модель представляет собой зависимость среднего значения y от линейной комбинации переменных.

Каждый коэффициент модели β1 ,β2 , ,β p интерпретируется как изменение среднего E y|x при изменении предиктора на единицу при том условии, что все остальные переменные постоянны (фиксированы). β0 интерпретируется как среднее значение E y|x , когда все переменные равны нулю.

Случайный компонент модели:

yi E yi | xi εi β0 β1 x1i β2x2i βp xpi εi

По-прежнему предполагается, что εi ~ N 0,σε2 , т.е., что ошибка независима, одинаково распределена и

1.Имеет нормальное распределение;

2.Имеет среднее значение 0 для любого значения x ;

3.Имеет постоянную дисперсию σ ε2 для любого значения x ;

4.Значения ошибки статистически независимы.

Коэффициент детерминации R2 MSSTSS интерпретируется как доля вариации,

которая может быть объяснена предикторами. Естественно, он не совпадает с частными коэффициентами корреляции между зависимой переменной y и каждой

переменной x в отдельности. В 16.1 показано, что в случае простой линейной регрессии параметр уклона β1 связан с коэффициентом корреляции Пирсона.

Коэффициент корреляции, который не зависит от шкалы измерения переменных, может помочь в сравнении силы связи различных переменных. В мультипредикторной модели такую роль играют стандартизированные

138

коэффициенты регрессии βˆ js βˆ j sx j sy , где sx j и s y – выборочные стандартные отклонения переменной x j и переменной y . Стандартизированные коэффициенты

регрессии интерпретируются как сила связи переменной (предиктора) с зависимой переменной y в рамках построенной модели. Сравнение силы связи имеет смысл,

когда в модели несколько количественных предикторов.

Однако, для категориальных предикторов лучшей интерпретацией являются нестандартизированные коэффициенты, которые оценивают разность в средних переменной y между двумя или несколькими группами, при условии что остальные

переменные модели фиксированы, т.е. разность в средних между группами.

В общем случае, предикторы могут быть представлены либо количественной переменной, либо биноминальной, мультиноминальная переменная сводится к набору индикаторных биноминальных переменных.

F -критерий Фишера используется для проверки как общей гипотезы о значимости модели, H0 : β1 β2 0, так и для проверки частных предположений,

например: H0 : β2 0 .

Тест Вальда (Wald) может также использоваться для поверки значимости как каждого параметра модели, так и комбинации переменных в модели. SE βˆi

рассчитываются сложнее, чем в случае с одной переменной, но расчет доверительных интервалов для коэффициентов регрессии производится аналогично модели с одной переменной, с учетом степеней свободы t- распределения.

16.5.Понятие конфаундера, ковариационный анализ

Ковариата – это переменная,относящаяся к пациенту (например: пол, возраст, раса и др.), которая может быть как связана, так и не связана с изучаемым исходом.

Если ковариата связана с воздействием/фактором риска и исходом одновременно, это ковариата является конфаундером.

Конфаундер – это ковариата, которая связана как с воздействием/фактором риска, так и с исходом. Конфаундер может изменять (повышать или понижать) вероятность исхода (рис.16-2).

Рис.16–2. Различия в средних двух групп с учетом ковариаты.

139

Вмешивающийся фактор (конфаундер, конфаундинг-фактор, неучтенный фактор) — переменная, искажающая оценку влияния на зависимую переменную(эффект, исход) изучаемого фактора из-за того, что эта переменная одновременно имеет причинную связь с рассматриваемым заболеванием (состоянием) и статистическую связь с изучаемым фактором. Конфаундер обычно находится вне интересов исследования, однако его влияние приводит к возникновению систематической ошибки.

Например, известно, что мужчины чаще, чем женщины, болеют ишемической болезнью сердца. Однако это может быть связано не с исследуемым фактором (пол), а с тем, что мужчины чаще курят, больше подвергаются стрессам и пр.

Есть несколько способов удалить влияние конфаундера, т.е. систематическую ошибку еще на стадии дизайна. Первый – это сравнивать между собой наблюдения, которые имеют одно и то же значение конфаундера, что ведет к стратифицированному дизайну исследования, который в свою очередь требует больших объемов наблюдений. Второй способ – сравнивать только те группы, которые имеют одинаковые распределения конфаундера. На стадии дизайна это называется подбор (например, “matched pairs”). Рандомизация – это еще один способ минимизировать систематическую ошибку в исследованиях.

Включение в регрессионную модель конфаундера позволяет уточнить влияние исследуемого фактора на исход.

В традиционных статистических приложениях такой анализ называется ковариационным анализом (analysis of covariance), в клинико-эпидемиологических исследованиях этот анализ часто называется контролем влияния вмешивающихся переменных (control of confounding).

Предположим, у нас есть две группы и мы сравниваем средний вес в группах. Однако, если в группах разный возраст, то наше сравнение будет бессмысленно, поскольку различия в весе возможна из-за возраста. Необходимо устранить рассогласование в возрасте прежде, чем сравнивать группы.

В ковариационном анализе присутствуют номинальные переменные и количественные переменные. Для выполнения ковариационного анализа выдвигаются два предположения: связь между конфаундером x и переменной y

линейна и уклоны в каждой группе одинаковы. Графически это представлено на рис.

16–3.

Рассмотрим самый простой вариант этого анализа.

Пусть биноминальная переменная обозначена z , она принимает два значения 0 и 1, ковариата (количественная переменная) обозначена как x , зависимая переменная – как y . Статистическая задача: оценить различия между двумя

группами с учетом различий в распределениях ковариаты в группах. Без учета конфаундера оценка разности в средних равна yˆ1 yˆ0 (рис. 16–3) и совпадает с

разностью в средних по группам y1 y0 .

Пусть среднее по ковариате в группе, которая закодирована как 0 равно x0 , среднее по ковариате в группе с кодом 1 равно x1 .

140

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение