Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных

.pdf
Скачиваний:
9
Добавлен:
24.03.2024
Размер:
15.15 Mб
Скачать

Глава 12. Анализ связи (корреляции, ассоциации) двух признаков

то имеются основания попробовать интерпретировать стоящие за ней биологические закономерности. Подчеркнем еще раз, что

наличие корреляIJИИ между двумя признаками вовсе не означает

обязательного наличия прямой причинно-следственной связи

между ними. Вполне возможно, что согласованные изменения

обоих признаков есть следствие вариаIJИИ некоторого третьего

признака.

Рекомендуемое представление результатов:

-приведите значение коэффиIJиента корреляIJИИ r (с точно­

стью до двух значащих IJИфр);

-укажите название примененного метода корреляIJионного ана­

лиза;

приведите точное значение р;

укажите число анализируемых пар признаков (для каждой пары признаков это могут быть разные числа, желательно привести их все);

приведите 95% ДИ для наиболее важных коэффиIJиентов

корреляIJИИ (о расчете ДИ см. раздел 12.3) с IJелью интер­

претаIJИИ биологической или клинической значимости связи;

-для наиболее важных результатов для наглядности желатель­

но представить график рассеяния объектов исследования в

координатах, соответствующих двум исследуемым признакам

(построение графиков иниIJиируется кнопкой "2М рассея­

ния" ("20 scatteгp.") в диалоговом окне (см. рис. 12.1)).

Чем сильнее связь, тем более вытянуто облако наблюдений вдоль линии тренда (рис. 12.3);

-если изучались связи нескольких признаков, удобно предста­ вить результаты в виде корреляIJионной матрИIJЫ с обяза­

тельным указанием значений р.

12.2. Непараметрические методы

(методы Спирмена, Кендалла, гамма)

Задача: исследовать связь двух признаков в любом из сле­

дующих случаев:

-анализируются два количественных признака, и нет сведений

о виде их распределений;

-ранее установлено, что по крайней мере одно из распределе­

ний анализируемых количественных признаков не является

нормальным;

191

Статистический анализ медицинских данных ...

алее...

.. . ..

INDUR_1 vs. AТROF_1 (Построчное удаление пдJ

 

 

ATROF_1 =.32292 + .41643 * INDUR_1

 

 

Коррепяция: r =.59051

З.5

~-~--~-~----~--~-~---.

З.О

 

··· О

-

l:J

х

:;:1 о

~

2.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о

 

 

 

 

2.0

 

 

 

 

О·

 

 

о

 

 

 

 

 

 

 

 

 

 

1.5

 

 

 

00

о

 

 

 

 

1.0

 

 

 

 

 

 

 

о 6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о

о

о

 

О.О

 

 

 

 

 

 

 

 

 

-0.5

~----~-~--~-~--~----~

-0.5

О.О

0.5

1.0

1.5

2.0

2.5

З.О

З.5

 

 

 

 

 

INDUR_1

 

 

 

 

'о...

Реrрессия 95% довер

.

Рис.

12.3.

График

рассеяния

при

анализе

корреля.уионной

связи.

анализируются

количественный и

качественный

порядковый

признаки; анализируются

два

качественных

порядковых

признака.

Пример

:

анализ

связи

конgентраgии

холестt:рина

в

плазме

крови и степени атеросклероза сонных артерий. Решение: для анализа данных такого типа необходимо

при­

менять

метод

непараметрического

корреляgионного

анализа

.

В

ППП

STAТISTICA

представлены

следующие

непараметрические

методы

корреляgионного

анализа:

-

ранговая корреляgия по

Спирмену (р); метод рекомендуется

использовать для оgенки

взаимосвязи количественных (неза­

висимо

от

вида

распределения)

и/или

порядковых

призна­

ков; ранговая

корреляgия

по

Кендаллу

(t);

метод

рекомендуется

использовать

для

оgенки

взаимосвязи

двух

порядковых при­

знаков

или

порядкового

и

количественного

признаков;

гамма-корреляgия;

рекомендуется

использовать,

когда

в

дан­

ных

имеется

много

совпадающих

значений.

С помощью этих методов

гипотезу об отсутствии связи

проверяют

нулевую статистическую

признаков,

т.е. о том, что коэффи-

192

Глава

12.

Анализ

связи

(корреляции,

ассоциации)

двух

признаков

gиент

корреляgии

равен

нулю.

Если

нулевая

гипотеза

отклоняет­

ся, то следует принять альтернативную

фиgиент корреляgии не равен нулю.

гипотезу

о

том,

что

коэф­

STАТISТICA:

 

~

Модуль

"Непараметрические

 

("Nonpaгametrics/Distrib.")

статистики"

~

Проgедура "Корреляgии

(Спирмена, тау

Кендалла, гамма)"

 

("Correlations (Speaпnan,

Kendall tau,

gamma)")

В

диалоговом

окне

(рис.

12.4)

необходимо

указать

следую­

щее:

-

анализируемые

переменные

в

двух

списках

для

получения

результатов

корреляgионного

анализа

каждого

признака

из

-

-

первого списка с

каждым признаком

второго

списка;

 

 

метод

корреляgионного анализа

"Корреляgия:

Спирмена R",

"... тау

Кендалла"

или "... гамма";

 

 

 

 

 

 

"

 

 

 

~

 

ычислить:

П

 

роб

~

 

("Со

m-

рекомендуемыи режим

 

 

од

ныи отчет

 

 

pute: Detailed report").

 

 

 

 

 

 

 

 

 

 

!j;j

Переменнь~е

 

 

Список 1: VAR1

Список переменнь~х 2:

VAR2

Корреляция:

i~спи~р_м~е_на R~~~~~~~~..=I:J

ВЬl.';!.ИСЛИТЬ:

1ПодробНЬIЙ отчет

_:!I

а

.Матричная диаграмма

 

Отмена

Рис. 12.4. Диалоговое

разделе "КорреляIJИИ "Непараметрические

окно "Непараметрические корреляIJии" в

Спирмена, тау

Кендалла, гамма"

(модуль

статистики").

 

 

После

выполнения

анализа

по

указанным

признакам

на

эк­

ран выводится таблиgа, содержащая число пар признаков, значения коэффиgиента корреляgии,

анализируемых значения р.

193

Статистический анализ медицинских данных ...

Вызов программы "Матричная диаграмма" ("Matrix plot")

иничиирует построение и выведение на экран графиков рассея­

ния.

Интерпретация результатов анализа и рекомендуемое их представление аналогичны таковым для пирсоновской коррелячии

(см. раздел 12.1).

12.З. Доверительный интервал для коэффициента корреляции

Не приводя математического обоснования расчетов, опишем

способ построения ДИ для коэффичиента коррелячии (к сожале­

нию, этот алгоритм не реализован в ППП STAТISТICA). Данный способ может применяться для расчета ДИ как для пирсоновско­ rо коэффичиента коррелячии, так и для коэффичиентов корреля­

чии, рассчитанных непараметрическими методами в тех случаях,

если объем выборки превышает 10.

1. Вычисляется значение функчии z:

l+r z=0,5·ln--

l-r

2. Вычисляется стандартная ошибка т, для z:

1

т.= ,-:::

vn-3 '

где п - число объектов исследования, для которых рассчитывал­

ся r.

3. Вычисляются нижняя гранича <:1 и верхняя гранича <:2 ДИ

для величины z:

z1=z-txm, z2=z+txm,.

где t - значение t-критерия для данного числа степеней свободы df=n-1 и заданного уровня значимости. Точное значение t мож-·

но узнать, воспользовавшись следующей прочедурой.

STAТISТICA:

--+ Модуль "Основные статистики и табличы"

( "Basic statistics / TaЬles")

--+ Подмодуль "Вероятностный калькулятор"

(" PгobaЬility calculatoг")

194

Глава 12. Анализ связи (корреляции, ассоциации) двух признаков

В диалоговом окне (см. рис. 7.9) необходимо выполнить следую­

щее:

-выбрать вид распределения "t Стьюдента" ("Student t test");

-выбрать ОПIJИИ "Обратная ф.р. " , вусторонняя" ( wo-s1"d-

еd") и "1-ф.р. ,

-задать число степеней свободы "Ст. св." ("df'), df=n-1;

-задать значение р (например, 0,05 для вычисления гранич

95°1о ДИ);

-нажать кнопку ычислить" ("compute") .

Искомое значение t появится в окне "t".

4. Вычисляются нижняя и верхняя граничы ДИ для коэффи­

чиента коррелячии r:

ИнтерпретаIJИЯ ДИ для коэффиIJиента корреЛЯIJИИ.

Можно считать с вероятностью, соответствующей доверительно­

му коэффичиенту (с вероятностью 95°1о при построении 95°1о

ДИ), что истинное значение коэффичиента коррелячии нахо­

дится в рассчитанных граничах.

12.4. Сравнение двух коэффициентов

корреляции

Весьма полезно производить проверку статистических гипо­

тез о равенстве коэффичиентов коррелячии (одного знака), по­

лученных в разных группах объектов исследования. Особенно важ­

но сравнивать их между группами "больных" и "здоровых".

Задача: сравнить два коэффичиента коррелячии, т.е. устано­ вить, случайны ли их различия.

Пример: в одной группе наблюдений (больные с ишемиче­ ским инсультом) коэффичиент коррелячии тяжести инсульта (сумма баллов по Скандинавской шкале степени неврологиче­

ского дефичита) и уровня артериального давления составил 0,45

(р=О,011), в другой группе наблюдений (больные с геморраги­ ческим инсультом) коэффичиент коррелячии оказался равным

0,56 (р=О,023). Требуется установить, случайны ли различия

между двумя коэффичиентами коррелячии.

195

Статистический анализ медицинских данных ...

Решение: могут использоваться два подхода:

1) вычисление ДИ для каждого из коэффиqиентов корреляqии и последующее их сравнение. Если ДИ пересекаются, то ко­

эффиqиенты корреляqии статистически значимо не различа­

ются (их различие носит случайный характер);

2) проверка гипотезы о равенстве коэффиqиентов корреляqии. При применении статистического теста происходит провер­

ка нулевой статистической гипотезы об отсутствии различий

между коэффиqиентами корреляqии. Если нулевая гипотеза

отклоняется, то следует принять альтернативную гипотезу о

СУUJествовании различий между коэффиqиентами корреляqии. Первый подход очевидно ясен из раздела 12.3. Рассмотрим

второй подход подробнее.

STАТISТICA:

~Модуль "Основные статистики и таблиqы"

( "Basic statistics/ТаЫеs")

~ Подмодуль "Другие критерии значимости" ("ProbaЪility calculator" - кнопка "More"

вверсии STATISТICA 4.*)

~Проqедура "Различие между двумя

коэффиIJИентами корреляqии" ( "Difference between two correlation coefficients") (рис. 12.5)

Опции:

-двусторонний тест (если нет теоретического обоснования того,

что один из коэффиqиентов корреляqии заведомо больше

другого);

-односторонний тест (если есть такое теоретическое обосно­ вание, и требуется лишь установить, являются ли различия статистически значимыми).

После введения значений коэффиqиентов корреляqии и со­ ответствующих объемов двух выборок необходимо нажать· кноп­

ку "Вычислить" ("Compute"). Будет вычислено значение р при

проверке гипотезы об отсутствии различий между указанны­ ми коэффиqиентами корреляqии.

Интерпретация результатов. Полученные результаты

можно интерпретировать следующим образом.

- Если р>О,05, то нулевая гипотеза об отсутствии различий

между коэффиqиентами корреляqии не отклоняется.

196

Статистический анализ медицинских данных ."

Глава 13. Многофакторный анализ

данных

В предыдущих главах мы рассматривали задачи одномерного

идвумерного анализа данных:

-сравнение групп по одному признаку или группе признаков,

при этом каждый признак анализировался отдельно от дру­ гих (одномерный анализ);

анализ взаимосвязи (корреляgии, ассоgиаgии) двух призна­

ков (двумерный анализ).

Помимо перечисленных методом двумерного анализа являет­ ся таюке однофакторный регрессионный анализ - частный слу­ чай многофакторного регрессионного анализа (будет рассмотрен

в главе 14).

Кроме одно- и двумерного анализа существует также боль­ шое разнообразие методов многофакторного анализа данных,

которые позволяют анализировать одновременно три признака и

более. К самым популярным методам многофакторного анализа

данных относятся, в частности, следующие:

-регрессионный анализ (см. главу 14);

-многофакторный дисперсионный анализ (см. раздел 13.1);

-дискриминантный анализ (см. раздел 13.2);

кластерный анализ (см. раздел 13.3);

-анализ главных компонент и факторный анализ (см. раздел

13.4).

В настоящем издании мы считаем gелесообразным более под­ робно остановиться лишь на первом из них, поскольку для кор­

ректного использования методов многофакторного анализа тре­

буется достаточно глубокое знание статистики, в связи с чем мы настоятельно рекомендуем проводить такую работу совместно со

спеgиалистом по прикладной статистике. Однако в данной главе нам все же хотелось бы дать информаgию читателю-врачу о тех

задачах, которые могут быть решены с помощью этих методов.

198

Глава 13. Многофакторный анализ данных

Замечание. Выполнение мноzофаюпорноzо анализа дан­ ных и особенно интерпретация результатов любою из этих

методов - достаточно сложная и ответственная задача! В двух последних разделах данной главы мы остановимся на

общих проблемах многофакторного анализа данных:

-анализ наблюдений с пропущенными значениями (см. раздел

13.5);

-проверка работоспособности ( валидизаgия) многомерных мо­

делей (см. раздел 13. 6).

13.1. Многофакторный параметрический дисперсионный анализ

Ранее (см. раздел 8.4.1) мы рассмотрели наиболее простой

вариант дисперсионного анализа - анализ нескольких групп по

одному количественному признаку. В данном разделе мы рас­ смотрим более сложную ситуаgию.

Задача: исследовать, зависит ли значение количественного нор­ мально распределенного признака от значений двух и более ко­

личественных или качественных признаков (факторов) одновре­

менно (для оgенки одновременных эффектов на зависимый при­ знак).

Пример: изучить, зависит ли артериальное давление от пола и

возрастной группы.

Решение: многофакторный параметрический дисперсионный анализ оgенивает влияние двух и более качественных или количе­ ственных независимых признаков (факторов) на один количест­

венный зависимый признак.

Условия применимости метода:

-нормальность распределения количественного признака во

всех сравниваемых подгруппах;

-равенство дисперсий количественного признака во всех срав­

ниваемых подгруппах.

Проверка выполнимости этих требований была описана выше

(см. разделы 7.1 и 8.4.1.1 соответственно). В случае, если данные

не отвечают перечисленным условиям применимости метода,

результаты применения многофакторного дисперсионного ана­

лиза оказываются смещенными (искаженными). Подробно по­ следствия нарушения этих требований описаны в литературе (27,

28].

199

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение