5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_медицинских_данных_Применение_пакета_прикладных
.pdfСтатистический анализ медицинских данных ...
четыре группы, в двух из которых применяется один из ви
дов лечения, в третьей - ни один из них, в четвертой -
оба);
-а.даптивная1 (по ходу исследования набор участников в группу,
получающую худшее, по предварительным оgенкам, лечение,
уменьшается);
-структура Зелена2 (участникам, распределенным в группу
изучаемого лечения, предоставляется возможность отказаться
от него и перейти в группу контроля).
Все перечисленные способы планирования исследования (кро ме первого) достаточно сложны. Для планирования испытаний с
такими типами структуры, а таюке для анализа получаемых при
этом данных настоятельно рекомендуется консультаgия стати
стика.
1.5.2. Распределение участников по группам
в рандомизированных клинических испытаниях
Основными способами распределения участников по груп-
пам в ходе РКИ являются следующие:
рандомизаgия;
минимизаgия;
псевдорандомизаgия.
Рандомизация - это случайное распределение участников РКИ, соответствующих критериям включения, по группам. lJе
лью рандомизаgии является достижение сопоставимости групп
по характеристикам, способным влиять на изучаемый результат РКИ. Таким образом сводятся к минимуму систематические ошибки в результатах РКИ, связанные с различиями групп как
по известным, так и по неизвестным факторам.
Говорят, что рандомизаgия эффективна, если полученные груп
пы сопоставимы.
Выделяют несколько типов рандомизаgии:
-простая;
-блоковая;
- стратифиgированная (другое название - стратификаgионная);
-кластерная.
1Adaptive design (англ.).
2Zelen's design (англ.).
30
Глава 1. Доказательная медицина ...
Проспшя рандомизация может проводиться несколькими спо собами:
1) с помощью подбрасывания монеты - это наиболее про
стой способ случайного распределения, если необходимо распре
делять участников РКИ по двум группам. В случае необходимо
сти создания больших выборок этот способ недостаточно наде жен; так как может проявиться асимметричность, т.е. деформа
gия, монеты;
2) с применением открытой таблиgы елучайных чисел (из
книг по статистике), если необходимо распределение на две груп
пы и более. Однако и этот способ рандомизаgии недостаточно
надежен;
3) с использованием компьютерной программы генератора случайных чисел (получение последовательности случайных чисел
с помощью ППП STАTISТICA описано в разделе 4.4). Этот спо
соб является оптимальным.
Полученная последовательность случайных чисел может ис
пользоваться разными способами:
-четные числа или gифры могут соответствовать одной группе,
анечетные - другой (в случае двух групп);
-если интервал возможных случайных чисел от О до 99, то
числа, меньшие 50, могут соответствовать одной группе, а большие или равные 50 - другой (в случае двух групп);
-в случае трех групп может быть принято такое правило: числа
от 1 до 33 соответствуют первой группе, от 34 до 66 - вто рой группе, от 67 до 99 - третьей группе (аналогично для четырех групп и более);
- если необходимое соотношение объемов групп заранее из вестно, но не равно 1, то случайное распределение таюке
легко сделать, разбив интервал значений последовательности
елучайных чисел на 2 (или более) интервала с необходимым
соотношением их размеров.
В результате простой рандомизаgии группы могут оказаться
значительно различающимися по числу участников, причем раз
личие оказывается весьма СУПJественным, если выборки невелики
по объему. В связи с этим простую рандомизаgию рекомендуется
использовать лишь в больших РКИ.
Для помержания равенства числа участников в группах раз
работан способ рандомизации бнутри блокоб. Это метод рандо
мизаgии, при котором больных, подлежащих включению в ис-
31
Статистический анализ медицинских данных ...
следование, условно разделяют на несколько равных групп ( бло
ков). В пределах каждого блока методы лечения распределяются
между больными с использованием рандомизаgии таким обра
зом, чтобы в итоге каждым методом лечилось заранее определен ное соотношение больных. Проведение такой рандомизаgии дос
таточно сложно, поэтому с этой gелью мы рекомендуем обра
щаться к статистику.
Несмотря на случайный характер распределения участников РКИ по группам, простая и даже блоковая рандомизаgия не га
рантирует получение сопоставимых групп, особенно если разме ры групп мальr. Хотя обнаруживаемые при этом различия групп
случайны, они (несмотря на свой случайный характер) таюке
могут влиять на результаты исследования. Для получения сопос тавимых групп gелесообразнее всего использовать стратифиgиро
ванную рандомизаgию.
Стратифициробанная рандомизация - рандомизаgия, ко
торой предшествует стратификаgия. Стратификаgия (расслое ние) - это выделение подвыборок (подгрупп) по какому-либо признаку (например, полу, возрасту), который предположитель
но может влиять на результаты исследования. Затем в каждой из
этих подгрупп рандомизаgия проводится независимо.
Стратификаgия необходима в исследованиях с ограниченным
количеством участников для достижения сопоставимости групп
по основным характеристикам.
Стратифиgированную рандомизаgию gелесообразно прово
дить в подгруппах, подобранных по одному или двум признакам, предположительно влияющим на исход. В случае 66льшего числа прогностических признаков и соответственно большого количе
ства подгрупп достижение сопоставимости становится маловеро
ятным, особенно если общее число участников исследования не
велико. Конечно, стратифиgированная рандомизаgия возможна
только по признакам, которые заранее известны и подлежат из
мерению. Пример схемы формирования групп в РКИ приведена
на рис. 1.3.
Кластерная рандомизация - это вариант стратифиgирован ной рандомизаgии, нри котором рандомизаgии подвергаются не отдельные участники РКИ, а медиgинские gентры (поликлини
ки, больниgы) или регионы, где она проводится (т.е. группы участников). Фактически в многоgентровых исследованиях стра
тифиgирующим признаком является сам медиgинский gентр.
32
Глава 1. Доказательная медицина ...
ПОПУЛЯЦИЯ
•Географическая (в эпидем. исслед.)
•Нозологическая (в кли.нич. исслед.)
КРИТЕРИИ ВКЛЮЧЕНИЯ,
ИСКЛЮЧЕНИЯ .......................
ВЫБОРКА
• Случайная (RANDOM) - в идеале
или
• Репрезентативная - в реальности
СТРАТИФИКАЦИЯ ··...
(расслоение) .. _
по какому-либо признаку, ····...-___ _
предположип:тьно влияющему на
изучаемый исход (например, по полу)
РАНДОМИЗАЦИЯ·········· |
··········-РАНДОМИЗАЦИЯ |
Рис. 1.3. Пример схемы формирования груnп с использованием
стратифицированной рандоМИ3аlJИИ.
Минимизация является единственным альтернативным спо
собом формирования групп, обеспечиваюIЦИМ их сопоставимость по нескольким прогностическим признакам (факторам), пред положительно влияюIЦИМ на исход. Минимизаqия основана на
других, нежели рандомизаqия, принqипах:
-очередного поступаюIЦего участника (кроме первого) отно
сят в ту или иную группу не случайным образом, а в зависи мости от ранее набранных в группы участников РКИ;
-очередного участника относят в ту группу, в которой суIЦест вуюIЦиЙ на данном этапе набора участников исследования
33
Статистический анализ медицинских данных ...
дисбаланс будет сведен к минимуму в результате этой проgе
дуры.
Техника минимизауии достаточно сложна, поэтому для ее
проведения мы рекомендуем обращаться к статистику.
Псе8дорандомизация - это неслучайное распределение по
группам, которое достаточно широко распространено и часто
ошибочно принимается за истинную рандомизауию. Некоторые широко распространенные способы псевдорандо-
мизауии:
по дате рождения участника;
по дате вхождения в РКИ; по номеру истории болезни;
поочередно.
На первый взгляд эти способы почти не отличаются от спосо бов простой рандомизауии. Однако основное отличие состоит в
том, что они являются открытыми, т.е. исследователь, проводя
щий псевдорандомизауию, может предсказать, в которую из групп
будет распределен очередной участник испытания. Вследствие этого
появляется возможность влиять на отнесение участников в ту
или иную группу, и выборка получается смещенной.
Если несмотря на правильно проведенную рандомизауию груп
пы оказались несопоставимыми по некоторым признакам, т.е.
неоднородными, то можно использовать спеуиальные методы
анализа данных для учета их влияния на исход (например, кова
риауионный анализ, множественный регрессионный анализ -
см. главу 14).
1.5.З. Маскирование вмешательства
Маскирование вмешательства (ослепление) - это способ
сведения к минимуму искажений в ходе проведения испытаний.
Искажения могут возникать в связи с субъективностью ( тенден уиозностью) оуенки эффективности лечения больным, врачом,
статистиком.
Выделяют следующие виды исследований по степени маски
рования:
-простое слепое исследование; в данном случае больной не знает, какой из методов лечения к нему применяется. Такой
вид маскирования может использоваться и при испытании
хирургических методов лечения;
34
Глава 1. Доказательная медицина ...
-двойное слепое исследование; о методе лечения не знают ни больной, ни врач, оценивающий результаты лечения;
-тройное слепое исследование; о методе лечения, приме няемом в той или иной группе, не знает таюке и статистик, анализирующий данные.
Для маскирования, например, терапевтического вмешатель
ства необходимо использование плацебо, по внешним свойствам
(виду, запаху, вкусу) неотличимого от лекарственной формы изу
чаемого препарата.
35
Статистический анализ медицинских данных ...
Глава 2. Типы данных
Первым шагом, предваряющим статистический анализ дан
ных, является анализ (на основе здравого смысла) типов дан
ных1. Эго необходимо делать для того, чтобы определить право мочность использования в дальнейшем того или иного способа
представления данных и статистического метода.
Количественные (числовые)
1 Интервальные 1 lатносительныеl |
Дихотомические (бинарные) |
Рис. 2. Типы данных.
Тип получаемых данных (рис. 2.) необходимо также учиты
вать на этапе планирования исследования при определении не
обходимых объемов выборок (подробнее см. раздел 15.3).
1 Зд~~ь ~~eдyier ~.апомнить, в '!ем заклю'lа~еrся разница между понятиями "при
знак и данные . Признаки (их также называют переменными) - это названия какой-либо характеристики объекта исследования (например, рост). Данные - набор конкр~еrных 'lисел для признака, полученный в исследовании. Один и тот же признак мож~еr быть описан разными данными и даже иногда данными разных
типов.
36
Глава 2. Типы данных
Принято выделять в качестве основных типов данных коли
чественные и качественные.
КоличестlJеннь~е даннь~е в свою очередь подразделяются на
непрерывные и дискретные.
Непрерыlть~е даннь~е - это данные, которые получают при
измерении на непрерывной шкале, т.е. теоретически они могут
иметь дробную часть (но это не всегда возможно в связи с низкой точностью измерений). Примерами могут служить масса тела, рост,
артериальное давление. Непрерывные данные бывают интерваль
нь~ми и относительнь~ми.
Интер6альнь~е даннь~е - вид непрерывных данных, кото
рые измеряются в абсолютных величинах, имеющих физический
смысл.
Относительные данные - вид непрерывных данных, от
ражающих долю изменения (увеличения или уменьшения) .ша
чения признака по отношению к исходному (или какому-либо
другому) значению этого признака. Являются безразмерными ве
личинами или выражаются в проgентах.
Дµскретнь~е данные ·- количественные данные, которые
не могут иметь дробную часть. Пример: количество детей. Качест6еннь~е данные подразделяются на номинальные и
порядковые.
Номинальные данные (иногда их таюке называют номина тивными) - вид качественных данных, которые отражают ус ловные коды неизмеряемых категорий (например, коды диаг ноза).
Порядко6ые данные - вид качественных данных, которые отражают условную степень выраженности какого-либо призна ка (например, стадии онкологического заболевания, степени сер
дечной недостаточности). Их основное отличие от дискретных
количественных данных заключается в отсутствии пропорgиональ
ной шкалы для измерения выраженности признака.
Бинарные ( дихотомичес'КUе) данные - особо выделяе мый вид качественных данных. Признак такого типа имеет лишь два возможных значения (например, пол, наличие или отсутст вие какого-либо заболевания).
Как для номинальных, так и для порядковых дискретных дан
ных не могут быть определены "расстояния" между значениями,
так как для них не существуют интервальные измерительные
шкалы.
37
Статистический анализ медицинских данных ...
Обычно в научном исследовании встречаются данные разных
типов. Для определения типа данных компьютер обычно не ну жен. Достаточно просто задуматься над природой gифр. Это не
обходимо делать для того, чтобы выбирать правильные способы описания параметров выборок и методы статистического анализа
(подробнее этот вопрос будет рассмотрен в соответствующих
главах).
Первый вопрос, на который должен ответить исследователь
по поводу каждого из изучаемых признаков - количественный он или качественный. Обычно это бывает сделать достаточно лег
ко. Иногда затруднение вызывает дифференgирование количест
венных дискретных и качественных порядковых данных. В этой
ситуаgии принgипиальное значение имеет природа шкалы изме
рения: если "расстояния" между значениями на шкале равны, то
такие данные являются количественными дискретными (напри-
мер, количество |
б |
~) |
Е |
ели же |
" |
расстояния |
" |
между |
|
еременностеи . |
|
|
|
значениями на шкале не равны, то такие данные являются каче
ственными порядковыми (например, число баллов для оgенки интенсивности головной боли).
Второй вопрос - как определить, является ли количествен
ный признак дискретным или непрерывным. Здесь граниgа дос таточно условна. На практике реализуются разные подходы. Один из них состоит в том, что при значительном (превышающем 20)
числе различных значений дискретного признака его можно при ближенно считать непрерывным и использовать соответствую щие способы описания распределения и методы анализа, адек
ватные виду его распределения на выборке (например, скорость
оседания эритроgитов определяется с точностью до миллимет
ров, т.е. в дискретной шкале, но поскольку число возможнь1х значений больше 20, то приближенно можно считать данный
признак количественным непрерывным).
В отношении качественного признака вопрос состоит в том, является ли этот признак порядковым или номинальным. Поряд
ковые признаки с большим количеством различных значений
(больше 20) таюке на практике принято считать приближенно
непрерывными (например, сумма баллов какой-либо шкалы для оgенки неврологического дефиgита, качества жизни и пр.). Для
номинальных признаков такой подход исключен.
Особым типом данных являются даты. Поскольку в ряде слу
чаев бывает необходимо произвести с ними некоторые арифме-
38
Глава 2. Типы данных
тические действия (например, вычисление абсолютного периода
времени между двумя событиями по датам этих событий), сле
дует обратить внимание на то, в каком формате в используемом
Вами статистическом пакете необходимо представлять даты. Иногда выделяют таюке некоторые особые подтипы данных,
являющиеся частными случаями вышеперечисленных типов:
ранги;
очки;
баллы;
визуальные аналоговые шкалы;
цензурированные данные.
Ранги и очки преимУIIJественно используются для полуколи
чественной оценки параклинических параметров, а баллы - для суммарных оценок по клиническим шкалам. О цензурированных
данных см. более подробно в разделах 3.1.6 и 15.4.
39