Добавил:
Преподаватель Колледжа информационных технологий Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Построение и исследование моделей краткосрочного прогнозирования гликемии у больных сахарным диабетом

.pdf
Скачиваний:
4
Добавлен:
08.05.2022
Размер:
4.69 Mб
Скачать

ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ

В данной главе рассматриваются общие вопросы прогнозирования глике-

мии у больных сахарным диабетом первого типа, проводится классификация и характеристика временных рядов, выполняется сравнительный анализ эффек-

тивности моделей прогнозирования временных рядов для получения точных про-

гнозов в контексте решаемой задачи на базе многопараметрических временных рядов.

1.1. Сахарный диабет первого типа

Сахарный диабет 1 типа - это метаболическое заболевание, вызванное аб-

солютным дефицитом секреции инсулина и характеризующееся неспособностью организма поддерживать уровень глюкозы в крови (BG - Blood Glucose) в целе-

вом интервале 4-6 ммоль/л – в обычном состоянии и до 9 ммоль/л - после еды.

Диабет вызывает множество опасных осложнений, избежать которые можно только путем контроля уровня BG и его удержания в физиологичном ин-

тервале. Основным путем решения этой задачи в настоящее время является вве-

дение в кровь пациента искусственных препаратов (генно-инженерных челове-

ческих инсулинов), которые могут симулировать действие эндогенного инсу-

лина, вырабатываемого β-клетками здоровой поджелудочной железы.

1.2. Проблема прогнозирования гликемии

Оптимальные дозы искусственного инсулина, потребные для поддержания нормогликемии, зависят от многих факторов, обусловленных метаболическими,

физиологическими, поведенческими, психоэмоциональными и другими особен-

ностями пациента. Подбор доз первоначально осуществляется врачом-эндокри-

нологом. Однако реальные потребные дозы инсулина обладают значительной ва-

риабельностью, и окончательный их расчет полностью ложится на самого паци-

ента. При этом больной часто не в состоянии учесть все действующие факторы и адекватно рассчитать потребную дозу. Это, в свою очередь, приводит к деком-

пенсации (содержанию глюкозы в крови вне диапазона здорового человека), ве-

дущей к тяжелым осложнениям, вплоть до летального исхода.

11

В настоящее время активно ведутся исследования по замене человека неким алгоритмом, который бы рассчитывал дозу инсулина со значительно большей точ-

ностью. В терапии инсулинозависимого диабета достаточно давно применяются средства непрерывного мониторинга уровня глюкозы (например, система G6 ком-

пании Dexcom Inc., FreeStyle Libre ООО «Эбботт Лэбораториз» или Enlite компа-

нии Medtronic), а также системы непрерывного подкожного введения инсулина – инсулиновые помпы. Алгоритм, или устройство, способный связать эти элементы в систему замкнутого контура с обратной связью, получил среди исследователей общее название «Искусственная поджелудочная железа» (ИПЖ). В мире, в том числе и в России, разрабатывается несколько прототипов моделей ИПЖ, но ни одна из них до сих пор не дошла до медицинской практики.

Основой алгоритма расчета потребной дозы в составе ИПЖ является мо-

дель прогнозирования уровня сахара крови, или гликемии. В литературе встре-

чается описание нескольких алгоритмов, однако все они трудноприменимы на практике либо из-за сложности модели и избыточного количества учитываемых факторов [1], либо из-за упрощенного подхода к моделированию [2], либо мо-

дель разрабатывалась для лабораторных условий [3], и т.п. Исследования и ме-

дицинская практика терапии диабета показывает, что прогноз должен строиться как с учетом внешних факторов, влияющих на уровень глюкозы напрямую (ко-

личество потребленных углеводов), так и внутренних факторов - физиологиче-

ских особенностях пациента, с учетом уже проводимой терапии. Так как физио-

логические особенности больного (в первую очередь скорость усвоения углево-

дов и чувствительность к инсулину) могут значительно варьироваться в течение дня, их учет в модели напрямую практически невозможен. Решением может стать нейросетевая модель, так как именно искусственные нейронные сети в большей степени, чем другие модели регрессии, способны учитывать неформа-

лизуемые факторы в своей структуре и неявно рассчитывать их в процессе обу-

чения.

12

В литературе встречаются попытки использовать нейронные сети для про-

гнозирования гликемии, однако это примитивные модели по типу прогнозирова-

ния временного ряда, рассчитывающие будущее значение сахара крови исходя из нескольких ретроспективных значений [2, 4]. Такой подход может иметь успех только при прогнозе в условиях «голодания» пациента, когда углеводы не влияют на гликемию, а также в случае отсутствия дополнительных инъекций ин-

сулина в период прогнозирования.

1.3. Понятие и характеристики временных рядов

Временным рядом называют последовательность наблюдений, обычно упорядоченную по времени. Главной чертой, выделяющей анализ временных ря-

дов среди остальных видов статистического анализа, является существенность порядка, в котором производится наблюдения. Если во многих задач наблюдения статистически независимы, то во временных рядах они, как правило, зависимы,

и характер этой зависимости может определяться положением наблюдений в по-

следовательности [5].

В анализе временных рядов выделяются две основные задачи: задача иден-

тификации и задача прогноза [6]. Задача идентификации при анализе наблюдае-

мых подразумевает ответ на вопрос, каковы характеристики системы, породив-

шей данный временной ряд – размерность вложения, корреляционная размер-

ность, энтропия и др. Задача прогноза имеет целью по данным наблюдений пред-

сказать будущие значения измеряемых характеристик изучаемого объекта, т.е.

составить прогноз на некоторый отрезок времени вперед. В данный момент со-

здано и обосновано некоторое количество различных методов прогноза. Но все они разделяются на 2 главных класса: локальные и глобальные. Такое разделение проводится по области определения характеристик аппроксимирующей функ-

ции, рекуррентно устанавливающей следующее значение временного ряда по не-

скольким предыдущим.

Любой временной ряд включает в себя два необходимых элемента: время и конкретное значение показателя (уровень ряда). Временные ряды классифици-

руются по следующим признакам [7]:

13

1) по времени – моментные и интервальные.

Интервальный ряд – это последовательность, в которой уровень явления относят к результату, накопленному либо снова произведенному за определен-

ный интервал времени. Интервальным является временной ряд показателя вы-

пуска какой-либо продукции предприятием за неделю, месяц или год. Если же уровень ряда характеризует изучаемое явление в определенный момент времени,

то совокупность уровней образует моментный ряд. Примерами моментных рядов являются, последовательность показателей численности населения на начало года, физические показателей, такие как влажность, температура.

2)по форме представления уровней – ряды абсолютных, относительных и средних величин;

3)по расстоянию между датами или интервалами времени выделяют пол-

ные и неполные временные ряды. Полные ряды имеют место, когда даты реги-

страции или окончания периодов следуют друг за другом с равными интерва-

лами, неполные – когда принцип равных интервалов не соблюдается; 4) по содержанию показателей – ряды частных и агрегированных показа-

телей. Частные показатели характеризуют изучаемое явление односторонне, изо-

лированно. Например, среднесуточный объем выпуска продукции дает возмож-

ность оценить динамику промышленного производства, численность граждан,

состоящих на учете в службе занятости; показывает эффективность социальной политики государства; остатки наличных денег у населения и вклады населения в банках отражают платежеспособность населения и т.д.

Одной из главных целей анализа временных рядов является предсказание его поведения. Прогноз будущих значений на основе прошлых наблюдений поз-

воляет наиболее эффективно принимать решения в настоящем.

При анализе временного ряда принято выделять 4 компоненты [8]:

тренд;

сезонную компоненту;

циклическую компоненту;

14

случайную составляющую.

Под трендом понимают изменение, определяющее общее направление раз-

вития, основную тенденцию временного ряда. Это систематическая составляю-

щая долговременного действия.

Наравне с долговременными тенденциями во временных рядах экономиче-

ских процессов нередко имеют место более или менее регулярные колебания – периодические составляющие рядов динамики.

Если период колебаний не превышает одного года, то их называют сезон-

ными. Чаще всего причиной их возникновения считаются природно-климатиче-

ские условия. Примером могут служить колебания цен на сельскохозяйственную продукцию, в частности на картофель. Из года в год наблюдается снижение цен в период после уборки урожая и последующее повышение цен, связанное с необ-

ходимостью хранения продукции. Своего «пика» цены достигают перед следую-

щим урожаем. Таким образом, в колебаниях цен прослеживается устойчивая го-

довая периодичность.

При большем периоде колебания считают, что во временных рядах имеет место циклическая составляющая. Примерами могут служить демографические,

инвестиционные и другие циклы. Если из временного ряда удалить тренд и пе-

риодические составляющие, то останется нерегулярная компонента.

Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начи-

ная от простейшей в виде «белого шума» до весьма сложных, описываемых мо-

делями авторегрессии-скользящего среднего.

Выделение этих компонент – один из этапов анализа. Таким образом, мо-

дель временного ряда можно описать как = + + – аддитивная модель и

= – мультипликативная модель. Наиболее распространённая счита-

ется вторая модель, которая, в свою очередь, сводится к первой логарифмирова-

нием.

15

1.4. Методы анализа временных рядов

При анализе временных рядов используются различные методы, наиболее

распространенными из которых являются [9]:

корреляционный анализ, используемый для выявления характерных особенностей ряда (периодичностей, тенденций и т. д.);

спектральный анализ, позволяющий находить периодические составля-

ющие временного ряда;

сглаживания и фильтрации, предназначенные для преобразования вре-

менных рядов с целью удаления высокочастотных и сезонных колеба-

ний;

модели скользящего среднего (оказываются полезными для описания и прогнозирования процессов, проявляющих однородные колебания во-

круг среднего значения);

прогнозирование (позволяет на основе подобранной модели поведения

временного ряда предсказывать его значения в будущем).

Корреляционный анализ. При исследовании корреляций пытаются опре-

делить, есть ли некая связь между двумя показателями в одной выборке (напри-

мер, между ростом и весом детей или между уровнем IQ и учебной успеваемо-

стью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если данная связь существует, то сопровождается ли повышение одного показателя возрастанием (положительная корреляция) или убавлением

(отрицательная корреляция) другого.

При прямой связи (положительная корреляция) с увеличением значений первого признака увеличиваются значения второго признака, а с уменьшением значений первого признака происходит уменьшение значений второго.

При обратной связи (отрицательная корреляция) значения первого при-

знака изменяются под воздействием второго, но в противоположном направле-

нии по сравнению с изменением второго признака.

16

Сила связи (степень, теснота связи) – степень сопряженности признаков,

широта варьирования значений каждого из них при изменении величины дру-

гого. Связь считается сильной, когда каждой величине одного признака соответ-

ствуют такие величины другого признака, которые сравнительно мало отклоня-

ются от своей средней, теснее группируются вокруг нее, и наоборот, связь назы-

вается слабой (менее тесной), если значениям одного признака соответствуют значительные колебания значений второго. Сила связи не зависит от ее направ-

ленности и определяется по абсолютному значению коэффициента корреляции

[10]. Количественные критерии оценки силы корреляционной связи представ-

лены в таблице 1.1.

Таблица 1.1 – Количественные критерии оценки силы корреляционной связи

Характер связи

Величина коэффициента корреляции

 

 

 

Прямая(+)

Обратная(–)

 

 

 

Отсутствует

0,0

0,0

 

 

 

Слабая

от 0,1 до 0,29

от – 0,1 до – 0,29

 

 

 

Средняя

от 0,3 до 0,69

от – 0,3 до – 0,69

 

 

 

Сильная

от 0,7 до 0,99

от – 0,7 до – 0,99

 

 

 

Полная

1,0

1,0

 

 

 

Полная (функциональная) связь – связь, при которой определенному зна-

чению одного признака соответствует одно и только одно значение другого при-

знака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Этот вид связи харак-

терен для объектов, являющихся точкой приложения точных наук.

Линейный коэффициент корреляции Пирсона используется для измерения тесноты связи между двумя количественными признаками Х и Y. Расчет коэф-

фициента может производиться только при соблюдении условий:

обе переменные являются количественными и непрерывными;

как минимум один из признаков (а лучше оба) имеет нормальное рас-

пределение;

17

зависимость между переменными носит линейный характер;

гомоскедастичность (вариабельность одной переменной не зависит от значений другой переменной);

независимость участников исследования друг от друга;

парность наблюдений (признак Х и признак Y изучаются у одних и тех же участников исследования).

Формула расчета коэффициента корреляции Пирсона [11]:

 

 

̅

̅

 

 

 

̃ ̃

 

 

=

∑( − ) ∙ ( − )

 

(1)

 

 

 

( − 1) ∙

 

 

 

 

 

 

где: X – значение независимой переменной, Y – значение зависимой переменной,

̅̃ – среднее арифметическое значение переменной Х, ̅ – среднее арифметиче-

ское значение переменной Y, и – стандартное отклонение для переменных

X и Y, n – количество пар наблюдений.

Для оценки статистической зависимости выявленной взаимосвязи между переменными необходимо провести сравнение расчетного значения взятыми из таблицы. Если расчетное значение равно или превышает критическое значение 0,05, то 0 отвергается и делается вывод о том, что коэффициент корреляции значимо отличается от нуля (p < 0,05).

Сингулярный спектральный анализ. Метод сингулярного спектраль-

ного анализа (SSA) используется для определения основных составляющих вре-

менного ряда и подавления шума. Метод SSA позволяет [12]:

различать составляющие временного ряда, полученные из последова-

тельности значений какой-либо величины, взятой через равные проме-

жутки времени;

находить заранее неизвестные периодичности ряда;

сглаживать исходные данные на основе отобранных составляющих;

наилучшим образом выделять компоненту с заранее известным перио-

дом;

18

 

= (

 

 

) , = , + 1, … , .

(2)

 

 

−1

− +1

 

 

предсказывать дальнейшее поведение наблюдаемой зависимости.

В основе SSA лежит построение множества векторов задержек. Метод за-

держек устанавливает переход от исходного одномерного (скалярного) времен-

ного ряда к многомерному (векторному) представлению. Каждый многомерный вектор образуется из некоторого числа р следующих друг за другом значений исходного временного ряда:

(3)

Здесь каждая квадратная скобка – вектор в р-мерном пространстве задержек; последовательность таких векторов задает матрицу задержек ×( − +1), где N – число элементов исходного ряда.

Особенностью SSA является обработка матрицы X по алгоритму, похо-

жему на метод главных компонент. Суть метода главных компонент состоит в снижении размерности исходного пространства факторов (задержек) с помощью ортогонального линейного преобразования. Полученные таким образом новые переменные и называют главными компонентами. Применение этого метода поз-

воляет сгладить исходный ряд, снизить уровень случайных возмущений, повы-

сить отношение сигнал/шум.

Сглаживание и фильтрация данных. При подготовке выборки данных к анализу часто возникает ситуация, когда некоторые записи нужно исключить из выборки и не использовать. Это может потребоваться в следующих случаях.

Значения, содержащиеся в записи, могут негативно повлиять на резуль-

таты анализа.

19

Значения записи нежелательно использовать в данной аналитической задаче.

Запись связана с каким-либо объектом или событием, которое нежела-

тельно рассматривать при анализе.

Запись содержит незначащую информацию и т. д.

Для исключения записей, присутствие которых в исходной выборке по ка-

кой-либо причине нежелательно, используется фильтрация. Фильтрация явля-

ется многоцелевым средством, которое позволяет выполнять очистку данных от факторов, снижающих качество анализа, понижать размерность исходного мно-

жества данных, отбирать наиболее важные данные, упрощать визуальный анализ исходной выборки и т. д.

В основе фильтрации лежит использование условий, которые играют роль фильтров, позволяющих оставлять в выборке одни данные и исключать другие.

В некоторых случаях применение фильтрации в качестве альтернативы таким методам подготовки данных, как очистка и снижение размерности, может дать определенные преимущества. Во-первых, фильтрация достаточно проста с вы-

числительной точки зрения, поэтому в ситуациях, когда обработка более слож-

ными алгоритмами занимает слишком много времени, фильтрация позволяет справиться с проблемой значительно быстрее. Во-вторых, решение о целесооб-

разности фильтрации и настройка ее параметров производятся непосредственно пользователем, что дает возможность действовать более тонко, чем некоторые алгоритмы очистки и сокращения размерности, а также избегать проблем, иногда создаваемых этими алгоритмами. Кроме того, результаты фильтрации более предсказуемы и легче интерпретируются.

Алгоритмы фильтрации существенно отличаются по своей сложности. В

простейшем случае это может быть отбор записей, значение определенного при-

знака в которых не превышает заданного. Однако при необходимости использу-

ются сложные многоступенчатые алгоритмы фильтрации по нескольким полям и нескольким условиям одновременно.

20