91
специфичности (100%), что в свою очередь коррелирует с показателем прогностической ценности отрицательного результата (0,977) [44]. Но чувствительность остается на низком уровне (50%), что также нашло свое отражение и в низком показателе прогностической ценности положительного результата (1,000).
На следующей анализируемой выборке 3 с показателем распространенности
50% программа В, как и на первых двух этапах, была близка к пороговому значению, но не преодолела его (AUC – 0,770) [44]. Отмечается сохранение высокого показателя специфичности (100%) и повышение показателя чувствительности до 54%.
Говоря о программе B, хочется отметить, что, несмотря на высокие показатели специфичности (91–100%) на всех трех выборках, недостаточно высокое значение AUC (0,723 – 0,770), необходимое для прохождения допустимого порога для дальнейшей клинической валидации, является существенным поводом для продолжения работы над ее совершенствованием производителем и допуск программы B к дальнейшим испытаниям (клиническая валидация) в настоящее время нецелесообразен.
Программой B было пропущено 44% всех случаев туберкулеза и 42%
случаев рака легкого [44].
Программы С и D были протестированы только двух выборках (выборка 2 и
выборка 3) в связи с техническими ограничениями по доступу.
Показатели диагностической эффективности программы, представлены в таблице 15 и на рисунке 29.
Таблица 15 – Показатели диагностической эффективности программы C при выявлении округлых образований в легких на обзорных рентгенограммах в передней проекции
Показатель диагностической эффективности |
Выборка 2 |
Выборка 3 |
Чувствительность |
66,7% |
74% |
Специфичность |
90% |
89% |
Отношение правдоподобия положительного |
6,963 |
6,938 |
92
результата |
|
|
|
Отношение правдоподобия отрицательного |
0,369 |
0,291 |
|
результата |
|||
|
|
||
Прогностическая ценность положительного |
0,308 |
0,874 |
|
результата |
|||
|
|
||
Прогностическая ценность отрицательного |
0,977 |
0,775 |
|
результата |
|||
|
|
||
Точность |
89% |
82% |
Рисунок 29 – ROC-кривые по результатам анализа программой C выборки 2 (а),
выборки 3 (б)
По результатам анализа выборки 2 программой C был получен показатель
AUC = 0,787, близкий к пороговому значению, но недостаточный чтобы его преодолеть. При этом получены показатели чувствительности и специфичности,
равные 66,7% и 90% соответственно, что отражается и на значениях показателей прогностической ценности отрицательного результата (0,977) и прогностической ценности положительного результата (0,308).
При увеличении значения распространенности до 50% в выборке 3
программой C был получен показатель AUC – 0,817, что позволило ей преодолеть допустимый порог для дальнейшей клинической валидации. Наряду с этим,
программа C получила и более высокий показатель чувствительности, достигший
74%. Показатель специфичности несколько снизился до 89%. Также стоит отметить, что случаев гиподиагностики при анализе выборки 3 программой C
Рекомендовано к изучению разделом по лучевой диагностике сайта https://meduniver.com/
93
было получено довольно мало по сравнению с предыдущими программами – 6%
среди случаев туберкулеза и 28% среди случаев рака легкого.
Это может служить основанием для вывода о том, что использование данной программы в условиях проведения скрининговых исследований не будет эффективным. В то же время следует обратить внимание на возможность прохождения клинической валидации для применения в условиях диагностического пульмонологического центра с преобладанием пациентов с патологическими изменениями в легких.
Показатели диагностической эффективности программы D представлены в таблице 16 и на рисунке 30.
Таблица 16 – Показатели диагностической эффективности программы D при выявлении округлых образований в легких на обзорных рентгенограммах в передней проекции
Показатель диагностической эффективности |
Выборка 2 |
Выборка 3 |
|
Чувствительность |
66,7% |
87% |
|
Специфичность |
90% |
91% |
|
Отношение правдоподобия положительного |
6,963 |
9,357 |
|
результата |
|||
|
|
||
Отношение правдоподобия отрицательного |
0,369 |
0,140 |
|
результата |
|||
|
|
||
Прогностическая ценность положительного |
0,308 |
0,903 |
|
результата |
|||
|
|
||
Прогностическая ценность отрицательного |
0,977 |
0,877 |
|
результата |
|||
|
|
||
Точность |
89% |
89% |
94
Рисунок 30 – ROC-кривые по результатам анализа программой D выборки 2 (а),
выборки 3 (б)
Площадь под кривой при анализе программой D выборки 2 составила 0,787,
что является основанием для рекомендации по дальнейшей работе над системой с целью преодоления допустимого порога и допуска к клинической валидации.
Показатель специфичности программы D составил 90%, что является в целом сопоставимым по значению с предыдущими программами, рассматриваемыми нами, так же, как и показатель прогностической ценности отрицательного результата, равный 0,977. Показатель чувствительности, полученный при анализе тестирования программы D на выборке 2 составил 66,7%, что коррелирует с показателем прогностической ценности положительного результата – 0,308.
Результаты тестирования программы D на выборке 3 с показателем распространенности патологии, равным 50%, оказались более успешными.
Значение чувствительности повысилось до 87%, став наиболее высоким среди всех программ на данном этапе исследования, так же, как и показатель прогностической ценности положительного результата – 0,903. В свою очередь показатель специфичности составил 91%, что также прослеживается и на значении показателя прогностической ценности отрицательного результата –
0,877.
Таким образом, данная программа также не может быть допущена к проведению клинической валидации в условиях проведения скрининговых
Рекомендовано к изучению разделом по лучевой диагностике сайта https://meduniver.com/
95
исследований, но будет эффективна в условиях диагностического пульмонологического центра с преобладанием пациентов с патологическими изменениями в легких.
Следует обратить внимание и на наиболее низкий показатель гиподиагностики, полученный программой – пропущено 2% случаев туберкулеза
и12% случаев рака легкого.
Втаблице 17 представлены сравнительные результаты тестирования двух программ по выборке 1.
Таблица 17 – Показатели диагностической эффективности программ A и B при
анализе изображений выборки 1
Показатель диагностической эффективности |
Программа A |
Программа B |
|
Чувствительность |
55% |
54% |
|
Специфичность |
96% |
91% |
|
Отношение правдоподобия положительного |
12,633 |
5,732 |
|
результата |
|||
|
|
||
Отношение правдоподобия отрицательного |
0,467 |
0,508 |
|
результата |
|||
|
|
||
Прогностическая ценность положительного |
0,275 |
0,147 |
|
результата |
|||
|
|
||
Прогностическая ценность отрицательного |
0,986 |
0,985 |
|
результата |
|||
|
|
||
Точность |
94% |
90% |
|
Площадь под кривой (AUC) |
0,825 |
0,723 |
Таким образом, из двух тестированных программ на большой выборке
(n=5150), с низкой частотой встречаемости патологических изменений (3%),
которая наиболее соответствует модели скрининговых флюорографических исследований, только одна программа по показателю площади по диагностической кривой (AUC – 0,825) прошла рекомендованный порог (AUC -
0,810) и может быть допущена к дальнейшей клинической валидации. Вторая программа совсем немного не дотянула до нужного результата (AUC – 0,723) и
требует некоторой доработки.
Оба программных продукта имеют следующие тенденции: высокую специфичность (соответственно 96% и 91 %); не очень высокую чувствительность
96
(соответственно 55 % и 54%); высокое значение показателя отношения правдоподобия положительного результата (соответственно 12,633 и 5,732) [44].
В таблице 18 представлены сравнительные результаты тестирования четырех программ по выборке 3.
Таблица 18 – Показатели диагностической эффективности программ A, B, C, D
при анализе изображений выборки 3
Показатель |
Программа |
Программа |
Программа |
Программа |
|
диагностической |
|||||
A |
B |
C |
D |
||
эффективности |
|||||
|
|
|
|
||
Чувствительность |
55% |
54% |
74% |
87% |
|
Специфичность |
99% |
100% |
89% |
91% |
|
Отношение правдоподобия |
83,000 |
- |
6,938 |
9,357 |
|
положительного результата |
|||||
|
|
|
|
||
Отношение правдоподобия |
0,450 |
0,460 |
0,291 |
0,140 |
|
отрицательного результата |
|||||
|
|
|
|
||
Прогностическая ценность |
0,988 |
1,000 |
0,874 |
0,903 |
|
положительного результата |
|||||
|
|
|
|
||
Прогностическая ценность |
0,690 |
0,685 |
0,775 |
0,877 |
|
отрицательного результата |
|||||
|
|
|
|
||
Точность |
77% |
77% |
82% |
89% |
|
Площадь под кривой (AUC) |
0,770 |
0,770 |
0,817 |
0,819 |
Выборка 3 (n=300), с высоким показателем распространённости патологических изменений (50%), более соответствует модели диагностического кабинета пульмонологического центра. Из четырех программ, тестирование которых проводили на данной выборке только две, прошли допустимый диагностический порог по площади под диагностической кривой (AUC - 0,810):
программа С c результатом 0,817 и программа D с результатом 0,819. Программа
A, получившая хороший диагностический результат на скрининговой модели
(выборка 1; AUC –0,825), не достигла его при анализе выборки 3 и не может быть допущена к клинической валидации при такой распространенности патологии.
Наилучшие результаты чувствительности и специфичности при тестировании на данной модели были у программы D (87% и 89%
соответственно), тогда как наиболее высокий показатель специфичности был
Рекомендовано к изучению разделом по лучевой диагностике сайта https://meduniver.com/
97
зафиксирован у программы B (100%). При этом программа D показала наименьшее количество пропусков патологии среди всех 4 программных продуктов в данном тесте.
Говоря о наличии расхождения результатов интерпретации рентгенограмм,
было выяснено, что в 66% при анализе одного и того же снимка результаты программ различались [44].
Наиболее высокий показатель гиподиагностики был получен при анализе снимков с образованиями размерами до 10мм – пропущено 40% случаев, а также среди образований по типу «матового стекла» – 50%. Довольно высокий показатель гиподиагностики также наблюдается среди снимков с образованиями субсолидного типа - 18%. При этом было пропущено лишь 5,3% рентгенограмм с образованиями солидного типа и 2,1% рентгенограмм с образованиями размерами более 30мм.
В среднем в 32% случаев программами было пропущено округлое образование в легочной ткани на рентгенограмме, среди которых 45% – были случаи с раком легкого, 36% – рентгенограммы с образованиями доброкачественного характера. По сводным результатам анализа выборки 2 было выяснено, что 11 случаев с наличием патологических изменений в легких были пропущено всеми четырьмя программами, составив 7% от общего количества снимков с патологией.
Более подробно хочется остановиться на случаях, пропущенных всеми программными продуктами.
Представлены два примера, у которых патология была пропущена всеми четырьмя системами автоматического анализа цифровых рентгенограмм (Рисунок
31, 32).
98
Рисунок 31 – Рентгенограмма в передней проекции и скан компьютерной томограммы (аксиальная плоскость, легочное окно) пациента с гамартомой в S9
правого легкого, представленной очагом солидного типа, максимальным размером 10мм. Данные изменения были пропущены всеми программными продуктами
Рисунок 32 – Рентгенограмма в передней проекции и скан компьютерной томограммы (аксиальная плоскость, легочное окно) пациента с аденокарциномой
S6 правого легкого, представленной очагом по типу «матового стекла»,
максимальным размером 11мм. Данные изменения были пропущены всеми программными продуктами
Рекомендовано к изучению разделом по лучевой диагностике сайта https://meduniver.com/
99
По результатам тестирования на Выборке 2, был проведен не только сравнительный анализ всех четырех программ, но и сопоставление с результатами онлайн тестирования 516 врачей-рентгенологов результаты которых представлены в предыдущей главе.
Сравнительные результаты тестирования четырех программ и результатов анализа онлайн тестирования на выборке 2 приведены в таблице 19.
100
Рекомендовано к изучению разделом по лучевой диагностике сайта https://meduniver.com/