Кластеризация
Том 13 научных отчетов, номер статьи: 12701 (2023) Цитировать эту статью
Подробности о метриках
Машинное обучение, применяемое к цифровой патологии, все чаще используется для оценки функции почек и диагностики основной причины хронической болезни почек (ХБП). Мы разработали новую вычислительную структуру — пространственный анализ на основе кластеризации (CluSA), которая использует обучение без учителя для изучения пространственных взаимосвязей между локальными визуальными паттернами в ткани почек. Эта структура сводит к минимуму необходимость в трудоемких и непрактичных экспертных аннотациях. 107 471 гистопатологическое изображение, полученное из 172 ядер биопсии, было использовано в кластеризации и в модели глубокого обучения. Чтобы включить пространственную информацию в кластерные шаблоны изображений в образце биопсии, мы пространственно закодировали кластерные шаблоны с помощью цветов и выполнили пространственный анализ с помощью графовой нейронной сети. Для прогнозирования ХБП использовался случайный классификатор леса с различными группами признаков. Для прогнозирования рСКФ при биопсии мы достигли чувствительности 0,97, специфичности 0,90 и точности 0,95. AUC составляла 0,96. Для прогнозирования изменений рСКФ за один год мы достигли чувствительности 0,83, специфичности 0,85 и точности 0,84. AUC составляла 0,85. В этом исследовании представлен первый пространственный анализ, основанный на алгоритмах машинного обучения без учителя. Без экспертной аннотации система CluSA может не только точно классифицировать и предсказать степень функции почек при биопсии и через год, но также выявить новые предикторы функции почек и почечного прогноза.
Хроническая болезнь почек (ХБП) предполагает постепенную потерю функции почек, и ее нелегко обнаружить на ранних стадиях, пока состояние не достигнет далеко зашедшей стадии. По данным Центров по контролю и профилактике заболеваний, более 37 миллионов человек (15% взрослого населения США) страдают хронической болезнью почек (ХБП), и целых 9 из 10 взрослых с ХБП не знают, что у них есть ХБП1. Диабет, высокое кровяное давление, болезни сердца и семейный анамнез почечной недостаточности являются наиболее распространенными причинами заболеваний почек. В настоящее время ХБП, вызывающая больше смертей, чем рак молочной железы или рак предстательной железы, является девятой по значимости причиной смертности в США1.
Поскольку степень дисфункции почек связана с повышенной смертностью и риском сердечно-сосудистых заболеваний2,3, ранняя точная диагностика имеет решающее значение для замедления прогрессирования почечной недостаточности4. Современные типичные показатели функции почек и риска прогрессирования, такие как уровень креатинина в крови и белок в моче5,6, имеют ряд ограничений и неточны при более высоких уровнях функции почек7. Хотя образцы биопсии почки могут предоставить дополнительную прогностическую информацию, например, степень гломерулярного склероза и интерстициального фиброза8, их часто оценивают визуально, и интерпретация может различаться у разных патологов. Компьютерные алгоритмы могут обеспечить более объективную оценку почек и помочь преодолеть значительную вариабельность показателей между наблюдателями.
Несколько подходов глубокого обучения и машинного обучения к анализу гистопатологических изображений становятся все более распространенными с ростом доступности цифровых сканеров целых слайдов9. Кудрей и др. использовали сверточные нейронные сети (CNN) на полноэкранных изображениях (WSI), чтобы классифицировать их на аденокарциному легких (LUAD), плоскоклеточную карциному легких (LUSC) или нормальную легочную ткань10. Кроме того, CNN применялась к WSI для классификации склерозированных и несклерозированных клубочков11,12. Колачалама и др. продемонстрировали, что модели глубокого обучения CNN могут превосходить оценку фиброза, оцененную патологоанатомом, в задачах классификации и могут применяться к обычным изображениям биопсии почки13.
На сегодняшний день большинство алгоритмов машинного и глубокого обучения, применяемых к гистопатологическим изображениям, основаны на контролируемых (обучающих) подходах. Однако контролируемые алгоритмы требуют использования большого количества размеченных обучающих данных, что является трудоемкой, часто непрактичной и дорогостоящей задачей. Чтобы преодолеть эту проблему, в нескольких исследованиях были предложены такие методы, как обучение со слабым контролем и множественное обучение (MIL), которые дали относительно высокую производительность14,15,16,17,18. Тем не менее, это по-прежнему контролируемые методы, требующие маркировки на уровне пациента.