Адаптируем Visual-Language модель для детекции аномалий

Введение

Задача детекции аномалий (anomaly detection, AD) заключается в поиске необычных примеров, а именно данных, непохожих на их основной массив.

Детекция аномалий на медицинских изображениях — довольно сложная задача:

сами форматы данных (рентгены, разные виды КТ и МРТ, гистопатологические исследования), патологии и группы органов очень разнообразны;
размеченных и неразмеченных медицинских снимков в открытом доступе крайне мало (намного меньше, чем обычных фото на камеру).

Аномалии — «‎странные» данные. Их странность может быть вызвана как проблемами с аппаратом или неудачным положением пациента, так и различиями в строении организма, которые не встречались в обучающей выборке из-за своей редкости. Аномальные снимки стараются отфильтровать до подачи в модели, определяющие заболевания, поскольку результат работы может оказаться непредсказуемым.

Иногда детекцию аномалий применяют для нахождения конкретных, но редких патологий. Например, gossypiboma — хирургическое осложнение, вызванное забытым во время операции куском хлопка. В зависимости от места поражения это состояние выглядит по-разному, что дополнительно усложняет сбор датасета, но везде оно выглядит «‎странно».

Больше примеров разных паталогий можно найти в Benchmarks for Medical Anomaly Detection.

Рисунок 1. Примеры аномалий: образование в мозгу (сверху слева), ложка (сверху справа), сросшийся перелом пальца (снизу слева), gossypiboma (снизу справа)

Рисунок 2. Примеры аномалий сетчатки глаза на Retinal OCT

Рисунок 3. Примеры аномалий на тканях под микроскопом при гистопатологическом исследовании

Обычно для каждой модальности и анатомической области создают свой детектор аномалий. Пример: детектор аномалий ****на КТ (модальность, modality) грудной клетки (анатомическая область, anatomical region). Но сегодня мы рассмотрим универсальный детектор аномалий, работающий со всеми модальностями и частями тела.

В статье «Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images» авторы решили использовать предобученный на обычных фото CLIP, умело адаптировать его под медицинские данные и добавить сегментацию аномалий для наилучшей интерпретируемости.

Пайплайн обучения

Итак, мы берём CLIP, предобученный на обычных фото (natural image domain) и задаче сопоставления текста и картинки. Но нам необходимо его применить для детекции аномалий на медицинских изображениях (medical image domain). Различия есть и в домене (domain gap), и в сути задачи (task gap).

Для решения этой проблемы авторы используют метод multi-level feature adaptation (MVFA). Адаптация проходит на разнообразной supervised-разметке: даже если считать идущие подряд 2D-срезы КТ и МРТ за отдельные семплы, то в датасете около 80’000 изображений. Это внушительное число для адаптации CLIP под задачу с данными из natural image domain. Но нам нужна адаптация под разные и значительно отличающиеся модальности, поэтому, на мой взгляд, данных всё-таки маловато 🙂.

Рисунок 4. Схема пайплайнов обучения и теста

Обратим внимание на часть схемы «‎Test». Она описывает, какую модель мы хотим получить с помощью multi-level feature adaptation.