Автор: Герман Петров Редактура: Дмитрий Раков

Пререквизиты

Что можно прочитать, чтобы лучше понять эту статью:

  1. Архитектура RT-DETR — продолжение идей DETR. Поэтому рекомендуем ознакомиться с нашим постом о нем.
  2. Часто в посте будут упоминаться модели из семейства YOLO. Вот они (мои любимые слева направо): YOLOv1, YOLOv2, YOLOv3, YOLOv4, YOLOv5. Для понимания этой статьи достаточно ознакомиться только с последней версией.

Давайте разберём словосочетания на английском, которые тоже нам встретятся (автору так самому будет проще 🙂):

  1. Confidence threshold — порог вероятности для детекции;
  2. IoU threshold — порог IoU для NMS;
  3. Receptive field — рецептивное поле выходного пикселя, то есть контекст, который захватила свёртка.

Введение

В своё время авторы DETR полностью пересмотрели подход к построению архитектуры детектора:

К сожалению, у DETR'а есть недостатки (подробнее о них ниже), которые не позволяют использовать его на практике.

С другой стороны, модели семейства YOLO — наиболее популярные real-time детекторы. Они имеют хороший trade-off между скоростью и качеством. К их недостаткам можно отнести NMS, который требует дополнительных затрат на post-processing и вводит гиперпараметр threshold.

Авторы статьи оценили идею оригинального DETR'а, рассмотрели фишки YOLO-моделей и решили создать модель, которая не уступила бы по качеству и скорости моделям семейства YOLO (X-/ L-версиям) — то есть необходимо было сделать GPU real-time.

Недостатки DETR и их решения