Автор: Кирам Аль-Харба
Super Resolution — задача в области компьютерного зрения, направленная на восстановление изображения или видео высокого разрешения из версий низкого разрешения. Существует много различных методов ее решения — это и классические, и обучаемые методы. Кроме того, сама задача может формулироваться по-разному. Например, для спутниковых снимков необходимо решать many-to-one задачу, или задачу отображения множества изображений низкого разрешения в одно или несколько изображений высокого разрешения, а для видео — many-to-many задачу.
В этом обзоре мы рассмотрим one-to-one задачу, так называемую Single Image Super Resolution (далее SISR). Изучим популярные метрики оценки качества, используемые функции потерь и подходы к проектированию моделей, а также разберем самого популярного представителя этой задачи — семейство моделей SRGAN.
План статьи следующий:
Давайте начинать 😉
В оценке качества изображений есть много аспектов, таких как резкость, контраст и отсутствие шума. Поэтому справедливая оценка — сложная задача. Все методы можно разделить на субъективные и объективные. Субъективные методы основаны на естественном восприятии изображений человеком, в то время как объективные методы представляют собой количественные подходы к оценке качества изображения. В этой главе мы рассмотрим популярные в применении методы для задачи SISR.
Peak Signal-to-Noise Ratio (PSNR) — логарифмическая величина в децибелах, которая измеряет отношение максимально возможной силы сигнала к уровню шума.
Более высокое значение PSNR указывает на более высокое качество восстановленного изображения.
Формула для вычисления PSNR между исходным и восстановленным изображениями выглядит следующим образом:
$$ PSNR(y, \tilde{y}) = 10 \log_{10}{\frac{255^2}{\frac{1}{N}\sum_i(y_i-\tilde y_i)^2}} $$