Автор: Шамиль Мамедов

Редактура: Александр Наздрюхин

Введение

Трансформер — одна из наиболее успешных моделей в машинном обучении. Именно он стоит за ChatGPT и другими большими языковыми моделями. Робототехники решили не оставаться в стороне и начали использовать трансформер для управления роботами. Одна из первых известных работ по этой теме — Decision Transformer. О ней мы и поговорим в этой статье 😊

Чтобы познакомиться с работой, для начала нам нужно вспомнить, что такое обучение с подкреплением (Reinforcement Learning; RL), в частности оффлайн RL, а также архитектура трансформера.

Коротко про обучение с подкреплением

<aside> 📌

Глубокое обучение с подкреплением (RL) — метод для создания агентов, принимающих решения.

</aside>

Рисунок 1. Онлайн vs оффлайн-RL

Рисунок 1. Онлайн vs оффлайн-RL

Эти агенты стремятся научиться оптимальному поведению (политике / стратегии) путём взаимодействия с окружающей средой за счёт метода проб и ошибок, а также получения вознаграждений в виде обратной связи.

Поскольку RL основано на гипотезе вознаграждения, все цели могут быть описаны как максимизация ожидаемого накопленного вознаграждения (expected cumulative reward). То есть цель агента — максимизировать своё накопленное вознаграждение, называемое возвратом (return).

Агенты в RL, как и в обучении с учителем, обучаются на некоторых данных. Вопрос заключается в том, как они его собирают. В онлайн-RL агент сам собирает данные за счёт взаимодействия с окружающей средой. Затем он оперативно использует их для обучения (обновления своей политики).

Такой подход к RL предполагает, что агент либо обучается непосредственно в реальном мире, либо у нас есть симулятор. Если же симулятора нет — его необходимо создать. А этот процесс может быть сложным (реальный мир тяжело воспроизвести в симуляторе), дорогостоящим и небезопасным: агент использует недостатки симулятора, если они есть и если они помогают ему максимизировать возврат.

С другой стороны, при оффлайн-обучении с подкреплением агент использует только данные, собранные другими агентами или с помощью демонстраций человека. Он не взаимодействует с окружающей средой.

Процесс выглядит следующим образом:

  1. Создаётся набор данных при помощи одной или нескольких политик и / или демонстрации, собранные человеком.
  2. Выполняется оффлайн-RL на этом наборе данных для обучения политики.

У этого метода есть недостаток: проблема контрафактических запросов. Она возникает, если агент решает сделать что-то, для чего у нас нет данных. Например, он хочет повернуть направо на перекрёстке, но для этого у нас нет данных траектории.

На таком поверхностном уровне оффлайн-RL может показаться аналогичной обучению с демонстрацией (имитационному обучению), где мы обучаем модель воспроизводить траектории из собранного, как правило, человеком датасета. Однако это не так — оффлайн-RL не просто воспроизводит траектории, а пытается склеить их для достижения максимального возврата (см. рисунок ниже). Достигается это путём обучения на временных разностях (об этом мы подробнее рассказывали в прошлой статье).

Рисунок 2. Пример склеивания разных траекторий для максимизации возврата

Рисунок 2. Пример склеивания разных траекторий для максимизации возврата

Коротко про архитектуру трансформера