Автор: Шамиль Мамедов
Редактура: Александр Наздрюхин
Трансформер — одна из наиболее успешных моделей в машинном обучении. Именно он стоит за ChatGPT и другими большими языковыми моделями. Робототехники решили не оставаться в стороне и начали использовать трансформер для управления роботами. Одна из первых известных работ по этой теме — Decision Transformer. О ней мы и поговорим в этой статье 😊
Чтобы познакомиться с работой, для начала нам нужно вспомнить, что такое обучение с подкреплением (Reinforcement Learning; RL), в частности оффлайн RL, а также архитектура трансформера.
<aside> 📌
Глубокое обучение с подкреплением (RL) — метод для создания агентов, принимающих решения.
</aside>
Рисунок 1. Онлайн vs оффлайн-RL
Эти агенты стремятся научиться оптимальному поведению (политике / стратегии) путём взаимодействия с окружающей средой за счёт метода проб и ошибок, а также получения вознаграждений в виде обратной связи.
Поскольку RL основано на гипотезе вознаграждения, все цели могут быть описаны как максимизация ожидаемого накопленного вознаграждения (expected cumulative reward). То есть цель агента — максимизировать своё накопленное вознаграждение, называемое возвратом (return).
Агенты в RL, как и в обучении с учителем, обучаются на некоторых данных. Вопрос заключается в том, как они его собирают. В онлайн-RL агент сам собирает данные за счёт взаимодействия с окружающей средой. Затем он оперативно использует их для обучения (обновления своей политики).
Такой подход к RL предполагает, что агент либо обучается непосредственно в реальном мире, либо у нас есть симулятор. Если же симулятора нет — его необходимо создать. А этот процесс может быть сложным (реальный мир тяжело воспроизвести в симуляторе), дорогостоящим и небезопасным: агент использует недостатки симулятора, если они есть и если они помогают ему максимизировать возврат.
С другой стороны, при оффлайн-обучении с подкреплением агент использует только данные, собранные другими агентами или с помощью демонстраций человека. Он не взаимодействует с окружающей средой.
Процесс выглядит следующим образом:
У этого метода есть недостаток: проблема контрафактических запросов. Она возникает, если агент решает сделать что-то, для чего у нас нет данных. Например, он хочет повернуть направо на перекрёстке, но для этого у нас нет данных траектории.
На таком поверхностном уровне оффлайн-RL может показаться аналогичной обучению с демонстрацией (имитационному обучению), где мы обучаем модель воспроизводить траектории из собранного, как правило, человеком датасета. Однако это не так — оффлайн-RL не просто воспроизводит траектории, а пытается склеить их для достижения максимального возврата (см. рисунок ниже). Достигается это путём обучения на временных разностях (об этом мы подробнее рассказывали в прошлой статье).
Рисунок 2. Пример склеивания разных траекторий для максимизации возврата