RAG, или лучший друг достоверных генеративных ответов

Введение

Рисунок 1. Ответ известной большой языковой модели — DeepSeek

У современных больших языковых моделей действительно хорошие способности генерации текста, и с каждой новой моделью (а выходят они в последнее время чуть ли не каждую неделю) они становится всё лучше.

Тем не менее, у таких моделей есть один существенный недостаток — их знания ограничены данными, на которых они обучались, и часто они не успевают включить в себя свежую, доменную или специализированную информацию. Представьте ситуацию: ваша LLM обучалась на данных, собранных до 2021-го года. Если вы в 2025-ом попросите её назвать курс доллара — вы скорее обрадуетесь выданному значению, но пользы получите от него довольно мало.

Именно здесь на сцену выходит Retrieval Augmented Generation, или RAG. Основная идея подхода — интеграция механизмов поиска и извлечения информации с помощью генерации. Чтобы не полагаться только на обученную модель, система обращается к внешним источникам (базам знаний, архивам, интернету) для получения дополнительного контекста, который затем используется для формирования финального ответа.

Таким образом, RAG объединяет два ключевых момента:

Генеративную способность LLM создавать текст на основе паттернов, усвоенных из огромного объёма данных.
Механизм retrieval — поиск актуальной информации из внешних источников, который позволяет модели оперировать свежими и специализированными знаниями.

Рисунок 2. Типичная RAG-схема, состоящая из поиска и генератора

Такой гибридный подход имеет три важных преимущества:

актуальность и точность — механизм поиска позволяет оперативно включать в ответ последние данные, корректируя устаревшие знания модели;
специализация: система может обращаться к нишевым источникам информации, обеспечивая ответы в областях с глубокой экспертизой, где данные LLM могут быть недостаточно полными;
доказуемость и прозрачность: при помощи retrieval можно отследить, на основании каких источников была сформирована конечная генерация — это особенно важно, когда требуется высокая степень доверия к ответу (например, в медицине или праве).

Рисунок 3. А с релевантным документом ответ уже гораздо лучше!

Таким образом, от самой LLM мы начинаем требовать немного меньше, чем раньше: достаточно, чтобы она хорошо обращалась с целевым языком, правильно смотрела на скормленный ей контекст и поддерживала несколько вполне конкретных свойств, связанных с качеством такого генеративного ответа.

Кто такой «хороший RAG»

Без критериев качества, как всегда, далеко не уедешь. Также и с RAG: ожидается, что ответы, полученные с помощью данного подхода, обладают следующими свойствами: