RAG: архитектура и прикладная интеграция

Ruslan included in Post and AI

2025-05-31

Contents

Прикладные системы сталкиваются с ограничениями языковых моделей при работе с внутренними данными компании. Модели обучены на общедоступной информации до определенной даты, что создает разрыв между их знаниями и актуальной enterprise информацией. Переобучение модели на внутренних данных требует значительных ресурсов и экспертизы в машинном обучении.

Retrieval-Augmented Generation (RAG) решает эту проблему архитектурным подходом: вместо изменения самой модели система извлекает релевантные документы из enterprise базы знаний и предоставляет их инференс-сервису в качестве контекста для генерации ответа. Такая архитектура позволяет использовать готовые модели с актуальными данными компании без необходимости их переобучения.

RAG представляет гибридный подход, комбинирующий возможности поиска по документам (retrieval) с генеративными способностями языковых моделей (generation). В статье рассмотрим архитектуру RAG-системы, паттерны корпоративной интеграции и практические рекомендации по реализации.

Компоненты RAG-архитектуры

RAG-сервис состоит из двух основных pipeline: индексации и поиска. Pipeline индексации обрабатывает enterprise документы из внешних систем и подготавливает их для быстрого поиска. Pipeline поиска обрабатывает пользовательские запросы в реальном времени и возвращает обогащенный контекст.

flowchart TB
    UQ[/Input.User Query/]
    AP[\Output.Enriched Context\]

    subgraph EXT[External systems]
        ED[Enterprise Documents]
    end
    
    subgraph RAG[RAG System]
        
        subgraph CACHE[Cache Layers]
            QC[Query Cache]
            EC[Embedding Cache]
        end
        
        subgraph COMMON[Common components]
            EM[Embedding Model]
            VS[Vector Store]
        end
        
        
        subgraph IP[Indexing Pipeline]
            DP[Document Processing]
            EG[Embedding Generation]
        end
        DP --> EG
        EG --> EC
        EG --> COMMON
        
        subgraph RP[Retrieval Pipeline]
            QP[Query Preprocessing]
            RE[Retrieval Engine]
            RR[Re-ranking]
        end
        
        QP --> QC
        QP --> RE
        RE --> COMMON
        RE --> RR
        RR --> EC
        
    end

    UQ --> RAG
    IP --> EXT
    RAG --> AP

Document Processing Pipeline преобразует исходные документы в формат, пригодный для поиска. Компонент извлекает текст из различных форматов (PDF, Word, HTML), разбивает документы на логические chunks и очищает от технических артефактов. Размер chunks критично влияет на качество поиска: слишком маленькие теряют контекст, слишком большие снижают точность поиска.

Embedding Generation преобразует текстовые chunks в векторные представления с использованием общей модели эмбеддингов. Полученные векторы сохраняются в Embedding Cache для оптимизации производительности и передаются в Vector Store для последующего индексирования.

Query Preprocessing нормализует и оптимизирует пользовательские запросы перед поиском. Компонент выполняет очистку текста, приведение к единому формату и может применять специфичные для домена преобразования запроса.

Retrieval Engine выполняет семантический поиск по векторному хранилищу, используя ту же модель эмбеддингов для векторизации запроса. Компонент находит наиболее релевантные документы на основе близости в векторном пространстве и передает кандидатов для дальнейшего ранжирования.

Re-ranking улучшает порядок найденных документов с использованием дополнительных факторов релевантности. Компонент может применять lexical matching, учитывать актуальность документов и использовать специализированные модели перекрестного кодирования для более точного ранжирования.

Cache Layers оптимизируют производительность системы через Query Cache для сохранения результатов поиска и Embedding Cache для избежания повторной векторизации. Кеширование особенно критично для часто запрашиваемых данных и популярных запросов.

Векторный поиск и эмбеддинги

Векторный поиск основан на принципе семантической близости в многомерном пространстве. Модели эмбеддингов обучены преобразовывать текст в векторы таким образом, что семантически схожие тексты получают схожие векторные представления.

Процесс векторизации включает токенизацию текста, его обработку через encoder модель и получение dense vector представления фиксированной размерности (обычно 384-1536 измерений). В отличие от разреженных векторов традиционного поиска (TF-IDF), dense embeddings захватывают семантические связи между словами и концепциями.

Similarity Search использует метрики расстояния (cosine similarity, euclidean distance) для определения близости между векторами запроса и документов. Cosine similarity наиболее распространена, так как нормализует влияние длины векторов и фокусируется на направлении в векторном пространстве.

Индексирование векторов критично для производительности поиска в больших коллекциях документов. Алгоритмы приближенного поиска ближайших соседей (Approximate Nearest Neighbor, ANN) как HNSW или IVF позволяют быстро находить релевантные документы без exhaustive поиска по всей коллекции.

Hybrid Search комбинирует векторный поиск с традиционным keyword-поиском для повышения качества результатов. Semantic search эффективен для концептуальных запросов, в то время как keyword search лучше обрабатывает точные термины и названия. Взвешенная комбинация обоих подходов часто дает лучшие результаты, чем каждый по отдельности.

Integration patterns в корпоративных системах

Enterprise RAG-системы требуют интеграции с существующей корпоративной архитектурой, учитывающей требования к производительности, политики безопасности и operational ограничения. Паттерны интеграции определяют, как RAG-компоненты взаимодействуют с enterprise приложениями, где размещается логика координации и как обеспечивается масштабирование системы.

Выбор паттерна интеграции влияет на latency пользовательских запросов, сложность deployment процессов, отказоустойчивость системы и возможности мониторинга AI операций. Рассмотрим ключевые паттерны интеграции: оркестрации компонентов, синхронной и асинхронной обработки, microservice декомпозиции и управления консистентностью данных.

Паттерны оркестрации

В типичной enterprise архитектуре клиентские приложения взаимодействуют с бизнес-логикой через веб-сервисы, которые координируют обращения к различным backend системам. С появлением AI возникает новая архитектурная задача: как обрабатывать запросы, которые требуют разных подходов?

Рассмотрим два пользовательских запроса к корпоративному AI-ассистенту:

“Какая у нас политика по отпускам для сотрудников?” - требует поиска в HR-документах
“Переформулируй это письмо в более формальном тоне” - может быть обработан напрямую LLM

Первый запрос нуждается в обогащении контекста через RAG-сервис, второй может пойти сразу в Inference-сервис. Возникает архитектурная дилемма: кто принимает решение о маршрутизации и координирует взаимодействие между RAG-сервисом и Inference-сервисом?

Различные паттерны оркестрации предлагают разные компромиссы между простотой, производительностью и масштабируемостью.

Web Service как оркестратор

sequenceDiagram
    participant Client
    participant WebService as Web Service
    participant RAG as RAG Service
    participant Inference as Inference-сервис
    
    Client->>WebService: User Query
    
    alt Query needs context enrichment
        WebService->>RAG: Request context enrichment
        RAG->>WebService: Enriched Context
        WebService->>Inference: Generate with context
    else Simple query
        WebService->>Inference: Generate directly
    end
    
    Inference->>WebService: Generated Response
    WebService->>Client: Final Answer

Веб-сервис принимает решения о маршрутизации запросов и координирует взаимодействие с AI-компонентами. При получении запроса веб-сервис определяет, нужно ли обращаться к RAG-сервису, или можно сразу направить запрос в Inference-сервис.

Преимущества: можно легко добавлять бизнес-правила между этапами, нет дополнительного сетевого прыжка. Недостатки: веб-сервис становится ответственным за AI-логику, tight coupling между бизнес-процессами и AI-компонентами, сложнее тестировать AI и бизнес-логику отдельно.

Inference Service как оркестратор

sequenceDiagram
    participant Client
    participant WebService as Web Service  
    participant Inference as Inference-сервис
    participant RAG as RAG Service
    
    Client->>WebService: User Query
    WebService->>Inference: Process query
    
    alt Query needs context enrichment
        Inference->>RAG: Request context
        RAG->>Inference: Enriched Context
        Inference->>Inference: Generate with context
    else Simple query  
        Inference->>Inference: Generate directly
    end
    
    Inference->>WebService: Generated Response
    WebService->>Client: Final Answer

Intelligence-first подход, где Inference-сервис самостоятельно принимает решения о необходимости обогащения контекста. Веб-сервис делегирует всю AI-логику inference компоненту, который определяет, требуется ли обращение к RAG-сервису. Подробнее об архитектуре inference сервисов в отдельной статье.

Преимущества: AI-логика оркестрации консолидирована в одном сервисе, можно легче менять логику маршрутизации без изменения веб-сервисов. Недостатки: Inference-сервис обрастает дополнительными обязанностями (не только генерация, но и оркестрация), усложняется тестирование и deployment критичного AI-компонента.

AI Gateway паттерн

sequenceDiagram
    participant Client
    participant WebService as Web Service
    participant Gateway as AI Gateway
    participant RAG as RAG Service
    participant Inference as Inference-сервис
    
    Client->>WebService: User Query
    WebService->>Gateway: AI Request
    
    alt Query needs context enrichment
        Gateway->>RAG: Request context enrichment
        RAG->>Gateway: Enriched Context
        Gateway->>Inference: Generate with context
    else Simple query
        Gateway->>Inference: Generate directly  
    end
    
    Inference->>Gateway: Generated Response
    Gateway->>WebService: Final Answer
    WebService->>Client: Response

Специализированный gateway сервис выступает единой точкой входа для всех AI-операций и координирует взаимодействие между RAG и Inference сервисами. Gateway предоставляет веб-сервисам простой unified API, скрывая сложность AI workflow.

Преимущества: единая точка управления всеми AI-сервисами, упрощение веб-сервисов, возможность легко добавлять новые AI-сервисы без изменения веб-сервисов, централизованная реализация политик безопасности. Недостатки: дополнительный компонент в архитектуре, дополнительный network hop увеличивает latency, single point of failure для всех AI-операций, может потребоваться отдельная команда для разработки и поддержки.

Выбор паттерна оркестрации

Для MVP реализации логику оркестрации можно разместить либо в веб-сервисе, либо в Inference-сервисе, реализуя координацию как отдельный модуль внутри выбранного компонента.

MVP в веб-сервисе подходит командам, которые хотят минимизировать изменения в AI-инфраструктуре и быстро протестировать концепцию. Backend разработчики добавляют координационный модуль в знакомую кодовую базу, используя существующие процессы развертывания и инструменты мониторинга. Риски развертывания минимальны, поскольку изменения не затрагивают критичные AI компоненты. Однако такой подход временно смешивает бизнес-домен с задачами координации AI в одном сервисе.

MVP в Inference-сервисе предпочтителен для команд, которые изначально планируют построение полноценной AI-платформы. Координационный модуль размещается в AI domain, что логически группирует AI-функциональность и упрощает будущий вынос в отдельный AI Gateway. Вся логика принятия решений по AI консолидируется в одном месте, но развертывание требует изменений в production AI-инфраструктуре, что увеличивает риски и требует более тщательного тестирования.

Выбор между подходами определяется структурой команды, risk tolerance и существующими архитектурными ограничениями. В обоих случаях координационный модуль проектируется как loosely coupled компонент с четким интерфейсом, позволяя относительно легко вынести его в отдельный AI Gateway при росте сложности и появлении новых AI сценариев использования.

Синхронные и асинхронные паттерны

Enterprise RAG-системы могут обрабатывать запросы синхронно или асинхронно в зависимости от требований к отклику и характера нагрузки. Выбор между подходами определяет архитектуру взаимодействия компонентов и влияет на пользовательский опыт.

Синхронная интеграция подходит для интерактивных сценариев, где пользователь ожидает немедленного ответа. Весь поток от RAG-запроса до генерации ответа выполняется в рамках одного HTTP request. Веб-сервис удерживает соединение до получения результата от AI-компонентов.

Преимущества: минимальная задержка для пользователя, простота реализации и отладки, естественная обработка ошибок через HTTP статусы. Недостатки: уязвимость к таймаутам при долгих операциях, сложность обработки пиковых нагрузок, блокировка ресурсов на время выполнения запроса.

Асинхронная обработка использует message queues для развязки компонентов системы. Пользовательский запрос публикуется в Kafka topic, RAG-сервис и Inference Service обрабатывают запросы асинхронно через event-driven workflow. Клиентское приложение получает результат через polling, websockets или webhook callbacks.

Преимущества: высокая отказоустойчивость, возможность обработки пиковых нагрузок, независимое масштабирование компонентов, retry логика для failed операций. Недостатки: усложнение пользовательского опыта, необходимость управления состоянием запросов, дополнительная инфраструктура для message brokers.

Выбор паттерна обработки

Синхронный подход оптимален для real-time чатов, интерактивных ассистентов и сценариев, где пользователь может ждать ответа условно в течение 10-30 секунд. Подходит для MVP реализации и команд, которые хотят избежать сложности distributed messaging.

Асинхронный подход необходим для batch обработки документов, длительных аналитических запросов и систем с высокой вариативностью нагрузки. Критичен для enterprise систем с SLA требованиями и необходимостью обработки тысяч запросов в час.

Декомпозиция на микросервисы

Enterprise RAG-системы можно реализовать как monolith или decompose на независимые микросервисы в зависимости от масштаба системы и организационных требований. Выбор архитектурного подхода влияет на complexity развертывания, возможности масштабирования и operational overhead.

Монолитный RAG-сервис объединяет все компоненты (document processing, embedding generation, vector search, re-ranking) в одном приложении. Все операции выполняются внутри единого процесса с shared memory и direct function calls между компонентами.

Преимущества: простота развертывания и отладки, отсутствие network overhead между компонентами, единая кодовая база и версионирование, быстрая разработка MVP. Недостатки: сложность независимого масштабирования компонентов, единая точка отказа, ограничения в выборе технологий для разных задач.

Микросервисная архитектура декомпозирует RAG на независимые сервисы: Document Processing Service, Embedding Service, Vector Search Service, Re-ranking Service. Каждый сервис развертывается независимо и взаимодействует с другими через REST/gRPC API или асинхронные сообщения.

Преимущества: независимое масштабирование каждого компонента, возможность использовать оптимальные технологии для каждой задачи, изолированные failure domains, команды могут развивать сервисы независимо. Недостатки: complexity orchestration и service discovery, network latency между сервисами, сложность distributed debugging и monitoring.

Выбор архитектурного подхода

Монолитный подход оптимален для команд до 5-7 разработчиков, MVP реализации и систем с нагрузкой до 1000 запросов в час. Рекомендуется реализовать как модульный монолит с четким разделением на модули по доменам (document processing, embedding, vector search, re-ranking). Критически важна тщательная проработка и согласование интерфейсов между модулями, что позволит в будущем с меньшими затратами выносить отдельные модули в независимые сервисы при росте нагрузки или команды.

Микросервисная декомпозиция необходима для крупных команд (10+ разработчиков), систем с высокой нагрузкой и различными SLA требованиями для разных компонентов. Критична когда document processing и vector search имеют принципиально разные patterns масштабирования.

Кеширование и консистентность данных

Enterprise RAG-системы работают с большими объемами данных и требуют баланса между производительностью системы и актуальностью информации. Стратегии кеширования и подходы к синхронизации данных критично влияют на пользовательский опыт и эксплуатационные расходы.

Многоуровневое кеширование оптимизирует производительность через несколько слоев. Query cache на уровне gateway сохраняет полные результаты для идентичных пользовательских запросов. Embedding cache на урове RAG-сервиса избегает повторной векторизации одинаковых текстов. Vector search results кешируются для популярных запросов с настраиваемым временем жизни.

Преимущества: значительное снижение задержек для повторных запросов, уменьшение нагрузки на дорогие AI операции, возможность обслуживания большего количества пользователей. Недостатки: дополнительное потребление памяти, сложность управления обновлением кеша, риск получения устаревших данных.

Синхронизация корпоративных данных

Автоматическая синхронизация обеспечивает актуальность векторного хранилища при изменениях в source системах. Event-driven архитектура с Kafka транслирует события создания, обновления и удаления документов. Паттерн CDC (Change Data Capture) обеспечивает обновление векторных индексов в режиме, близком к реальному времени.

Преимущества: автоматическая актуализация данных, минимальное ручное вмешательство, поддержка консистентного представления данных. Недостатки: сложность распределенной координации, необходимость обработки неудачных синхронизаций, возможные задержки данных в периоды высокой нагрузки.

Выбор стратегии управления данными

Aggressive кеширование подходит для систем с относительно статичными корпоративными данными (политики, процедуры, базы знаний). Максимизирует производительность за счет длительного времени жизни кеша и extensive кеширования результатов.

Conservative кеширование с быстрой синхронизацией необходимо для динамичных данных (цены, остатки товаров, актуальные метрики). Минимизирует время жизни кеша и обеспечивает быстрое обновление при изменениях в source системах.

Архитектурные компромиссы и масштабирование

RAG-системы требуют балансирования нескольких архитектурных параметров, каждый из которых влияет на качество результатов и производительность системы. Успешная архитектура находит оптимальное сочетание между качеством поиска, скоростью отклика и ресурсными затратами.

Компромиссы качества данных

Chunk Size vs Context Quality представляет фундаментальный trade-off в RAG-архитектуре. Маленькие фрагменты (100-200 токенов) обеспечивают точный поиск релевантных частей документа, но могут терять важный контекст. Большие фрагменты (500-1000 токенов) сохраняют контекст и связи между концепциями, но снижают точность поиска и увеличивают вычислительные затраты генеративной модели.

Retrieval Depth определяет количество документов, передаваемых генеративной модели для формирования ответа. Больше документов предоставляет более полную информацию и снижает риск пропуска релевантных данных, но увеличивает требования к context window и время генерации ответа.

Компромиссы производительности

Real-time vs Batch Indexing влияет на актуальность данных и использование ресурсов. Индексирование в реальном времени обеспечивает мгновенную доступность новых документов, но создает переменную нагрузку на систему и усложняет планирование ресурсов. Пакетная обработка оптимизирует использование ресурсов и позволяет применять более сложные алгоритмы обработки, но создает задержку между обновлением источников и доступностью в поиске.

Quality vs Performance компромисс проявляется в выборе моделей эмбеддингов, порогов схожести и алгоритмов re-ranking. Более сложные модели улучшают качество поиска и понимание семантики, но увеличивают вычислительные требования и время отклика системы.

Масштабирование системы

Узкие места масштабирования в RAG-системах обычно возникают в операциях векторного поиска при росте коллекции документов. Линейный поиск становится неприемлемым для больших коллекций, требуя использования алгоритмов приблизительного поиска ближайших соседей (ANN) и распределенного поиска.

Горизонтальное масштабирование векторного поиска требует разделения векторного индекса на части или распределения поиска между несколькими экземплярами. Каждый подход имеет свои компромиссы в точности, времени отклика и сложности эксплуатации.

Выбор параметров

Выбор конкретных параметров зависит от специфики данных, требований пользователей и доступных ресурсов. Приведенные значения служат отправной точкой - оптимальные параметры для вашей системы следует определить через тестирование и итерации.

Для систем реального времени (чаты, интерактивные ассистенты) важнее быстрый ответ, чем исчерпывающая информация: размер chunk можно начать с 200-400 токенов, глубину поиска с 3-5 документов, рассмотреть агрессивные стратегии кеширования.

Для аналитических систем (исследования, подробные отчеты) важнее полнота, чем скорость: размер chunk стоит попробовать в диапазоне 800-1200 токенов, глубину поиска 10-15 документов, более сложные алгоритмы re-ranking.

Для корпоративных систем со смешанной нагрузкой использовать адаптивный подход: динамический размер chunk в зависимости от типа запроса, многоуровневое кеширование с различным временем жизни для разных типов данных, гибридное индексирование с обновлениями в реальном времени для критичных данных и пакетной обработкой для bulk контента.

Практические рекомендации

Успешная RAG-система требует системного подхода к архитектурному планированию с учетом специфики enterprise данных и пользовательских сценариев. Рекомендации организованы по этапам развития системы - от начальной реализации до production deployment.

Стратегия запуска

Начинать с MVP архитектуры с простой обработкой документов, одной моделью эмбеддингов и векторным поиском в памяти. Такой подход позволяет быстро проверить качество результатов на конкретных данных перед инвестициями в сложную инфраструктуру.

Фокус на конкретном сценарии использования вместо создания универсальной системы. Системы для вопросов и ответов, суммаризации документов, поиска по коду требуют различных подходов к разбиению текста, выбору моделей эмбеддингов и стратегий генерации.

Валидация на реальных данных критична на раннем этапе. Синтетические или demo данные могут скрывать проблемы, которые проявятся только при работе с реальными корпоративными документами - неструктурированные форматы, специфическая терминология, различные языки.

Мониторинг и метрики

Инструментирование системы с самого начала для измерения качества retrieval и generation компонентов отдельно. Метрики precision@k, recall@k для поиска и relevance scoring для генерированных ответов критичны для итеративного улучшения системы.

Разделение метрик по компонентам помогает изолировать проблемы качества. Низкое качество итогового ответа может происходить из-за плохого поиска документов или некачественной генерации - важно различать эти случаи.

A/B тестирование архитектурных изменений на production трафике. Изменения в размере chunks, моделях эмбеддингов или алгоритмах поиска могут иметь неочевидные эффекты на качество, которые проявляются только на реальных пользовательских запросах.

Планирование эволюции

Заложить возможность замены компонентов с самого начала. Модели эмбеддингов, векторные базы данных, генеративные модели развиваются быстро. Архитектура должна позволять замену компонентов без полной перестройки системы.

Модульная архитектура с четкими интерфейсами между компонентами упрощает эксперименты и миграцию. Например, компоненты Document processing, embedding generation, vector search, result ranking должны быть слабосвязанными через четко определенные API.

Стратегии обратной совместимости для обновления моделей и индексов. При замене модели эмбеддингов требуется переиндексация всех документов - процесс должен происходить без downtime для пользователей.

Безопасность и governance

Учитывать требования data governance с самого начала. RAG-системы работают с enterprise данными, требующими контроля доступа, аудита использования и соответствия регуляторным требованиям.

Контроль доступа на уровне документов должен сохраняться при векторном поиске. Пользователь не должен получать результаты из документов, к которым у него нет прав доступа в исходных системах.

Аудит запросов и результатов для соответствия требованиям и анализа использования. Логирование пользовательских запросов, найденных документов и сгенерированных ответов помогает выявлять проблемы качества и обеспечивать соответствие внутренним политикам.

Производительность и масштабирование

Планирование capacity с учетом роста данных и количества пользователей. Векторный поиск имеет нелинейные характеристики масштабирования - производительность может резко деградировать при превышении определенных размеров индекса.

Многоуровневые стратегии кеширования для оптимизации стоимости и времени отклика. Кеширование на уровне запросов, эмбеддингов и результатов поиска может значительно снизить нагрузку на дорогие AI операции.

Нагрузочное тестирование с реалистичными запросами для выявления узких мест перед продуктивным развертыванием. Синтетическая нагрузка может не отражать реальные паттерны использования - важно тестировать на данных, похожих на продуктивные.