Поделиться через


Что такое Edge Retrieval Augmented Generation (RAG)?

Предварительная версия Edge RAG — это расширение Kubernetes на базе Azure Arc, которое позволяет выполнять поиск по локальным данным с помощью генеративного ИИ, используя технологию Получения Расширенного Генерирования (RAG). RAG — это стандартная в отрасли архитектура, которая расширяет возможности языковой модели с частными данными.

Предварительная версия RAG Edge, обеспеченная Azure Arc, — это готовое решение, которое упаковывает все необходимое для создания пользовательских помощников чата и добычи инсайтов из частных данных, включая:

  • Выбор языковых моделей Generative AI (GenAI), работающих локально с поддержкой оборудования ЦП и GPU.
  • Готовый под ключ конвейер приема данных и RAG, который обеспечивает сохранение всех данных на локальном уровне, с контролем доступа, основанным на ролях Azure (Azure RBAC), чтобы предотвратить несанкционированный доступ.
  • Готовое к использованию средство разработки и оценки запросов для создания, оценки и внедрения пользовательских чатов.
  • API-интерфейсы, эквивалентные Azure для интеграции в бизнес-приложения, и предварительно упакованый пользовательский интерфейс для быстрого начала работы.

Несмотря на то, что RAG Edge может получать и извлекать соответствующие изображения, которые будут использоваться в качестве контекстных ссылок вместе с текстом, важно отметить, что это не визуальная языковая модель (VLM).

Edge RAG поддерживается и проверяется в инфраструктуре Kubernetes с поддержкой Azure Arc в локальной инфраструктуре Azure (прежнее название — Azure Stack HCI) и в рамках предварительной версии для отключенных операций для Azure Local.

Дополнительные сведения см. в статье Azure Arc, Kubernetes с поддержкой Azure Arc и расширенияМи Azure Arc.

Это важно

Предварительная версия RAG Edge, включенная Azure Arc в настоящее время в предварительной версии. Ознакомьтесь с Дополнительными условиями использования для предварительных версий Microsoft Azure, чтобы узнать юридические условия, применимые к функциям Azure, которые находятся в статусе бета, предварительного просмотра или иначе еще не выпущены в общий доступ.

Сценарии клиентов и варианты использования

Для клиентов по вертикали, таких как производство, финансовые услуги, здравоохранение, правительство и оборона, ценные данные создаются и хранятся локально. Это происходит за пределами облака гипермасштабирования из-за регулирования, задержки, непрерывности бизнес-процессов или объема данных, созданных в режиме реального времени. Клиенты хотят использовать созданные приложения ИИ для получения аналитических сведений из этих локальных данных.

Edge RAG поддерживает возможности Q&A, позволяющие клиентам запрашивать локальные данные с помощью пользовательского чат-бота для таких сценариев:

  • Клиент для государственных организаций хочет получить аналитические сведения от конфиденциальных локальных данных, чтобы ускорить принятие решений, суммировать большие наборы данных, создавать учебные материалы и многое другое.

  • Региональный банк хочет использовать данные, которые должны оставаться на месте из-за нормативных ограничений, для таких случаев использования, как проверки соответствия, помощь клиентам и персонализированное создание коммерческих предложений.

  • Глобальный производитель хочет создать помощников на производстве, чтобы сократить время на решение проблем и помочь в устранении неполадок, используя данные, которые должны храниться локально для соблюдения политик организации.

Почему Edge RAG?

Используйте Edge RAG для:

  • Сократите время вывода на рынок с помощью готового решения, которое ускоряет разработку и развертывание приложений ИИ на локальных данных.
  • Упрощение операций и комплексного управления с помощью корпоративного решения по качеству, которое обеспечивает тот же стандарт безопасности, соответствия требованиям и управляемости, которые вы ожидаете от Корпорации Майкрософт, включая управление жизненным циклом и версией всех компонентов и интеграцию Microsoft Entra для Azure RBAC.
  • Устраните необходимость в отдельных наборах навыков разработчика благодаря единообразным облачным условиям для разработчиков
  • Оставайтесь на вершине этого быстро развивающегося пространства с непрерывными инновациями от Корпорации Майкрософт, лидером в технологиях искусственного интеллекта и продолжайте сосредоточиться на предоставлении бизнес-ценности.

Основные понятия

Ознакомьтесь со следующими ключевыми понятиями для Edge RAG:

  • Фрагментирование разбивает большие документы на маленькие управляемые текстовые блоки.

    • Размер блока: фрагментирование разделяет большие документы на небольшие единицы, с такими параметрами, как размер блока (например, 1000-2000 символов) и перекрывание блоков (например, 100-500 символов), которые управляют их детализацией и непрерывностью. Небольшие блоки повышают точность извлечения, но могут потерять контекст, а большие блоки обеспечивают комплексный контекст за счет точности.
    • Перекрытие блоков: перекрывающиеся блоки поддерживают контекст между границами, но увеличивают требования к хранилищу и вычислениям.

    Оптимальные параметры блока зависят от варианта использования, балансировки точности, эффективности и производительности.

  • Прием данных — это процесс импорта и подготовки внешнего содержимого, например документов или изображений, используемых для извлечения. Это включает в себя предварительные действия, такие как очистка, форматирование и упорядочение данных.

  • Внедрение моделей преобразует текст, изображения или другие данные в плотные числовые векторы (внедрения), которые фиксируют семантические значения. Эти векторы представляют связи между входными данными, что позволяет сравнивать сходство и кластеризацию.

  • Вывод относится к процессу использования обученной модели для создания прогнозов или выходных данных на основе новых входных данных. В языковых моделях вывод включает задачи, такие как завершение текста, ответы на вопросы или создание сводок.

  • Языковые модели — это системы ИИ, обученные для понимания, создания и управления человеческим языком. Они прогнозируют текст на основе входных данных, что позволяет выполнять такие задачи, как создание текста, перевод, сводка и ответы на вопросы. Примерами являются GPT, Phi и Mistral.

  • Параметры модели управляют тем, как языковая модель создает текст, например творчество, разнообразие и фокус ответов. Общие параметры включают температуру и top-p. Параметры модели не влияют на то, какие документы извлекаются, только как модель создает свой ответ. Дополнительные сведения см. в разделе "Параметры типа поиска" в RAG Edge.

  • Запрос — это входные данные, предоставляемые языковой модели для получения ответа или выполнения конкретной задачи. Это может быть вопрос, запрос или набор инструкций в зависимости от варианта использования.

  • Получение дополненного поколения (RAG) объединяет систему извлечения с генерирующей языковой моделью для получения ответов, обогащенных внешними знаниями. Он извлекает соответствующий контекст из базы данных или хранилища документов для расширения возможностей создания модели, обеспечивая точные и up-toданные даты.

  • Параметры поиска — это параметры, управляющие получением, фильтрацией и ранжированием документов из индексированных данных перед передачей в языковую модель. Эти параметры помогают точно настроить релевантность, точность и область информации, используемой для ответа на запросы пользователей. Дополнительные сведения см. в разделе "Параметры типа поиска" в RAG Edge.

  • Тип поиска: тип поиска — это метод Edge RAG, который использует для поиска и ранжирования сведений из индексированных данных. Он определяет, как система получает соответствующее содержимое для ответа на вопросы пользователя, например путем сопоставления ключевых слов, использования семантической сходства или объединения нескольких подходов. Edge RAG поддерживает несколько методов поиска для получения информации, включая глубокий поиск, полнотекстовый поиск, гибридный поиск, гибридный многомодальный поиск и векторный поиск. Дополнительные сведения см. в разделе "Типы поиска в Edge RAG".

  • Системный запрос — это предопределенные инструкции или сообщения, предоставляемые языковой модели в начале беседы или задачи, чтобы повлиять на его поведение. Эти запросы определяют роль, тон или контекст, связанный с конкретной задачей модели искусственного интеллекта. Например, "Вы полезный помощник" или "Предоставление кратких технических объяснений". При формировании начального контекста системные запросы гарантируют, что модель создает ответы, согласованные с требуемой целью или персоной.

  • Векторная база данных — это специализированная база данных для хранения векторных встраиваний. Он предназначен для обработки высокомерных векторов и обеспечивает быстрый и масштабируемый поиск сходства.

  • Векторизация означает преобразование текста в числовые представления или встраивания, используя модель встраивания, такую как Sentence Transformers. Эти внедрения фиксируют семантический смысл текста, обеспечивая эффективное и точное сравнение.

Сравнение со службами ИИ Azure

Edge RAG выполняется в клиентской инфраструктуре за пределами общедоступного облака, что позволяет клиентам искать локальные данные с помощью получения расширенного поколения (RAG). Плоскость данных, включая все данные клиента и языковую модель, размещается локально.

В отличие от этого, службы ИИ Azure, такие как поиск ИИ Azure и Azure AI Foundry, также предоставляют возможности RAG, но размещаются в облачных регионах с гипермасштабированием, требуя от клиентов переносить данные и приложения в инфраструктуру Azure.

Edge RAG предоставляет возможности локального пользовательского интерфейса разработчика, которые соответствуют интерфейсам Azure AI Foundry.

Локальные данные и облако

Edge RAG отправляет только системные метаданные и идентифицируемые организацией сведения, такие как идентификатор подписки и имена кластеров в Корпорацию Майкрософт. Все содержимое клиента всегда остается в локальной инфраструктуре в пределах сетевых границ, определенных клиентами.

Роли пользователя

Решение RAG Edge имеет три отдельные роли пользователей:

  • Управление жизненным циклом расширения: пользователи отвечают за управление жизненным циклом расширения Edge RAG Arc. Сюда входят такие задачи, как настройка необходимой инфраструктуры, развертывание расширения, выполнение обновлений, мониторинг производительности и обработка его окончательного удаления. Как правило, эти обязанности относятся к ИТ-администратору с доступом к базовой локальной инфраструктуре Azure и Azure Kubernetes (AKS).
  • Разработка и оценка конечной точки чата: обязанности пользователя в этом рабочем процессе включают предоставление источника данных, настройку параметров конвейера RAG, предоставление пользовательских системных запросов, оценку, мониторинг и обновление решения чата. Эта роль обычно выполняется инженером запросов или разработчиком приложений ИИ.
  • Использование конечной точки для запроса локальных данных: ответственность пользователя за интеграцию в этом рабочем процессе может включать интеграцию конечной точки чата с бизнес-приложениями и использование интерфейса чата — пользовательского или предоставленного по умолчанию, — для запроса локальных данных.