Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье представлен общий обзор основных концепций конфигурации для решения чата Edge RAG. Используйте это руководство, чтобы спланировать подход перед настройкой решения чата.
Это важно
Предварительная версия Edge RAG, активированная с помощью Azure Arc, в настоящее время доступна. Ознакомьтесь с Дополнительными условиями использования для предварительных версий Microsoft Azure, чтобы узнать юридические условия, применимые к функциям Azure, которые находятся в статусе бета, предварительного просмотра или иначе еще не выпущены в общий доступ.
Настройка решения на портале разработчика
В рамках решения edge RAG локальный портал разработчика развертывается в кластере Службы Azure Kubernetes (AKS). Разработчики могут получить доступ к этому порталу для выполнения следующих задач:
- Прием данных: укажите локальный источник данных и настройте параметры конвейера RAG.
- Запрос данных: предоставьте пользовательский системный запрос, измените параметры модели и оцените эффективность решения чата с помощью игровой площадки чата.
Доступ к порталу через URI перенаправления (например, https://arcrag.contoso.com), предоставленный во время развертывания расширения или URI перенаправления, предоставленный во время регистрации приложения.
Для проверки подлинности и авторизации доступа к порталу убедитесь, что в Microsoft Entra есть роли EdgeRAGDeveloper и EdgeRAGEndUser.
Прием данных
Прием данных означает, что вы добавляете локальные данные и настраиваете параметры, чтобы данные было легко искать. Таким образом, когда кто-то задает вопрос, система может найти нужную информацию и дать ей языковой модели в качестве контекста.
Планирование приема данных
Прежде чем приступить к настройке решения чата, выполните следующие действия.
Подготовьте данные. Просмотрите поддерживаемые источники данных. Убедитесь, что все ваши частные данные хранятся на сетевом ресурсе файловой системы (NFS), доступном с точки доступа RAG. Для приема данных требуется путь к общей папке NFS, идентификатор пользователя NFS и идентификатор группы NFS.
Убедитесь, что файлы не защищены паролем и не зашифрованы каким-либо другим способом, чтобы приложение Edge RAG могло получить доступ к данным.
Выберите правильные параметры приема данных. Перед добавлением источника данных в RAG Edge рекомендуется выбрать соответствующий тип приема, параметры блока и частоту синхронизации.
Тип приема
При работе с документами, включающими таблицы и диаграммы, важно выбрать правильный подход к анализу во время приема. Edge RAG предоставляет два варианта приема:
- Базовый: быстро извлекает текст свободной формы из документов. Это параметр по умолчанию, который является относительно быстрым и эффективным, но может не сохранять структуру таблиц, диаграмм или изображений.
- Дополнительно: более глубоко извлекает текстовую структуру, таблицы, изображения и другие элементы. Это медленнее, чем базовый анализ, но вы получаете более высокую точность и достоверность, особенно для сложных документов.
Выберите вариант, который лучше всего соответствует вашим потребностям. Если вам нужна скорость, используйте базовый. Если вам нужны подробные структурированные данные, используйте расширенный анализ. Дополнительные сведения см. в статье Расширенный анализ данных для Edge RAG.
Параметры блока
Перед добавлением источника данных в RAG Edge выберите соответствующий размер блока, перекрытие блоков и частоту синхронизации. Вот основные рекомендации по выбору правильных параметров блока для ваших данных, предоставленные Azure:
Размер блока: Определите фиксированный размер, достаточный для семантически значимых абзацев (например, 200 слов) и допускающий некоторое перекрытие (например, 10-15% содержимого) для создания хороших блоков в качестве входных данных для генераторов векторов встраивания.
Процессор Рекомендуемый размер блока Максимальный поддерживаемый размер Графический процессор 2000 4000 Только ЦП 2000 2000 Перекрытие блоков. При фрагментации данных перекрывается небольшой объем текста между блоками, который может помочь сохранить контекст. Мы рекомендуем начинать с нахлёста примерно в 10 %. Например, учитывая фиксированный размер блока 256 токенов, вы начнете тестирование с перекрытием в 25 токенов. Фактическое количество перекрывающихся данных зависит от типа данных и конкретного варианта использования, но мы обнаружили, что 10-15% подходит для многих сценариев.
Процессор Рекомендуемое перекрытие блоков Максимальное поддерживаемое перекрытие Графический процессор 200 1000 Только ЦП 200 200
Когда дело доходит до разбиения данных на блоки, рассмотрите эти факторы:
Форма и плотность документов: если вам нужен целый текст или отрывки, использование больших блоков и переменных блоков, которые сохраняют структуру предложения, может привести к лучшим результатам.
Запросы пользователей: большие блоки и перекрывающиеся стратегии помогают сохранять контекст и семантические возможности для запросов, предназначенных для конкретных сведений.
Крупные языковые модели (LLM) имеют рекомендации по производительности для размера блока. Необходимо задать такой размер блока, который будет оптимальным для всех моделей, которые вы используете. Например, если вы используете модели для суммирования и внедрения, выберите оптимальный размер блока, который работает для обоих.
Прием данных с помощью REST API
Вы также можете выполнять прием данных программным способом с помощью REST API.
- Прием данных может занять много времени в зависимости от размера данных, вычислительных ресурсов, доступных модели внедрения, и других факторов.
- Создавайте столько загрузок данных, сколько вы захотите. Однако все данные векторизированы и хранятся в одном индексе.
Запрос данных
В Edge RAG настройка запроса данных означает, что вы создаете системную подсказку, настраиваете параметры модели для ваших потребностей и проверяете, работает ли решение как ожидается.
Выбор правильных параметров запроса и модели
Важной частью проектирования запросов является предоставление правильного системного запроса и параметров модели в соответствии с вашими данными и вариантом использования.
- См. статью Foundry Tools — сообщения системы безопасности для получения высокоуровневых рекомендаций по выбору правильного системного запроса.
- Сведения и рекомендации по выбору параметров модели и поиска см. в разделе "Параметры типа поиска".
Чат с Edge RAG
Edge RAG предлагает два интерфейса чата:
- Чат на основе знаний: чат с моделью с использованием собственных приемных данных в качестве контекста. Это означает, что ответы модели основаны на документах и источниках данных вашей организации, поэтому вы получите ответы, соответствующие и основанные на последних данных.
- Чат модели: Чат непосредственно с языковой моделью без использования ваших загруженных данных в качестве контекста. Это полезно, если вы хотите задать общие вопросы, протестировать необработанные возможности модели или просто посмотреть, как он отвечает без дополнительной информации.
Переключайтесь между чатом с использованием базы знаний и чатом с использованием модели в зависимости от ваших потребностей.
Запрос данных с помощью REST API
Помимо портала разработчика, вы можете использовать REST API для настройки решения чата, например предоставления системного сообщения и параметров модели.
Использование конечной точки чата
После настройки приема данных и вы, как инженер запроса, удовлетворены решением чата, вы можете интегрировать конечную точку чата в подчиненных бизнес-приложениях. Кроме того, конечные пользователи могут использовать приложение чата, предоставленное в готовом виде, чтобы быстро начать работу. Дополнительные сведения см. в статье "Тестирование решения чата для Edge RAG".
Если вы хотите интегрировать конечную точку чата в одно из ваших бизнес-приложений, используйте REST API.