Поделиться через


Настройка усилий по извлечению причин

Замечание

Эта функция сейчас доступна в общедоступной предварительной версии. Этот предварительный просмотр предоставляется без соглашения об уровне обслуживания и не предназначается для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

В агентическом извлечении можно указать уровень обработки крупной языковой модели (LLM) для планирования запросов и формулировки ответов. retrievalReasoningEffort Используйте свойство для задания уровней обработки LLM, влияющих на затраты и задержку. Дополнительная обработка LLM улучшает релевантность, но также занимает больше времени и использует оплачиваемые ресурсы LLM. Это свойство можно задать в базе знаний или в запросе на получение.

Уровни усилий в рассуждениях включают:

Level Effort
minimal Нет обработки LLM. Вы предоставляете запрос.
low Выполняет один проход планирования запросов на основе LLM и выбора источников знаний. Это значение по умолчанию. LLM анализирует запрос и разбивает его на части компонентов по мере необходимости.
medium Добавляет более глубокий поиск и усовершенствованный стек извлечения в агентно-ориентированное извлечение для максимальной полноты.

Предпосылки

Выбор уровня рассуждений

В этом разделе описано:

Уровни усилий рассуждения

Level Description Recommendation Limits
minimal Отключает планирование запросов на основе LLM, чтобы обеспечить минимальные затраты и задержку при агентном извлечении. Он выдает прямой поиск текста и вектора по источникам знаний, перечисленным в базе знаний, и возвращает наиболее подходящие фрагменты. Поскольку все источники знаний в базе знаний всегда обрабатываются и нет никакого расширения запросов, поведение предсказуемо и легко контролировать. Это также означает, что свойство alwaysQueryKnowledgeSource в запросе на получение игнорируется. Используйте "минимальный" для миграции из API поиска или при необходимости самостоятельного управления планированием запросов.
low Агентный режим извлечения по умолчанию, в котором выполняется один проход планирования запросов на основе LLM и выбора источника знаний. Агентный механизм поиска создает подзапросы и распределяет их по выбранным источникам знаний, затем объединяет результаты. Вы можете включить синтез ответов для создания обоснованного ответа на естественном языке с встроенными цитатами. Используйте "низкий" при желании баланс между минимальной задержкой и более глубокой обработкой.
medium Добавляет более глубокий поиск и усовершенствованный стек извлечения в агентно-ориентированное извлечение для максимальной полноты. После выполнения первого поиска высокоточный семантический классификатор оценивает извлеченные документы, чтобы определить, требуется ли дальнейшая обработка и ранжирование L3. Если начальные результаты первого прохода недостаточно релевантны для запроса, то последующие итерации выполняются с помощью измененного плана запроса. Этот измененный план запросов учитывает предыдущие результаты и выполняет итерацию путем точной настройки запросов, расширения терминов или добавления других источников знаний, таких как Интернет. Она также увеличивает ограничения ресурсов по сравнению с низкими и минимальными усилиями. Этот уровень рассуждения оптимизирует релевантность вместо полного объема воспоминаний. Используйте "medium", чтобы максимизировать эффективность извлечения знаний с поддержкой LLM.

Итеративный поиск среднего извлечения

Средняя попытка получения причин обеспечивает итеративный поиск, если первоначальные результаты недостаточно релевантны. Для определения необходимости второй итерации вызывается дополнительная модель семантического классификатора .

Классификатор семантики выполняет следующее:

  • Распознает, когда достаточно контекста для ответа на вопрос.

  • Повторные попытки при недостаточных результатах, используя существующую информацию в качестве контекста. Новые запросы могут детализировать более подробные сведения или расширить поиск. В журнале действий в ответе показаны созданные запросы, используемые для более полного ответа.

  • Пересчет результатов с использованием классификации L3. Диапазон идентичен рейтингу L2, абсолютный диапазон от нуля до 4,0.

Существует только одна повторная попытка. Каждая итерация добавляет задержку и затраты, поэтому система ограничивает повторную попытку на один проход. Вторая итерация добавляет входные токены в пайплайн запросов, что увеличивает общее количество оплачиваемых входных токенов.

Итерация может повторно использовать или выбирать различные источники. Второй проход выбирает самый подходящий ресурс знаний для предоставления недостающих сведений.

Поддержка региона для среднего уровня извлечения данных

Если служба поиска находится в одном из следующих регионов, можно задать среднюю нагрузку на логическое извлечение.

  • Восток США 2
  • East US
  • Южно-Центральная часть США
  • Западная часть США 3
  • Западная часть США 2
  • West US
  • Западно-Центральная Германия
  • North Europe
  • Switzerland North
  • Центральная Швеция
  • Spain Central
  • UK South
  • Korea Central
  • Japan East
  • Юго-Восточная Азия

Настройка усилий аргументации в базе знаний

Чтобы установить поведение по умолчанию, задайте свойство в базе знаний.

  1. Используйте команду «Создать или обновить базу знаний» для настройкиretrievalReasoningEffort.

  2. Добавление свойства retrievalReasoningEffort В следующем формате JSON показан синтаксис. Дополнительные сведения о базах знаний см. в статье "Создание базы знаний".

    "retrievalReasoningEffort": { /* no other parameters when effort is minimal */
        "kind": "low"
    }
    

Установите затраты ресурсов в запросе на извлечение

Чтобы изменить значение по умолчанию для каждого отдельного запроса, укажите соответствующее свойство в запросе извлечения.

  1. Измените действие извлечения, чтобы переопределить значения по умолчанию в базе retrievalReasoningEffort знаний.

  2. Добавление свойства retrievalReasoningEffort Запрос на получение может выглядеть примерно так, как показано в следующем примере.

    {
        "messages": [ /* trimmed for brevity */  ],
        "retrievalReasoningEffort": { "kind": "low" },
        "outputMode": "answerSynthesis",
        "maxRuntimeInSeconds": 30,
        "maxOutputSize": 6000
    }