Поделиться через


Принцип работы Персонализатора

Внимание

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора выводится из эксплуатации 1 октября 2026 года. Рекомендуем перейти на проект с открытым исходным кодом microsoft/learning-loop.

Ресурс Персонализатора, ваш цикл обучения, используют машинное обучение для построения модели, которая предсказывает основные действия для вашего контента. Модель обучается исключительно на ваших данных, которые вы отправили ей с вызовами Ранг и Вознаграждение. Каждый цикл полностью независим друг от друга.

API для ранжирования и вознаграждения оказывают влияние на модель

Вы отправляете действия с функциями и контекстными функциями в Ранг API. API ранжирования решает, какую из следующих моделей использовать.

  • Эксплуатация: текущая модель для принятия решения о наилучшем действии на основе прошлых данных.
  • Обзор: выберите другое действие вместо самого верхнего действия. Ваша настройка этого процента для ресурса Персонализатора на портале Azure.

Вы определяете рейтинг вознаграждения и отправляете его в API Вознаграждений. API Reward:

  • собирает данные для обучения модели, записывая характеристики и оценки вознаграждений каждого вызова ранжирования.
  • Использует эти данные для обновления модели на основе конфигурации, указанной в Политике обучения.

Ваша система вызывает Персонализатора

На следующем изображении показан архитектурный процесс вызовов "Ранг" и "Вознаграждение".

альтернативный текст

  1. Вы отправляете действия с атрибутами и контекстными признаками в Rank API.

    • Персонализатор решает, использовать ли текущую модель или исследовать новые варианты для модели.
    • Результат ранжирования отправляется в EventHub.
  2. Наивысший ранг возвращается в вашу систему как идентификатор действия вознаграждения. Система представляет это содержимое и определяет оценку вознаграждения на основе собственных бизнес-правил.

  3. Ваша система возвращает оценку вознаграждения в цикл обучения.

    • Когда Персонализатор получает вознаграждение, оно отправляется в EventHub.
    • Ранг и вознаграждение взаимосвязаны.
    • Модель ИИ обновляется на основе результатов корреляции.
    • Механизм вывода обновляется с помощью новой модели.

Персонализатор повторно обучает вашу модель

Персонализатор переобучает вашу модель в соответствии с настройкой "Model frequency update" на ресурсе Персонализатора в портале Azure.

Персонализатор использует все данные, сохраненные в данный момент, на основе настройки хранения данных в количестве дней на вашем ресурсе Персонализатора в портале Azure.

Исследования, связанные с Персонализатором

Персонализатор основан на передовых научных разработках и исследованиях в области Обучение с подкреплением, включая документы, исследовательскую деятельность и текущие области исследования в Майкрософт Research.

Следующие шаги

Узнайте о лучших сценариях для Персонализатора