Принцип работы Персонализатора

Внимание

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора выводится из эксплуатации 1 октября 2026 года. Рекомендуем перейти на проект с открытым исходным кодом microsoft/learning-loop.

Ресурс Персонализатора, ваш цикл обучения, используют машинное обучение для построения модели, которая предсказывает основные действия для вашего контента. Модель обучается исключительно на ваших данных, которые вы отправили ей с вызовами Ранг и Вознаграждение. Каждый цикл полностью независим друг от друга.

API для ранжирования и вознаграждения оказывают влияние на модель

Вы отправляете действия с функциями и контекстными функциями в Ранг API. API ранжирования решает, какую из следующих моделей использовать.

Эксплуатация: текущая модель для принятия решения о наилучшем действии на основе прошлых данных.
Обзор: выберите другое действие вместо самого верхнего действия. Ваша настройка этого процента для ресурса Персонализатора на портале Azure.

Вы определяете рейтинг вознаграждения и отправляете его в API Вознаграждений. API Reward:

собирает данные для обучения модели, записывая характеристики и оценки вознаграждений каждого вызова ранжирования.
Использует эти данные для обновления модели на основе конфигурации, указанной в Политике обучения.

Ваша система вызывает Персонализатора

На следующем изображении показан архитектурный процесс вызовов "Ранг" и "Вознаграждение".

альтернативный текст

Вы отправляете действия с атрибутами и контекстными признаками в Rank API.
- Персонализатор решает, использовать ли текущую модель или исследовать новые варианты для модели.
- Результат ранжирования отправляется в EventHub.
Наивысший ранг возвращается в вашу систему как идентификатор действия вознаграждения. Система представляет это содержимое и определяет оценку вознаграждения на основе собственных бизнес-правил.
Ваша система возвращает оценку вознаграждения в цикл обучения.
- Когда Персонализатор получает вознаграждение, оно отправляется в EventHub.
- Ранг и вознаграждение взаимосвязаны.
- Модель ИИ обновляется на основе результатов корреляции.
- Механизм вывода обновляется с помощью новой модели.

Персонализатор повторно обучает вашу модель

Персонализатор переобучает вашу модель в соответствии с настройкой "Model frequency update" на ресурсе Персонализатора в портале Azure.

Персонализатор использует все данные, сохраненные в данный момент, на основе настройки хранения данных в количестве дней на вашем ресурсе Персонализатора в портале Azure.

Исследования, связанные с Персонализатором

Персонализатор основан на передовых научных разработках и исследованиях в области Обучение с подкреплением, включая документы, исследовательскую деятельность и текущие области исследования в Майкрософт Research.

Следующие шаги

Узнайте о лучших сценариях для Персонализатора

Last updated on 2026-04-09