Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Внимание
Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора выводится из эксплуатации 1 октября 2026 года. Рекомендуем перейти на проект с открытым исходным кодом microsoft/learning-loop.
Ресурс Персонализатора, ваш цикл обучения, используют машинное обучение для построения модели, которая предсказывает основные действия для вашего контента. Модель обучается исключительно на ваших данных, которые вы отправили ей с вызовами Ранг и Вознаграждение. Каждый цикл полностью независим друг от друга.
API для ранжирования и вознаграждения оказывают влияние на модель
Вы отправляете действия с функциями и контекстными функциями в Ранг API. API ранжирования решает, какую из следующих моделей использовать.
- Эксплуатация: текущая модель для принятия решения о наилучшем действии на основе прошлых данных.
- Обзор: выберите другое действие вместо самого верхнего действия. Ваша настройка этого процента для ресурса Персонализатора на портале Azure.
Вы определяете рейтинг вознаграждения и отправляете его в API Вознаграждений. API Reward:
- собирает данные для обучения модели, записывая характеристики и оценки вознаграждений каждого вызова ранжирования.
- Использует эти данные для обновления модели на основе конфигурации, указанной в Политике обучения.
Ваша система вызывает Персонализатора
На следующем изображении показан архитектурный процесс вызовов "Ранг" и "Вознаграждение".
Вы отправляете действия с атрибутами и контекстными признаками в Rank API.
- Персонализатор решает, использовать ли текущую модель или исследовать новые варианты для модели.
- Результат ранжирования отправляется в EventHub.
Наивысший ранг возвращается в вашу систему как идентификатор действия вознаграждения. Система представляет это содержимое и определяет оценку вознаграждения на основе собственных бизнес-правил.
Ваша система возвращает оценку вознаграждения в цикл обучения.
- Когда Персонализатор получает вознаграждение, оно отправляется в EventHub.
- Ранг и вознаграждение взаимосвязаны.
- Модель ИИ обновляется на основе результатов корреляции.
- Механизм вывода обновляется с помощью новой модели.
Персонализатор повторно обучает вашу модель
Персонализатор переобучает вашу модель в соответствии с настройкой "Model frequency update" на ресурсе Персонализатора в портале Azure.
Персонализатор использует все данные, сохраненные в данный момент, на основе настройки хранения данных в количестве дней на вашем ресурсе Персонализатора в портале Azure.
Исследования, связанные с Персонализатором
Персонализатор основан на передовых научных разработках и исследованиях в области Обучение с подкреплением, включая документы, исследовательскую деятельность и текущие области исследования в Майкрософт Research.
Следующие шаги
Узнайте о лучших сценариях для Персонализатора