Проанализируйте цикл обучения с помощью оффлайн-оценки

Внимание

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Personalizer выводится из эксплуатации 1 октября 2026 года. Рекомендуем перейти на open-source microsoft/learning-loop с открытым исходным кодом.

Узнайте, как создать автономную оценку и интерпретировать результаты.

Автономные оценки позволяют измерять, насколько эффективно персонализатор сравнивается с поведением приложения по умолчанию за период зарегистрированных (исторических) данных, а также оценить, насколько хорошо другие параметры конфигурации модели могут выполняться для модели.

При создании автономной оценки параметр обнаружения оптимизации будет выполнять автономные оценки для различных значений параметров обучения, чтобы найти такое, которое может повысить производительность модели. Вы также можете предоставить дополнительные политики для оценки в оффлайн-оценке.

Дополнительные сведения см. в разделе Автономные оценки.

Предварительные требования

Настроенный ресурс Персонализатора
Ресурс Персонализатора должен иметь достаточный объем зафиксированных данных — грубо говоря, мы рекомендуем не менее 50 000 событий в логах для получения значимых результатов оценки. При необходимости вы также можете экспортировать ранее экспортированные файлы политики обучения, которые вы хотите протестировать и сравнить в этой оценке.

Выполнение автономной оценки

На портале Azure найдите ресурс Персонализатора.
На портале Azure перейдите к разделу Evaluations и выберите Create Evaluation.
Заполните параметры в окне создания оценки :
- Имя оценки.
- Даты начала и завершения, которые определяют диапазон данных для оценивания. Эти данные должны присутствовать в журналах, как указано в параметре Хранение данных.
- Установите обнаружение оптимизации в Да, если хотите, чтобы Персонализатор пытался найти более оптимальные политики обучения.
- Добавление параметров обучения — отправка файла политики обучения, если вы хотите оценить пользовательскую или ранее экспортированную политику.l
Запустите оценку, выбрав "Начать оценку".

Проверить результаты оценки

Выполнение оценки может занять много времени в зависимости от объема обрабатываемых данных, количества сравниваемых политик обучения и того, было ли запрошено оптимизацию.

После завершения можно выбрать оценку из списка оценок, а затем сравнить оценку приложения с другими потенциальными параметрами обучения. Выберите эту функцию, чтобы увидеть, как текущая политика обучения выполняется по сравнению с новой политикой.
Затем просмотрите производительность политик обучения.

Вы увидите различные политики обучения на диаграмме, а также их предполагаемое среднее вознаграждение, доверительные интервалы и параметры для скачивания или применения определенной политики.

"Online" — текущая политика персонализатора
"Базовый план1" — базовая политика приложения
"BaselineRand" — политика принятия действий случайным образом
"Inter-len#" или "Hyper#" — политики, созданные при обнаружении оптимизации.

Выберите Применить, чтобы применить политику, которая оптимально улучшает модель для ваших данных.

Следующие шаги

Узнайте больше о том, как работают автономные оценки.

Last updated on 2026-04-09