Что такое обучение с подкреплением?
Внимание
Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора отменяется 1 октября 2026 года.
Обучение с подкреплением — это подход к машинному обучению, при котором поведение изучается путем получения обратной связи во время его использования.
Принципы работы обучения с подкреплением:
- обеспечение возможности или степени свободы для поведения, такого как принятие решения или осуществление выбора;
- предоставление контекстных сведений о среде и выборе;
- предоставление отзыва о том, насколько хорошо поведение достигает определенной цели.
Несмотря на то что существует множество подтипов и стилей обучения с подкреплением, в службе "Персонализатор" эта концепция работает так:
- Приложение предоставляет возможность отображения фрагмента содержимого из списка альтернативных вариантов.
- Оно также предоставляет информацию о каждом из альтернативных вариантов и контексте пользователя.
- Ваше приложение определяет оценку вознаграждения.
В отличие от других подходов к обучению с подкреплением, Персонализатор не требует симуляции для работы. Его алгоритмы обучения предназначены для реагирования на внешний мир (а не для управления им) и изучения каждой точки данных с пониманием того, что эта уникальная возможность требует времени и денег для создания, и что существует ненулевое сожаление (потеря возможного вознаграждения) в случае неоптимальной производительности.
Какой тип алгоритмов обучения с подкреплением использует служба "Персонализатор"?
Текущая версия службы "Персонализатор" использует контекстные бандиты — подход к обучению с подкреплением, который основан на принятии решений или выборе дискретных действий в данном контексте.
Память принятия решений (модель, обученная для получения наилучшего возможного решения с учетом контекста) использует набор линейных моделей. Такой подход неоднократно демонстрировал результаты в бизнесе. Этот подход является проверенным отчасти благодаря быстрой обучаемости в реальном мире без необходимости использовать многовводное обучение, а также благодаря тому, что может дополнять контролируемые модели обучения и модели глубоких нейронных сетей.
Выделение трафика для изучения или лучшего действия выполняется случайным образом после процентного набора для исследования, а алгоритм по умолчанию для исследования является эпсилон-жадный.
Журнал контекстных бандитов
Джон Лэнгфорд (John Langford) придумал название "контекстные бандиты" (Langford and Zhang [2007]) для описания гибкого подмножества обучения с подкреплением и работал над многочисленными научными публикациями, которые улучшают понимание того, как происходит обучение в этой парадигме.
- Beygelzimer et al. [2011]
- Dudík et al. [2011a,b]
- Agarwal et al. [2014, 2012]
- Beygelzimer and Langford [2009]
- Li et al. [2010]
Джон также написал несколько учебных пособий на такие темы, как совместное прогнозирование (ICML 2015), теория контекстных бандитов (NIPS 2013), активное обучение (ICML 2009) и границы эталонной сложности (ICML 2003)
Какие платформы машинного обучения использует служба "Персонализатор"?
В настоящее время как основу для машинного обучения Персонализатор использует Vowpal Wabbit. Эта платформа обеспечивает максимальную пропускную способность и минимальную задержку при ранжировании персонализации и обучении модели на всех событиях.
Ссылки
- Принятие контекстных решений с низким техническим долгом
- Подход сокращения к справедливой классификации
- Эффективные контекстные бандиты в нестабильных мирах
- Прогноз потери остатков: обучение с подкреплением: обучение без добавочных отзывов
- Инструкции по сопоставлению и визуальные наблюдения для действий в обучении с подкреплением
- Научись искать лучше, чем твой учитель
Следующие шаги
Offline evaluation (Автономная оценка)