Оценка важности функций

Внимание

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора выводится из эксплуатации 1 октября 2026 года. Рекомендуем перейти на проект с открытым исходным кодом microsoft/learning-loop.

Вы можете оценить, насколько важен каждый признак для модели машинного обучения Персонализатора, проводя оценку признаков на ваших исторических данных журнала. Оценки функций полезны для следующих целей:

Узнайте, какие функции являются наиболее важными для модели.
Обсуждать возможные дополнительные функции, которые могут быть полезны для обучения, черпая вдохновение из того, какие функции важны в модели на текущий момент.
Определите потенциально неважные или бесполезные функции, которые следует учитывать для дальнейшего анализа или удаления.
Устранение распространенных проблем и ошибок, которые могут возникать при проектировании функций и отправке их персонализатору. Например, использование идентификаторов GUID, меток времени или других функций, которые обычно разрежены , могут быть проблемными. Узнайте больше об улучшении функций.

Что такое оценка функций?

Оценка характеристик проводится путем обучения и запуска копии текущей конфигурации модели на данных журнала, собранных за указанный период времени. Функции игнорируются поочередно, чтобы оценить разницу в производительности модели с каждой функцией и без неё. Поскольку оценка показателей выполняется на основе исторических данных, нет никакой гарантии, что эти шаблоны будут наблюдаться в будущих данных. Однако эти аналитические сведения по-прежнему могут быть актуальными для будущих данных, если зарегистрированные данные захватили достаточную вариативность или нестационарные свойства ваших данных. Производительность вашей текущей модели не затрагивается при выполнении оценки функций.

Оценка важности признаков — это мера относительного влияния функции на вознаграждение в течение ознакомительного периода. Оценки важности признаков — это число от 0 до 100 (наиболее важных) и отображается в оценке функций. Поскольку оценка проводится в течение определенного периода времени, важность функций может изменяться по мере того, как дополнительные данные постоянно отправляются персонализатору и пользователи, сценарии, а также данные изменяются со временем.

Создание оценки компонентов

Чтобы получить оценки важности функций, необходимо создать оценку признаков за период зарегистрированных данных, чтобы создать отчет, содержащий оценки важности признаков. Этот отчет можно просмотреть на портале Azure. Чтобы создать оценку признаков, выполните указанные действия.

Перейдите на портал Azure
Выбор ресурса Персонализатора
Выберите раздел "Монитор" на боковой панели навигации
Выберите вкладку "Компоненты"
Выберите "Создать отчет" и появится новый экран
Выберите имя отчета
Выберите время начала и окончания для периода оценки
Выберите "Создать отчет"

Снимок экрана, на котором показано, как создать оценку компонентов в ресурсе Персонализатора, щелкнув колонку

Снимок экрана, демонстрирующий, как в окне создания заполнить поля для вашего отчета, включая имя, дату начала и дату окончания.

Затем имя отчета должно отображаться в таблице отчетов ниже. Создание оценки функций — это длительная операция, при этом время завершения зависит от объема данных, отправляемых персонализатору в течение периода оценки. Во время создания отчета столбец Статус для вашей оценки будет указывать "Выполняется", а после завершения обновится на "Успешно". Периодически проверяйте, завершена ли ваша оценка.

Вы можете проводить несколько оценок функций в различные периоды времени, когда в ресурсе Personalizer имеются данные журнала. Убедитесь, что срок хранения данных достаточно длинный, чтобы вы могли выполнять оценки по старым данным.

Интерпретация оценок важности признаков

Функции с высокой оценкой важности

Функции с более высоким уровнем важности были более влиятельными для модели в период оценки по сравнению с другими функциями. Важные функции могут обеспечить вдохновение для проектирования дополнительных функций, которые будут включены в модель. Например, если вы видите контекстные функции "IsWeekend" или "IsWeekday" имеют высокую важность для продуктовых покупок, это может быть так, что праздники или длинные выходные также могут быть важными факторами, поэтому вы можете рассмотреть возможность добавления функций, которые фиксируют эту информацию.

Функции с низкой оценкой важности

Функции с низким уровнем важности являются хорошими кандидатами для дальнейшего анализа. Не все функции низкой оценки обязательно плохие или не полезные, так как низкие оценки могут возникать по одной или нескольким причинам. Приведенный ниже список поможет вам приступить к анализу того, почему ваши функции могут иметь низкие оценки:

Эта функция редко наблюдалась в данных в течение ознакомительного периода.
- Если количество вхождений этого признака низкое по сравнению с другими признаками, это может указывать на то, что признак не встречался достаточно часто, чтобы определить, является ли он ценным.
Значения признаков не имеют большого разнообразия или вариации.
- Если количество уникальных значений для этого признака ниже, чем вы ожидали, это может указывать на то, что данный признак не сильно варьировался в течение оценочного периода и не предоставит значительной информации.
Значения признаков были слишком шумными (случайными) или слишком четкими и предоставляли небольшое значение.
- Проверьте количество уникальных значений в оценке функций. Если количество уникальных значений для этой функции выше ожидаемого или высокого уровня по сравнению с другими функциями, это может указывать на то, что функция была слишком шумной в течение ознакомительного периода.
Существует проблема с данными или форматированием.
- Убедитесь, что функции отформатированы и отправляются персонализатору таким образом, как вы ожидаете.
Эта функция не может быть полезной для моделирования обучения и производительности, если оценка функций низка, и приведенные выше причины не применяются.
- Рассмотрите возможность удаления функции, так как она не помогает вашей модели максимально увеличить среднее вознаграждение.

Удаление функций с низким уровнем важности может помочь ускорить обучение модели, уменьшая объем данных, необходимых для обучения. Это также может повысить производительность модели. Однако это не гарантируется и может потребоваться дальнейший анализ. Дополнительные сведения о разработке контекста и функций действий.

Распространенные проблемы и шаги по улучшению функций

Отправка признаков с высокой кардинальностью. Признаки с высокой кардинальностью — это те, которые имеют множество различных значений, которые, скорее всего, не повторяются во многих событиях. Например, персональные данные, относящиеся к одному человеку (например, имя, номер телефона, номер кредитной карты, IP-адрес), не должны использоваться с Персонализатором.
Отправка идентификаторов пользователей (user IDs) При большом количестве пользователей эта информация вряд ли влияет на обучение Персонализатора, чтобы максимизировать среднее значение вознаграждения. Отправка идентификаторов пользователей (даже если они не являются личной информацией) скорее всего добавит больше шума в модель и не рекомендуется.
Функции слишком разрежены. Значения уникальны и встречаются не более нескольких раз. Точные метки времени вплоть до секунды могут быть очень редкими. Это можно сделать более плотным (и, следовательно, эффективным), разделяя время на категории, такие как "утро", "полдень" или "послеобеденное время", например.

Сведения о расположении, как правило, предпочтительны созданию развернутых классификаций. Например, координаты широты и долготы, такие как Lat: 47.67402° N, Long: 122.12154° W слишком точны и заставляет модель изучать широту и долготу как отдельные измерения. При попытке персонализации на основе сведений о расположении она помогает группировать сведения о расположении в больших секторах. Простой способ сделать это — выбрать соответствующую точность округления для чисел широты и долготы, а также объединить их в единое целое в строковом формате. Например, хороший способ представить Широта: 47,67402° N, Долгота: 122,12154° W в регионах, приблизительно шириной в несколько километров, будет "местоположение": "34.3°, 12.1°".

Расширьте наборы функций с экстраполированными сведениями. Вы также можете получить больше функций, размышляя о неисследованных атрибутах, которые можно вывести из уже имеющихся сведений. Например, в гипотетическом списке фильмов для персонализации возможно ли, что поведение пользователей отличается в выходные по сравнению с рабочими днями? Время можно расширить, добавив атрибут "выходной" или "рабочий день". Привлекают ли национальные или региональные культурные праздники внимание к определенным типам фильмов? Например, атрибут "Хэллоуин" полезен в тех местах, где это актуально. Возможно, что дождливая погода оказывает значительное влияние на выбор фильмов у многих людей. На основе времени и места метеорологическая служба может предоставить определенную информацию, которую можно добавить, как дополнительный признак.

Следующие шаги

Анализ производительности политик с помощью автономной оценки с помощью Персонализатора.

Last updated on 2024-10-16