Автоматизированное машинное обучение в Fabric (предварительная версия)

2024-11-19

Автоматизированная Машинное обучение (AutoML) позволяет пользователям создавать и развертывать модели машинного обучения путем автоматизации наиболее трудоемких и сложных частей процесса разработки модели. Традиционно создание модели машинного обучения требует опыта в обработке и анализе данных, выборе моделей, настройке гиперпараметра и оценке — процесс, который может быть ресурсоемким и подверженным пробной и ошибке. AutoML упрощает это путем автоматического выбора лучших алгоритмов, настройки гиперпараметров и создания оптимизированных моделей на основе входных данных и требуемых результатов.

В Microsoft Fabric AutoML становится еще более мощным, интегрируя их с экосистемой данных платформы, позволяя пользователям создавать, обучать и развертывать модели непосредственно на своих озерах. С помощью AutoML технические и нетехническая пользователи могут быстро создавать прогнозные модели, что делает машинное обучение доступным для более широкой аудитории. От прогнозирования спроса на обнаружение аномалий и оптимизацию бизнес-операций AutoML в Fabric ускоряет путь от необработанных данных к практическим аналитическим сведениям, позволяя пользователям использовать ИИ с минимальными усилиями и максимальным воздействием.

Внимание

Эта функция доступна в предварительной версии.

Как работает AutoML?

FLAML (Fast and Lightweight AutoML) обеспечивает возможности AutoML в Fabric, позволяя пользователям создавать, оптимизировать и развертывать модели машинного обучения в экосистеме данных платформы.

FLAML — это библиотека AutoML с открытым исходным кодом, предназначенная для быстрой доставки точных моделей, фокусируясь на эффективности, минимизируя вычислительные затраты и динамически настраивая гиперпараметры. За кулисами FLAML автоматизирует выбор и оптимизацию модели с помощью стратегии поиска с учетом ресурсов, балансировки исследования и эксплуатации для выявления лучших моделей без исчерпывающей пробной и ошибок. Его адаптивное пространство поиска и упрощенные алгоритмы делают его идеальным для больших наборов данных и ограниченных сред, обеспечивая масштабируемость и быструю производительность. Эта интеграция с Fabric обеспечивает доступ к машинному обучению как техническим, так и не техническим пользователям, ускоряя путь от необработанных данных к практическим аналитическим сведениям.

Задачи машинного обучения

AutoML в Fabric поддерживает широкий спектр задач машинного обучения, включая классификацию, регрессию и прогнозирование, что делает его универсальным для различных приложений, управляемых данными.

Двоичная классификация

Двоичная классификация — это тип защищенной задачи машинного обучения, в которой цель состоит в классификации точек данных в один из двух отдельных классов. Он включает обучение модели на помеченных данных, где каждый экземпляр назначается одной из двух возможных категорий, а модель учится прогнозировать правильный класс для новых, незамеченных данных. Вот некоторые примеры.

Обнаружение нежелательной почты: классификация сообщений электронной почты как нежелательной почты или нежелательной почты.
Обнаружение мошенничества: примечание финансовых транзакций как мошеннические или законные.
Скрининг заболеваний: прогнозирование того, имеет ли пациент состояние (положительное) или нет (отрицательное).

Многоклассовая классификация

Классификация нескольких классов для табличных данных включает назначение одной из нескольких возможных меток каждой строке структурированных данных на основе функций в этом наборе данных. Ниже приведены несколько примеров, относящихся к реальным табличным наборам данных:

Сегментация клиентов: классификация клиентов в сегменты, такие как "Высокая ценность", "Умеренное значение" или "Низкое значение" на основе демографических, покупок и поведенческих данных.
Оценка рисков кредита: прогнозирование уровня риска заявки на кредит как "Низкий", "Средний" или "Высокий" с использованием данных заявителей, таких как доход, кредитный рейтинг и статус занятости.
Прогнозирование категории продуктов: назначение соответствующей категории продукта, например "Электроника", "Одежда", или "Мебель", на основе атрибутов, таких как цена, бренд и спецификации продукта.
Диагноз болезни: определение типа заболевания, у пациента может быть, например "Диабет типа 1", "Диабет типа 2", или "Гестациональный диабет", на основе клинических метрик и результатов теста.

В этих примерах показано, как многоклассовая классификация может поддерживать принятие решений в различных отраслях, где результат может принимать одну из нескольких взаимоисключающих категорий.

Регрессия

Регрессия — это тип машинного обучения, используемый для прогнозирования числа на основе других связанных данных. Это полезно, когда мы хотим оценить определенное значение, например цену, температуру или время, на основе различных факторов, которые могут повлиять на него. Ниже приведены некоторые примеры сценариев:

Прогнозирование цен на жилье с помощью таких сведений, как квадратные кадры, количество комнат и расположение.
Оценка ежемесячных продаж на основе маркетинговых расходов, сезонности и прошлых тенденций продаж.

Прогнозирование

Прогнозирование — это метод машинного обучения, используемый для прогнозирования будущих значений на основе исторических данных. Это особенно полезно для планирования и принятия решений в ситуациях, когда прошлые тенденции и шаблоны могут сообщить, что, вероятно, произойдет дальше. Прогнозирование принимает данные на основе времени , также называемые данными временных рядов, и анализирует шаблоны, такие как сезонность, тенденции и циклы, чтобы сделать точные прогнозы. Ниже приведены некоторые примеры сценариев:

Прогнозирование продаж: прогнозирование будущих показателей продаж на основе прошлых продаж, сезонности и тенденций рынка.
Прогнозирование запасов: определение будущего спроса на продукты с использованием предыдущих данных приобретения и сезонных циклов.

Прогнозирование помогает организациям принимать обоснованные решения, будь то обеспечение достаточного количества запасов, планирования ресурсов или подготовки к изменениям рынка.

Обучение и тестирование наборов данных

Создание обучающих и тестовых наборов данных является важным шагом в создании моделей машинного обучения. Обучающий набор данных используется для обучения модели, позволяя ему изучать шаблоны из помеченных данных, в то время как тестовый набор данных оценивает производительность модели на новых, невидимых данных, помогая проверить ее точность и обобщенность. Разделение данных таким образом гарантирует, что модель не просто запоминает, но может обобщать другие данные.

В Fabric средства AutoML упрощают этот процесс, автоматически разделяя данные на наборы обучения и тестирования, настраивая разделение на основе рекомендаций для конкретной задачи, например классификации, регрессии или прогнозирования.

Проектирование признаков

Проектирование признаков — это процесс преобразования необработанных данных в значимые функции, которые повышают производительность модели машинного обучения. Это критически важный шаг, так как правильные функции помогают модели изучать важные шаблоны и связи в данных, что приводит к улучшению прогнозов. Например, в наборе данных даты создание таких функций, как "праздник", может выявить тенденции, которые улучшают модели прогнозирования.

В Fabric пользователи могут использовать функциональные auto_featurize возможности для автоматизации частей этого процесса. auto_featurize анализирует данные и предлагает или создает соответствующие функции, такие как агрегаты, категориальные кодировки или преобразования, которые могут повысить прогнозную мощность модели. Эта функция экономит время и приносит проектирование функций в пределах досягаемости для пользователей с различными уровнями опыта, что позволяет им создавать более точные и надежные модели.