Регрессия с помощью AutoML

Используйте AutoML для автоматического поиска оптимального алгоритма регрессии и конфигурации гиперпараметров для прогнозирования непрерывных числовых значений.

Настройка эксперимента регрессии с пользовательским интерфейсом

Вы можете настроить проблему регрессии с помощью пользовательского интерфейса AutoML, выполнив следующие действия.

  1. На боковой панели выберите Эксперименты.

  2. В карточке регрессии нажмите кнопку "Начать обучение".

    Откроется страница Настройка эксперимента AutoML. На этой странице вы настроите процесс AutoML, указав набор данных, тип задачи, целевой или меточный столбец для прогнозирования, метрики для оценки и подсчета результатов выполнения экспериментов, а также условия для их остановки.

  3. В поле Вычисление выберите кластер, работающий на Databricks Runtime ML.

  4. В категории Набор данныхвыберите Просмотреть.

  5. Перейдите к таблице, которую вы хотите использовать, и щелкните Выбрать. Появится схема таблицы.

    Примечание.

    При выборе метода импутации, кроме заданного по умолчанию, AutoML не выполняет обнаружение семантических типов.

  6. Щелкните поле Цель прогнозирования. В раскрывающемся списке отображаются столбцы, отображаемые в схеме. Выберите столбец, который модель должна прогнозировать.

  7. В поле Имя эксперимента отображается имя по умолчанию. Чтобы изменить его, введите новое имя в поле.

Кроме того, вы можете сделать следующее:

Дополнительные конфигурации

Откройте раздел Advanced Configuration (необязательно), чтобы получить доступ к этим параметрам.

  • Метрика оценки — это основная метрика, используемая для оценки запусков.
  • В Databricks Runtime 10.4 LTS ML и более поздних версиях можно исключить платформы обучения из рассмотрения. По умолчанию AutoML обучает модели с использованием платформ, перечисленных в разделе Алгоритмы AutoML.
  • Вы можете изменить условия остановки. Условия остановки по умолчанию:
    • В экспериментах прогнозирования остановка происходит через 120 минут.
    • В Databricks Runtime 10.4 LTS ML и ниже для экспериментов классификации и регрессии следует остановиться через 60 минут или после завершения 200 испытаний, в зависимости от того, что наступит раньше. После версии Databricks Runtime 11.0 ML количество пробных выполнений не учитывается в качестве условия остановки.
    • В Databricks Runtime 10.4 LTS ML и более поздних версиях для экспериментов по классификации и регрессии AutoML включает функцию ранней остановки модельного обучения; если показатель валидации больше не улучшается, процесс обучения и настройки моделей прекращается.
  • В Databricks Runtime 10.4 LTS ML и более поздних версий можно выбрать time column, чтобы разделить данные для обучения, проверки и тестирования в хронологическом порядке, (применяется только к классификации и регрессии ).
  • Databricks рекомендует оставить поле каталога данных пустым. Не заполнение этого поля активирует поведение по умолчанию безопасного хранения набора данных в качестве артефакта MLflow. Путь к DBFS можно указать, но в этом случае набор данных не наследует разрешения на доступ к эксперименту AutoML.

Запуск эксперимента и проверка результатов

Чтобы запустить эксперимент AutoML, нажмите кнопку Запустить AutoML. Начнется запуск эксперимента, и появится страница обучения AutoML. Чтобы обновить таблицу запусков, нажмите кнопку .

Просмотр хода выполнения эксперимента

На этой странице можно выполнить следующие действия.

  • Остановить эксперимент в любое время.
  • Открыть блокнот исследования данных.
  • Отслеживание выполнений.
  • Перейдите на страницу запуска для любого запуска.

При использовании Databricks Runtime 10.1 ML и более поздних версий AutoML отображает предупреждения о потенциальных проблемах с набором данных, таких как неподдерживаемые типы столбцов или столбцы высокой кратности.

Примечание.

Databricks делает все возможное, чтобы указать на потенциальные ошибки или проблемы. Однако это может быть не исчерпывающим и может не улавливать проблемы или ошибки, которые вы могли бы искать.

Чтобы просмотреть предупреждения для набора данных, щелкните вкладку "Предупреждения " на странице обучения или на странице эксперимента после завершения эксперимента.

Предупреждения AutoML

Показать результаты

После завершения эксперимента можно выполнить следующие действия.

  • Зарегистрируйте и разверните одну из моделей с помощью MLflow.
  • Выберите Просмотреть записную книжку для лучшей модели, чтобы просмотреть и изменить записную книжку, созданную лучшей моделью.
  • Выберите Просмотреть записную книжку для просмотра данных, чтобы открыть записную книжку для изучения данных.
  • Поиск, фильтрация и сортировка запусков в таблице запусков.
  • Дополнительные сведения о любом запуске:
    • Созданная записная книжка, содержащая исходный код для пробного запуска, может быть найдена, щелкнув на запуск MLflow. Записная книжка сохраняется в разделе "Артефакты" страницы запуска. Эту записную книжку можно скачать и импортировать в рабочую область, если скачивание артефактов включено администраторами рабочей области.
    • Чтобы просмотреть результаты выполнения, щелкните в столбце модели или в столбце времени начала. Откроется страница запуска, показывающая сведения о пробной версии (например, параметрах, метриках и тегах) и артефактах, созданных с помощью запуска, включая модель. На этой странице также содержатся фрагменты кода, которые можно использовать для создания прогнозов с помощью модели.

Чтобы вернуться к этому эксперименту AutoML позже, найдите его в таблице на странице "Эксперименты ". Результаты каждого эксперимента AutoML, включая записные книжки исследования данных и обучения, хранятся в папке databricks_automl в домашней папке пользователя, запустившего эксперимент.

Регистрация и развертывание модели

Зарегистрируйте и разверните модель с помощью пользовательского интерфейса AutoML. После завершения выполнения верхняя строка отображает лучшую модель на основе основной метрики.

  1. Выберите ссылку в столбце "Модели" для модели, которую вы хотите зарегистрировать.
  2. Нажмите кнопку регистрации модели , чтобы зарегистрировать ее в каталоге Unity или реестре моделей.

    Примечание.

    Databricks рекомендует зарегистрировать модели в каталоге Unity для последних функций.

  3. После регистрации можно развернуть модель на настраиваемой конечной точке обслуживания модели.

Нет модуля с именем Pandas.core.indexes.numeric

При обслуживании модели, созданной с помощью AutoML с обслуживанием моделей, может возникнуть ошибка: No module named 'pandas.core.indexes.numeric.

Это связано с несовместимой pandas версией между AutoML и средой конечной точки обслуживания модели. Эту ошибку можно устранить, выполнив скрипт add-pandas-dependency.py. Скрипт изменяет элементы requirements.txt и conda.yaml вашего зарегистрированного модели, чтобы включить версию зависимости pandas: pandas==1.5.3.

  1. Измените скрипт, чтобы включить идентификатор run_id того запуска MLflow, в котором была зарегистрирована ваша модель.
  2. Повторно зарегистрируйте модель в каталоге Unity или реестре моделей.
  3. Попробуйте использовать новую версию модели MLflow.

Следующие шаги