Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице рассматриваются возможности проектирования функций и обслуживания рабочих областей, которые включены для каталога Unity. Если параметры вашего рабочего пространства не активированы для Unity Catalog, см. Хранилище функций рабочего пространства (устаревшая версия).
Зачем использовать Databricks в качестве хранилища функций?
С помощью платформы Databricks Data Intelligence весь рабочий процесс обучения модели выполняется на одной платформе:
- Конвейеры данных, которые загружают необработанные данные, создают таблицы характеристик, обучают модели и выполняют пакетное прогнозирование. При обучении и регистрации модели с помощью проектирования компонентов в каталоге Unity модель упаковается с метаданными компонентов. При использовании модели для групповой оценки или онлайн-инференции она автоматически получает значения признаков. Вызывающему не требуется знать о них или включать логику для поиска или объединения признаков для оценки новых данных.
- Модели и функции, обслуживающие конечные точки, доступные с одним щелчком мыши и предоставляющие миллисекунд задержки.
- Мониторинг данных и моделей.
Кроме того, платформа предоставляет следующие возможности:
- Исследование функций. Вы можете просматривать и искать функции в пользовательском интерфейсе Databricks.
- Управление. Таблицы признаков, функции и модели управляются каталогом Unity. При обучении модели она наследует разрешения от данных, на которых была обучена.
- Родословная. При создании таблицы функций в Azure Databricks источники данных, используемые для создания таблицы компонентов, сохраняются и доступны. Для каждой функции в таблице компонентов можно также получить доступ к моделям, записным книжкам, заданиям и конечным точкам, которые используют эту функцию.
- Доступ между рабочими областями. Функции, модели и таблицы признаков автоматически доступны в любой рабочей области, имеющей доступ к каталогу.
Требования
- Рабочая область должна быть активирована для каталога Unity.
- Для разработки функций в каталоге Unity требуется Databricks Runtime 13.3 LTS или более поздней версии.
Если ваша рабочая область не соответствует этим требованиям, см. о том, как использовать устаревшее хранилище компонентов рабочей области.
Как работает проектирование функций в Databricks?
Типичный рабочий процесс машинного обучения с помощью инженерии функций в Databricks следует этому пути:
- Напишите код для преобразования необработанных данных в признаки и создания объекта DataFrame Spark, содержащего нужные признаки.
- Создайте таблицу Delta в каталоге Unity с первичным ключом.
- Обучите модель и ведите её журнальный учёт, используя таблицу признаков. Когда вы это делаете, модель сохраняет характеристики признаков, используемых для обучения. Если модель используется для вывода, она автоматически присоединяет функции из соответствующих таблиц компонентов.
- Зарегистрируйте модель в реестре моделей.
Эту модель теперь можно использовать для создания прогнозов по новым данным. В случаях использования с пакетной обработкой модель автоматически извлекает необходимые признаки из Хранилища признаков.
Для вариантов использования в режиме реального времени опубликуйте функции в интерактивной таблице. Сторонние интернет-магазины также поддерживаются. См . сторонние интернет-магазины.
Во время вывода модель считывает предварительно вычисляемые функции из интернет-магазина и присоединяет их к данным, предоставленным в клиентском запросе к конечной точке обслуживания модели.
Начало использования инженерии функций — примеры записных книжек
Чтобы приступить к работе, попробуйте использовать эти примеры записных книжек. Основной ноутбук пошагово показывает, как создать таблицу признаков, использовать её для обучения модели, а затем выполнить пакетное оценивание, используя автоматический поиск функций. Он также содержит сведения о пользовательском интерфейсе проектирования функций и показывает, как его можно использовать для поиска функций и понимания того, как создаются и используются функции.
Базовая признаковая инженерия в примере записной книжки каталога Unity
Пример записной книжки для такси иллюстрирует процесс создания функций, их обновления и использования для обучения модели и пакетного вывода.
Пример записной книжки "Проектирование компонентов в каталоге Unity"
Поддерживаемые типы данных
Проектирование компонентов в каталоге Unity и устаревшее хранилище компонентов рабочей области поддерживают следующие типы данных PySpark:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
-
BinaryType
[1] -
DecimalType
[1] -
MapType
[1] -
StructType
[2]
[1] BinaryType
, DecimalType
и MapType
поддерживаются во всех версиях конструктора компонентов в каталоге Unity и в магазине компонентов рабочей области версии 0.3.5 или более поздней версии.
[2] StructType
поддерживается в конструкторе компонентов версии 0.6.0 или более поздней версии.
Перечисленные выше типы данных поддерживают типы функций, которые распространены в приложениях машинного обучения. Например:
- Вы можете хранить сжатые векторы, тензоры и внедрения как
ArrayType
. - Вы можете хранить разреженные векторы, тензоры и внедрения как
MapType
. - Вы можете хранить текст как
StringType
.
При публикации в онлайн-магазинах функции ArrayType
и MapType
сохраняются в формате JSON.
В пользовательском интерфейсе хранилища признаков отображаются метаданные для типов данных признаков:
Дополнительные сведения
Для получения дополнительной информации о лучших практиках скачайте Полное руководство по Feature Stores.