Поделиться через


Заметки о выпуске инженерии признаков и хранилища признаков в устаревшей рабочей области Databricks

На этой странице перечислены выпуски компонента Feature Engineering для клиента Unity Catalog и клиента Feature Store в Databricks Workspace. Оба клиента доступны в PyPI: databricks-feature-engineering и databricks-feature-store.

Библиотеки используются для:

  • Создавайте, читайте и записывайте таблицы признаков.
  • Обучение моделей на основе данных признаков.
  • Размещайте функциональные таблицы в интернет-магазинах для обслуживания в режиме реального времени.

Документацию по использованию см. в разделе "Проектирование компонентов" и "Обслуживание". Для документации по API Python см. раздел «Инженерия признаков и хранилище признаков в рабочей области API Python».

Инженерия признаков в клиенте Unity Catalog предназначена для работы с признаками и таблицами признаков в Unity Catalog. Клиент Workspace Feature Store работает с признаками и таблицами признаков в Workspace Feature Store. Оба клиента предустановлены в Databricks Runtime для машинного обучения. Они также могут работать в Databricks Runtime после установки databricks-feature-engineering из PyPI (pip install databricks-feature-engineering). Только для модульного тестирования оба клиента могут использоваться локально или в средах CI/CD.

Таблицу, показывающую совместимость версий клиента с версиями Databricks Runtime и Databricks Runtime ML, см. в матрице совместимости Feature Engineering. Более старые версии клиента Databricks Workspace Store доступны в PyPI как databricks-feature-store.

databricks-feature-engineering 0.12.1

  • Поддержка значений по умолчанию для поиска характеристик.
  • Исправления ошибок и улучшения.

databricks-feature-engineering 0.11.0

  • Добавьте поддержку mlflow версии 3.0.
  • Исправления ошибок и улучшения.

databricks-feature-engineering 0.10.2

  • Добавьте поддержку mlflow версии 2.20.0 и выше.
  • Добавьте поддержку версии numpy 2.x.
  • Исправления ошибок и улучшения.

Инженерия признаков в Databricks 0.9.0

  • Поддержка использования prebuilt_env в вызовах score_batch.
  • Улучшения производительности при присоединении функций точек времени с помощью Photon.
  • Исправления ошибок и улучшения.

databricks-feature-engineering 0.8.0

  • Поддержка использования params в вызовах score_batch, что позволяет передавать дополнительные параметры модели для вывода.
  • Исправления ошибок и улучшения.

databricks-feature-engineering 0.7.0

  • Некоторые представления в каталоге Unity теперь можно использовать в качестве таблиц функций для автономного обучения и оценки модели. См. чтение из таблицы функций в каталоге Unity.
  • Теперь наборы обучения можно создавать с помощью обращений к свойствам или спецификации признаков. См. справочник Python SDK.

databricks-feature-engineering 0.6.0

  • Теперь поддерживаются соединения между точками во времени с собственным Spark, а также существующую поддержку с tempo. Огромная благодарность Семон Синченко за предложение идеи!
  • StructType теперь поддерживается как тип данных PySpark. StructType не поддерживается для онлайн-обслуживания.
  • write_table теперь поддерживает запись в таблицы, где включена функция liquid clustering.
  • Параметр timeseries_columns для create_table был переименован в timeseries_column. Существующие рабочие процессы могут продолжать использовать параметр timeseries_columns.
  • score_batch теперь поддерживает env_manager параметр. Дополнительные сведения см. в документации по MLflow.

databricks-feature-engineering 0.5.0

  • Новый API update_feature_spec в databricks-feature-engineering, который позволяет пользователям обновлять владельца компонента FeatureSpec в каталоге Unity.

databricks-feature-engineering 0.4.0

  • Исправления и улучшения небольших ошибок.

databricks-feature-engineering 0.3.0 (пакет для обработки признаков)

  • log_model теперь использует новый пакет PyPI databricks-feature-lookup , который включает улучшения производительности для обслуживания онлайн-моделей.

databricks-feature-store 0.17.0

  • databricks-feature-store не рекомендуется к использованию. Все существующие модули в этом пакете доступны в databricks-feature-engineering версии 0.2.0 и выше. Дополнительные сведения см. в разделе API Python.

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering Теперь содержит все модули из databricks-feature-store. Дополнительные сведения см. в разделе API Python.

databricks-feature-store 0.16.3

  • Исправлена ошибка времени ожидания при использовании AutoML с таблицами компонентов.

databricks-feature-engineering 0.1.3

  • Небольшие улучшения в UpgradeClient.

databricks-feature-store 0.16.2

databricks-feature-store 0.16.1

  • Исправления и улучшения небольших ошибок.

databricks-feature-engineering 0.1.2 & databricks-feature-store 0.16.0

  • Исправления и улучшения небольших ошибок.
    • Исправлены неправильные URL-адреса происхождения заданий, зарегистрированные в некоторых конфигурациях рабочей области.

databricks-feature-engineering 0.1.1

  • Исправления и улучшения небольших ошибок.

databricks-feature-engineering 0.1.0

  • Выпуск общедоступной версии инженерии признаков в клиенте Python для Unity Catalog на PyPI

databricks-feature-store 0.15.1

  • Исправления и улучшения небольших ошибок.

датабрикс-фичер-стор 0.15.0

  • Теперь вы можете автоматически выводить и записывать входной пример при регистрации модели. Для этого задайте для infer_model_example значение True при вызове log_model. Пример основан на обучающих данных, указанных в параметре training_set .

databricks-feature-store 0.14.2

  • Исправлена ошибка при публикации в Aurora MySQL из MariaDB Connector/J >=2.7.5.

databricks-feature-store 0.14.1

  • Исправления и улучшения небольших ошибок.

Хранилище функций Databricks 0.14.0

Начиная с версии 0.14.0, необходимо указать ключевые столбцы метки времени в аргументе primary_keys. Ключи метки времени являются частью "первичных ключей", которые однозначно определяют каждую строку в таблице признаков. Как и другие столбцы первичного ключа, ключевые столбцы метки времени не могут содержать значения NULL.

В следующем примере DataFrame user_features_df включает в себя следующие столбцы: user_id, ts, purchases_30dи is_free_trial_active.

0.14.0 и выше

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 и ниже

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • Исправления и улучшения небольших ошибок.

databricks-feature-store 0.13.0

  • Минимальная требуемая mlflow-skinny версия теперь — 2.4.0.
  • Создание набора обучения завершается ошибкой, если указанный DataFrame не содержит все необходимые ключи подстановки.
  • При ведении журнала модели, используюющей таблицы компонентов в каталоге Unity, подпись MLflow автоматически регистрируется в модели.

databricks-feature-store 0.12.0

  • Теперь вы можете удалить интернет-магазин с помощью drop_online_table API.

databricks-feature-store 0.11.0

  • В рабочих областях с поддержкой каталога Unity теперь можно публиковать таблицы функций рабочей области и каталога Unity в интернет-магазинах Cosmos DB. Для этого требуется Databricks Runtime 13.0 ML или более поздней версии.

databricks-feature-store 0.10.0

  • Исправления и улучшения небольших ошибок.

databricks-feature-store 0.9.0

  • Исправления и улучшения небольших ошибок.

databricks-feature-store 0.8.0

  • Исправления и улучшения небольших ошибок.

databricks-feature-store 0.7.1

  • Добавьте flask в качестве зависимости, чтобы решить проблему отсутствующих зависимостей при оценке моделей с score_batch.

databricks-feature-store 0.7.0

  • Исправления и улучшения небольших ошибок.

databricks-feature-store 0.6.1

  • Первоначальный общедоступный выпуск клиента для хранения признаков Databricks в PyPI.