Запуск заданий Lakeflow с бессерверными вычислениями для рабочих процессов

Бессерверные вычисления для рабочих процессов позволяют выполнять задание без настройки и развертывания инфраструктуры. При использовании бессерверных вычислений основное внимание уделяется реализации конвейеров обработки и анализа данных, а также Azure Databricks эффективно управляет вычислительными ресурсами, включая оптимизацию и масштабирование вычислений для рабочих нагрузок. Автомасштабирование и Photon автоматически включены для вычислительных ресурсов, на которых выполняется ваше задание.

Бессерверные вычисления для рабочих процессов автоматически и непрерывно оптимизируют инфраструктуру, например типы экземпляров, память и обработчики обработки, чтобы обеспечить оптимальную производительность на основе конкретных требований к обработке рабочих нагрузок.

Databricks автоматически обновляет версию Databricks Runtime для поддержки улучшений и обновлений платформы, обеспечивая стабильность заданий. Сведения о текущей версии среды выполнения Databricks, используемой бессерверными вычислениями для рабочих процессов, см. в заметках о выпуске бессерверных вычислений.

Так как разрешение на создание кластера не требуется, все пользователи рабочей области могут использовать бессерверные вычисления для выполнения рабочих процессов.

На этой странице описывается использование пользовательского интерфейса заданий Lakeflow для создания и запуска заданий, использующих бессерверные вычисления. Вы также можете автоматизировать создание и выполнение заданий, использующих бессерверные вычисления с API заданий, декларативными пакетами автоматизации и пакетом SDK Databricks для Python.

  • Дополнительные сведения об использовании API Jobs для создания и запуска заданий, использующих бессерверные вычисления, см. в справочнике REST API.
  • Сведения об использовании декларативных пакетов автоматизации для создания и запуска заданий, использующих бессерверные вычисления, см. в статье "Разработка задания с помощью декларативных пакетов автоматизации".
  • Сведения об использовании пакета SDK Databricks для Python для создания и запуска заданий, использующих бессерверные вычисления, см. в статье Databricks SDK для Python.

Требования

  • Рабочая область Azure Databricks должна включать каталог Unity.
  • Так как бессерверные вычисления для рабочих процессов используют стандартный режим доступа, рабочие нагрузки должны поддерживать этот режим доступа.

Создание задания с помощью бессерверных вычислений

Примечание.

Поскольку бессерверные вычислительные ресурсы для рабочих процессов гарантируют наличие достаточных ресурсов для запуска ваших рабочих нагрузок, при выполнении задания, требующего большого объема памяти или множества задач, вы можете столкнуться с увеличенным временем запуска.

Бессерверные вычисления поддерживаются с помощью записной книжки, скрипта Python, dbt, Python колесика и типов задач JAR. По умолчанию, при создании задания и добавлении одного из этих поддерживаемых типов задач, выбираются бессерверные вычисления в качестве типа вычислений.

Внимание

Использование бессерверных вычислений для задач JAR находится в общедоступной предварительной версии.

Создание бессерверной задачи

Databricks рекомендует использовать бессерверные вычисления для всех задач задания. Можно также указать различные типы вычислений для задач в задании, которые могут потребоваться, если тип задачи не поддерживается бессерверными вычислениями для рабочих процессов.

Чтобы управлять исходящими сетевыми подключениями для ваших заданий, см. статью Что такое бессерверное управление исходящим трафиком?

Настройка существующего задания для использования бессерверных вычислений

При изменении задания можно переключить существующее задание на использование бессерверных вычислений для поддерживаемых типов задач. Чтобы переключиться на бессерверные вычисления, выполните указанные действия.

  • На боковой панели сведений о задании нажмите Переключиться в разделе Вычисления, нажмите Новый, введите или обновите любые параметры и нажмите кнопку Обновить.
  • В раскрывающемся меню Down CaretDown Caret"Вычисления" щелкните и выберите "Бессерверный".

Переключение задачи на бессерверные вычисления

Планирование записной книжки с помощью бессерверных вычислений

Помимо использования пользовательского интерфейса заданий для создания и планирования задания с помощью бессерверных вычислений, можно создать и запустить задание, использующее бессерверные вычисления непосредственно из записной книжки Databricks. См. статью "Создание запланированных заданий записной книжки и управление ими".

Выбор бессерверной политики использования для бессерверного использования

Внимание

Эта функция доступна в общедоступной предварительной версии.

Политики бессерверного использования позволяют организации применять пользовательские теги к бессерверному использованию для детализации выставления счетов.

Если в вашей рабочей области используются бессерверные политики использования для учета бессерверного использования, можно выбрать политику бессерверного использования для вашего задания с помощью настройки Budget policy в пользовательском интерфейсе сведений о задании. Если вы подчиняетесь только одной бессерверной политике использования, эта политика автоматически применяется для ваших новых работ.

Примечание.

После назначения бессерверной политики использования существующие задания не будут автоматически помечены политикой. Для того чтобы применить политику к существующим заданиям, необходимо обновить их вручную.

Дополнительные сведения о политиках бессерверного использования см. в разделе "Использование атрибутов" с бессерверными политиками использования.

Выбор режима производительности

Вы можете выбрать, насколько быстро выполняются бессерверные задачи задания, используя оптимизированный для производительности параметр на странице сведений о задании.

  • При отключении оптимизации производительности задание использует стандартный режим производительности. Этот режим использует меньше вычислительных ресурсов для снижения затрат, что делает его подходящим для рабочих нагрузок, которые могут допускать немного более высокую задержку запуска в 4–6 минут в зависимости от доступности вычислительных ресурсов и оптимизированного планирования.

  • При включении оптимизации производительности задание запускается и выполняется быстрее. Этот режим предназначен для рабочих нагрузок, требующих быстрого реагирования.

Оба режима используют один и тот же SKU, но стандартный режим производительности потребляет меньше DBU, что отражает более низкое использование вычислительных мощностей.

Чтобы настроить оптимизированный для производительности параметр в пользовательском интерфейсе, задание должно иметь по крайней мере одну бессерверную задачу. Этот параметр влияет только на бессерверные задачи в задании.

Примечание.

Стандартный режим производительности не поддерживается для одноразовых запусков, созданных с конечной точки runs/submit.

настройка параметров конфигурации Spark

Чтобы автоматизировать настройку Spark на бессерверных вычислениях, Databricks позволяет задавать только определенные параметры конфигурации Spark. Список допустимых параметров см. в разделе "Поддерживаемые параметры конфигурации Spark".

Параметры конфигурации Spark можно задать только на уровне сеанса. Для этого задайте их в ноутбуке и добавьте ноутбук к задаче, входящей в то же задание, которое использует эти параметры. См. Настройка свойств конфигурации Spark в Azure Databricks.

Настройка сред и зависимостей

Сведения об установке библиотек и зависимостей с помощью бессерверных вычислений см. в статье "Настройка бессерверной среды".

Настройка увеличенной памяти для задач ноутбука

Внимание

Эта функция доступна в общедоступной предварительной версии.

Задачи записной книжки можно настроить для использования более высокого размера памяти. Для этого настройте параметр памяти на боковой панели среды записной книжки. См. раздел "Использование бессерверных вычислений с высокой памятью".

Высокая память доступна только для типов задач записной книжки.

Настройка автоматической оптимизации бессерверных вычислений для запрета повторных попыток

Бессерверные вычисления для автоматический оптимизации рабочих процессов автоматически оптимизируют вычислительные ресурсы, используемые для выполнения заданий и повторных попыток неудачных задач. Автоматическая оптимизация включена по умолчанию, и Databricks рекомендует оставить ее включено, чтобы обеспечить успешное выполнение критически важных рабочих нагрузок по крайней мере один раз. Однако если у вас есть рабочие нагрузки, которые должны выполняться по крайней мере один раз, например задания, которые не идемпотентны, можно отключить автоматическую оптимизацию при добавлении или редактировании задачи:

  1. Рядом с повторными попытками нажмите кнопку "Добавить" (или ", если политика Edit Iconповторных попыток уже существует).
  2. В диалоговом окне политики повторных попыток снимите флажок Включить автоматическую оптимизацию без сервера (может включать дополнительные повторные попытки).
  3. Нажмите кнопку "Подтвердить".
  4. Если вы добавляете задачу, нажмите кнопку "Создать задачу". Если вы редактировать задачу, нажмите кнопку "Сохранить".

Мониторинг затрат на задания, использующие бессерверные вычисления для рабочих процессов

Вы можете отслеживать затраты на задания, которые используют бессерверные вычисления для рабочих процессов, обращаясь к системной таблице оплачиваемого использования . Эта таблица обновляется с учётом атрибутов пользователей и рабочей нагрузки, связанных с вопросами бессерверных затрат. См. справочник по системной таблице с выставлением счетов.

Сведения о текущих ценах и любых рекламных акциях см. на странице цен рабочих процессов.

Просмотр деталей запросов для запусков заданий

Подробные сведения о времени выполнения можно просмотреть для операций Spark, таких как метрики и планы запросов.

Чтобы получить доступ к сведениям о запросах из пользовательского интерфейса заданий, выполните следующие действия.

  1. На боковой панели рабочей области Azure Databricks щелкните Jobs & Конвейеры.

  2. При необходимости выберите фильтр заданий .

  3. Щелкните имя задания, которое вы хотите просмотреть.

  4. Выберите выполнение, которое вы хотите просмотреть.

  5. Щелкните Таймлайн, чтобы просмотреть выполнение в виде временной шкалы, разделённой на отдельные задачи.

  6. Щелкните стрелку рядом с названием задачи, чтобы отобразить запросы и их время выполнения.

    Задача с несколькими запросами и их временем выполнения в представлении временной шкалы из пользовательского интерфейса заданий.

  7. Щелкните по заявлению, чтобы открыть панель сведений о запросе. Дополнительные сведения о запросах см. в разделе "Просмотр сведений ", доступных на этой панели.

Чтобы просмотреть журнал запросов для задачи, выполните следующие действия.

  1. В разделе вычислений на боковой панели запуска задачи щелкните журнал запросов.
  2. Вы перенаправлены в журнал запросов, префильтрованный на основе идентификатора выполнения задачи, над которой вы работали.

Для получения информации об использовании журнала запросов см. разделы История запросов для конвейеров и Журнал запросов.

Ограничения

Для списка ограничений на бессерверные вычисления в рабочих процессах см. раздел Ограничения бессерверных вычислений в заметках о выпуске.