Поделиться через


Запустите задание Azure Databricks с использованием бессерверных вычислений для рабочих процессов.

Бессерверные вычисления для рабочих процессов позволяют выполнять задание Azure Databricks без настройки и развертывания инфраструктуры. Благодаря бессерверным вычислениям вы можете сосредоточиться на реализации конвейеров обработки и анализа данных, а Azure Databricks эффективно управляет вычислительными ресурсами, включая оптимизацию и масштабирование вычислительных ресурсов для рабочих нагрузок. Автомасштабирование и Photon автоматически включены для вычислительных ресурсов, на которых выполняется ваше задание.

Бессерверные вычисления для рабочих процессов автоматически и непрерывно оптимизируют инфраструктуру, например типы экземпляров, память и обработчики обработки, чтобы обеспечить оптимальную производительность на основе конкретных требований к обработке рабочих нагрузок.

Databricks автоматически обновляет версию Среды выполнения Databricks для поддержки улучшений и обновлений до платформы, обеспечивая стабильность заданий Azure Databricks. Сведения о текущей версии среды выполнения Databricks, используемой бессерверными вычислениями для рабочих процессов, см. в заметках о выпуске бессерверных вычислений.

Так как разрешение на создание кластера не требуется, все пользователи рабочей области могут использовать бессерверные вычисления для выполнения рабочих процессов.

В этой статье описывается использование пользовательского интерфейса заданий Azure Databricks для создания и запуска заданий, использующих бессерверные вычисления. Вы также можете автоматизировать создание и выполнение заданий, использующих бессерверные вычисления с ПОМОЩЬЮ API заданий, пакетов ресурсов Databricks и пакета SDK Databricks для Python.

  • Дополнительные сведения об использовании API Jobs для создания и запуска заданий, использующих бессерверные вычисления, см. в справочнике REST API.
  • Сведения об использовании пакетов ресурсов Databricks для создания и запуска заданий, использующих бессерверные вычисления, см. в статье "Разработка задания с помощью пакетов активов Databricks".
  • Сведения об использовании пакета SDK Databricks для Python для создания и запуска заданий, использующих бессерверные вычисления, см. в пакете SDK Databricks для Python.

Требования

Создание задания с помощью бессерверных вычислений

Примечание.

Поскольку бессерверные вычислительные ресурсы для рабочих процессов автоматически обеспечивают подготовку достаточного количества ресурсов для выполнения ваших рабочих нагрузок, вы можете столкнуться с увеличением времени запуска при выполнении задачи Azure Databricks, требующей большого объема памяти или включающей много задач.

Поддержка бессерверных вычислений обеспечивается для записных книжек, Python-скриптов, dbt и задач типа Python wheel. По умолчанию бессерверные вычисления выбираются в качестве типа вычислений при создании нового задания и добавлении одного из этих поддерживаемых типов задач.

Создание бессерверной задачи

Databricks рекомендует использовать бессерверные вычисления для всех задач задания. Можно также указать различные типы вычислений для задач в задании, которые могут потребоваться, если тип задачи не поддерживается бессерверными вычислениями для рабочих процессов.

Чтобы управлять исходящими сетевыми подключениями для ваших заданий, см. статью Что такое бессерверное управление исходящим трафиком?

Настройка существующего задания для использования бессерверных вычислений

При изменении задания можно переключить существующее задание на использование бессерверных вычислений для поддерживаемых типов задач. Чтобы переключиться на бессерверные вычисления, выполните указанные действия.

  • На боковой панели сведений о задании нажмите Переключиться в разделе Вычисления, нажмите Новый, введите или обновите любые параметры и нажмите кнопку Обновить.
  • В раскрывающемся меню "Вычисления" щелкните и выберите "Бессерверный".

Переключение задачи на бессерверные вычисления

Планирование записной книжки с помощью бессерверных вычислений

Помимо использования пользовательского интерфейса заданий для создания и планирования задания с помощью бессерверных вычислений, можно создать и запустить задание, использующее бессерверные вычисления непосредственно из записной книжки Databricks. См. статью "Создание запланированных заданий записной книжки и управление ими".

Выберите политику бюджета для вашего бессерверного использования

Внимание

Эта функция доступна в общедоступной предварительной версии.

Бессерверные бюджетные политики позволяют организации применять пользовательские теги к бессерверному использованию для более детализированного выставления счетов.

Если в рабочей области используются бессерверные политики бюджета для атрибута бессерверного использования, можно выбрать бессерверную политику бюджета задания с помощью параметра политики "Бюджет " в пользовательском интерфейсе сведений о задании. Если вы назначены только одной бессерверной политике бюджета, политика автоматически выбирается для новых заданий.

Примечание.

После того как вам будет назначена бессерверная политика бюджета, существующие задания не будут автоматически помечены этой политикой. Для того чтобы применить политику к существующим заданиям, необходимо обновить их вручную.

Дополнительные сведения о бессерверных политиках бюджета см. в разделе "Использование атрибутов" с бессерверными политиками бюджета.

Выбор режима производительности

Примечание.

Стандартный режим производительности находится в общедоступной предварительной версии.

Вы можете выбрать режим производительности бессерверного задания с помощью параметра, оптимизированного для производительности , на странице сведений о задании.

Если этот параметр отключен, задание использует стандартный режим производительности. Стандартный режим производительности предназначен для снижения затрат на рабочие нагрузки, в которых допустима небольшая задержка запуска. Бессерверные рабочие нагрузки, использующие стандартный режим производительности, обычно начинаются в течение четырех–шести минут после активации в зависимости от доступности вычислений и оптимизированного планирования.

Если включена оптимизация производительности , задание будет оптимизировано для производительности, что приводит к быстрому запуску и выполнению рабочих нагрузок с учетом времени.

Стандартный режим производительности используется только бессерверными задачами в задании. Чтобы настроить режим производительности в пользовательском интерфейсе, задание должно содержать по крайней мере одну бессерверную задачу.

Примечание.

Стандартный режим производительности не поддерживается для непрерывных конвейеров, однократных запусков, созданных с помощью runs/submit конечной точки или задач хранилища SQL, включая материализованные представления.

настройка параметров конфигурации Spark

Чтобы автоматизировать настройку Spark на бессерверных вычислениях, Databricks позволяет задавать только определенные параметры конфигурации Spark. Список допустимых параметров см. в разделе "Поддерживаемые параметры конфигурации Spark".

Параметры конфигурации Spark можно задать только на уровне сеанса. Для этого задайте их в ноутбуке и добавьте ноутбук к задаче, входящей в то же задание, которое использует эти параметры. См. как получить и задать свойства конфигурации Apache Spark в блокноте.

Настройка сред и зависимостей

Сведения об установке библиотек и зависимостей с помощью бессерверных вычислений см. в статье "Настройка бессерверной среды".

Настройка увеличенной памяти для задач ноутбука

Внимание

Эта функция доступна в общедоступной предварительной версии.

Задачи записной книжки можно настроить для использования более высокого размера памяти. Для этого настройте параметр памяти на боковой панели среды записной книжки. См. раздел "Использование бессерверных вычислений с высокой памятью".

Высокая память доступна только для типов задач записной книжки.

Настройка автоматической оптимизации бессерверных вычислений для запрета повторных попыток

Бессерверные вычисления для автоматический оптимизации рабочих процессов автоматически оптимизируют вычислительные ресурсы, используемые для выполнения заданий и повторных попыток неудачных задач. Автоматическая оптимизация включена по умолчанию, и Databricks рекомендует оставить ее включено, чтобы обеспечить успешное выполнение критически важных рабочих нагрузок по крайней мере один раз. Однако если у вас есть рабочие нагрузки, которые должны выполняться по крайней мере один раз, например задания, которые не идемпотентны, можно отключить автоматическую оптимизацию при добавлении или редактировании задачи:

  1. Рядом с повторными попытками нажмите кнопку "Добавить" (или ", если политика повторных попыток уже существует).
  2. В диалоговом окне политики повторных попыток снимите флажок Включить автоматическую оптимизацию без сервера (может включать дополнительные повторные попытки).
  3. Нажмите кнопку "Подтвердить".
  4. Если вы добавляете задачу, нажмите кнопку "Создать задачу". Если вы редактировать задачу, нажмите кнопку "Сохранить".

Мониторинг затрат на задания, использующие бессерверные вычисления для рабочих процессов

Вы можете отслеживать затраты на задания, которые используют бессерверные вычисления для рабочих процессов, обращаясь к системной таблице оплачиваемого использования . Эта таблица обновляется с учётом атрибутов пользователей и рабочей нагрузки, связанных с вопросами бессерверных затрат. См. справочник по системной таблице с выставлением счетов.

Сведения о текущих ценах и любых рекламных акциях см. на странице цен рабочих процессов.

Просмотр деталей запросов для запусков заданий

Подробные сведения о времени выполнения можно просмотреть для операций Spark, таких как метрики и планы запросов.

Чтобы получить доступ к сведениям о запросах из пользовательского интерфейса заданий, выполните следующие действия.

  1. Щелкните значок рабочих процессовработочие процессы на боковой панели.

  2. Щелкните имя задания, которое вы хотите просмотреть.

  3. Выберите выполнение, которое вы хотите просмотреть.

  4. Щелкните Таймлайн, чтобы просмотреть выполнение в виде временной шкалы, разделённой на отдельные задачи.

  5. Щелкните стрелку рядом с названием задачи, чтобы отобразить запросы и их время выполнения.

    Задача с несколькими запросами и их временем выполнения в представлении временной шкалы из пользовательского интерфейса заданий.

  6. Щелкните по заявлению, чтобы открыть панель сведений о запросе. Дополнительные сведения о запросах см. в разделе "Просмотр сведений ", доступных на этой панели.

Чтобы просмотреть журнал запросов для задачи, выполните следующие действия.

  1. В разделе вычислений на боковой панели запуска задачи щелкните журнал запросов.
  2. Вы перенаправлены в журнал запросов, префильтрованный на основе идентификатора выполнения задачи, над которой вы работали.

Сведения об использовании журнала запросов см. в журнале запросов Access для конвейеров DLT и журнала запросов.

Ограничения

Для списка ограничений на бессерверные вычисления в рабочих процессах см. раздел Ограничения бессерверных вычислений в заметках о выпуске.