Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Вы можете создать и запустить задание с помощью пользовательского интерфейса заданий или средств разработчика, таких как CLI Databricks или REST API. С помощью пользовательского интерфейса или API можно восстановить и повторно запустить неисправное или отмененное задание. В этой статье показано, как создавать, настраивать и изменять задания с помощью пользовательского интерфейса рабочей области "Задания и конвейеры ". Дополнительные сведения о других средствах см. в следующих статьях:
- Дополнительные сведения об использовании интерфейса командной строки Databricks для создания и запуска заданий см. в статье "Что такое интерфейс командной строки Databricks?".
- Дополнительные сведения об использовании API заданий для создания и выполнения процессов смотрите в разделе Задания справочника по REST API.
- Если вы предпочитаете подход к настройке заданий инфраструктуры как кода (IaC), можно использовать пакеты ресурсов Databricks. Дополнительные сведения об использовании пакетов для настройки и оркестрации ваших заданий см. в Databricks Asset Bundles.
- Сведения о том, как выполнять и планировать задания непосредственно в записной книжке Databricks, см. в статье "Создание запланированных заданий записной книжки и управление ими".
Подсказка
Чтобы просмотреть задание как YAML, щелкните меню опций слева от Запустить сейчас для задания, а затем выберите Переключиться на версию кода (YAML).
Какая минимальная конфигурация необходима для задания?
Для всех заданий в Azure Databricks требуется следующее:
- Задача, содержащая логику для выполнения, например ноутбук Databricks. См. статью "Настройка и изменение задач" в заданиях Lakeflow
- Вычислительный ресурс для выполнения логики. Вычислительный ресурс может быть бессерверным вычислением, вычислением для классических заданий или универсальным вычислением. См. раздел "Настройка вычислений для заданий".
- Указанное расписание для выполнения задания. При необходимости можно опустить расписание и запустить задание вручную.
- Уникальное имя.
Создайте новое задание
В этом разделе описаны шаги по созданию нового задания с использованием задачи в записной книжке и запланировать его с помощью пользовательского интерфейса рабочей области.
Задания содержат одну или несколько задач. Вы создаёте новое задание, настраивая первую задачу для этого задания.
Примечание.
Каждый тип задачи имеет динамические параметры конфигурации в пользовательском интерфейсе рабочей области. См. Конфигурация и редактирование задач в заданиях Lakeflow.
- В рабочей области щелкните на
Задания и конвейеры на боковой панели.
- В разделе "Новый" нажмите «Задание».
- Введите имя задачи.
- Выберите записную книжку для поля пути.
- Нажмите Создать задачу.
Если для вашей рабочей области не настроены бессерверные вычисления для заданий, необходимо выбрать параметр вычислительных ресурсов. Databricks рекомендует всегда использовать вычисления заданий при настройке задач.
Новое задание отображается в списке заданий рабочей области с именем по умолчанию New Job <date> <time>
.
Вы можете продолжать добавлять дополнительные задачи в одном задании, если это необходимо для рабочего процесса. Задания с более чем 100 задачами могут иметь особые требования. Дополнительные сведения см. в разделе "Задания" с большим количеством задач.
Планирование задания
Вы можете решить, когда задание выполняется. По умолчанию он будет выполняться только при запуске вручную, но вы также можете настроить его для автоматического запуска. Вы можете создать триггер для запуска задания по расписанию или на основе события.
Управление потоком задач в задании
При настройке нескольких задач в заданиях можно использовать специализированные задачи для управления выполнением задач. См. раздел "Управление потоком задач" в заданиях Lakeflow.
Выберите задачу для редактирования в рабочей области
Чтобы изменить существующее задание с помощью пользовательского интерфейса рабочей области, сделайте следующее:
- На боковой панели рабочей области Azure Databricks щелкните "Задания и конвейеры".
- При необходимости выберите фильтры "Задания " и " Принадлежащие мне ".
- Щелкните по ссылке с названием вашей работы.
Используйте пользовательский интерфейс заданий для выполнения следующих действий:
- Изменение настроек задания
- Переименование, клонирование или удаление задания
- Добавление новых задач в существующее задание
- Изменение параметров задачи
Примечание.
Вы также можете просмотреть определения JSON для использования с REST API получения, созданияи сброса точек доступа.
Изменение параметров задания
На боковой панели содержатся сведения о задании. Триггер задания, конфигурацию вычислений, уведомления, максимальное количество одновременных запусков, настройку пороговых значений длительности и добавление или изменение тегов. Кроме того, можно изменять разрешения задания, если включено управление доступом к заданиям.
Добавление параметров ко всем задачам
Параметры, настроенные на уровне задания, передаются задачам этого задания, которые принимают ключевые значения, включая wheel-файлы Python, настроенные для принятия именованных аргументов. См . статью "Параметризация заданий".
Добавление тегов в задание
Чтобы добавить метки или атрибуты key-value в задание, можно добавить теги при редактировании задания. Теги можно использовать для фильтрации заданий в списке заданийdepartment
тег для фильтрации всех заданий, принадлежащих определенному отделу.
Примечание.
Так как теги заданий не предназначены для хранения конфиденциальных данных, таких как персональные данные или пароли, Databricks рекомендует использовать теги только для нечувствительных значений.
Теги также распространяются на кластеры заданий, созданные при запуске задания, что позволяет использовать теги с существующим механизмом мониторинга кластера.
Нажмите кнопку +Тег на боковой панели сведений о задании, чтобы добавить или изменить теги. Тег можно добавить как метку или как пару "ключ-значение". Чтобы добавить метку, введите метку в поле Ключ, а поле Значение оставьте пустым.
Добавить бессерверную политику бюджета для задания
Если в рабочей области используются бессерверные политики бюджета для атрибута бессерверного использования, можно выбрать бессерверную политику бюджета заданий с помощью параметра политики "Бюджет " на боковой панели сведений о задании . Смотрите Использование атрибутов с бессерверными бюджетными политиками.
Переименование, клонирование или удаление задания
Чтобы переименовать задание, перейдите в пользовательский интерфейс заданий и щелкните имя задания.
Чтобы быстро создать новое задание, можно клонировать уже существующее. Клонирование задания создает идентичную копию задания, за исключением идентификатора задания. Чтобы клонировать работу, сделайте следующее:
- Перейдите на интерфейс задач для этой работы.
- Щелкните
Рядом с кнопкой "Запустить".
- Выберите задание клонирования в раскрывающемся меню.
- Введите имя клонированной задачи.
- Нажмите Клонировать.
Удаление задания
Чтобы удалить задание, перейдите на страницу задания, щелкните Рядом с именем задания и выберите "Удалить задание " в раскрывающемся меню.
Использование Git с заданиями
Если задание содержит все задачи, которые поддерживают использование удаленного поставщика Git, пользовательский интерфейс заданий содержит поле Git и параметр добавления или изменения параметров Git.
Вы можете настроить следующие типы задач для использования удаленного репозитория Git:
- Записные книжки
- Сценарии Python
- SQL-файлы
- dbt
Все задачи в задании должны ссылаться на один коммит в удалённом репозитории. Для задания, использующего удаленный репозиторий, необходимо указать только одно из следующих действий:
-
ветвь: имя ветви, например
main
. -
tag: имя тега, например
release-1.0.0
. -
commit: хэш конкретного коммита, например
e0056d01
.
При запуске задания Databricks фиксирует моментальный снимок удаленного репозитория, чтобы убедиться, что все задание выполняется на той же версии кода.
При просмотре журнала выполнения задачи, которая выполняет код, хранящийся в удаленном репозитории Git, панель сведений о выполнении задач содержит сведения о Git, включая фиксацию SHA, связанную с выполнением. См. Просмотр журнала выполнения задач.
Примечание.
Задачи, настроенные для использования удаленного репозитория Git, не могут записываться в файлы рабочей области. Эти задачи должны записывать временные данные в эфемерное хранилище, подключенное к узлу драйвера вычислительной системы, настроенной для выполнения задачи, и постоянные данные в том или таблицу.
Databricks рекомендует ссылаться на пути рабочих областей в папках Git только для быстрой итерации и тестирования во время разработки. При перемещении заданий в среду тестирования и среду эксплуатации Databricks рекомендует настроить эти задания для ссылки на удалённый репозиторий Git. Дополнительные сведения об использовании удаленного репозитория Git с заданием Databricks см. в следующем разделе.
Настройка поставщика Git
Пользовательский интерфейс заданий содержит диалоговое окно для настройки удаленного репозитория Git. Это диалоговое окно доступно на панели сведений о задании под заголовком Git или в любой задаче, настроенной для использования поставщика Git.
Параметры, отображаемые для доступа к диалогу, зависят от типа задачи и того, настроена ли ссылка на Git для задания. Кнопки для запуска диалогового окна включают добавление параметров Git, правку или добавление ссылки на git.
В диалоговом окне Git Information (просто обозначенном как Git, если доступ осуществляется через панель сведений о задании), введите следующие данные:
- URL-адрес репозитория Git.
- Выберите поставщика Git в раскрывающемся списке.
- В поле Git reference введите идентификатор ветки, тега или коммита, соответствующий версии исходного кода, которую требуется запустить.
- Выберите ветвь, тег или коммит в раскрывающемся списке.
Примечание.
Диалоговое окно может выдать следующее сообщение: учетные данные Git для этой учетной записи отсутствуют. Добавьте учетные данные. Прежде чем использовать его в качестве ссылки, необходимо настроить удаленный репозиторий Git. См. статью "Настройка папок Git Databricks".
Настройка пороговых значений для длительности выполнения заданий или метрик отставания потоковой обработки
Это важно
Наблюдаемость потоковой передачи для заданий Lakeflow доступна в общедоступной предварительной версии.
Можно настроить необязательные пороговые значения для длительности выполнения задания или метрик отставания потока. Чтобы настроить пороговые значения длительности или потоковой метрики, щелкните Пороговые значения длительности и потоковой очереди в панели сведений о задании .
Чтобы настроить пороговые значения длительности задания, включая ожидаемое и максимальное время завершения, выберите Длительность выполнения в раскрывающемся меню Метрика. Введите длительность в поле "Предупреждение" , чтобы настроить ожидаемое время завершения задания. Если задание превышает это пороговое значение, активируется событие. Это событие можно использовать для уведомления о медленном выполнении задания. См. раздел Настройка уведомлений для медленных заданий. Чтобы настроить максимальное время завершения задания, введите максимальную длительность в поле "Время ожидания ". Если задание не завершается за это время, Azure Databricks устанавливает для его состояния значение "Время ожидания истекло".
Чтобы настроить пороговое значение для метрики отставания потоковой передачи, выберите метрику в раскрывающемся меню Метрика и введите значение порога. Дополнительные сведения о конкретных метриках, поддерживаемых источником потоковой передачи, см. в разделе Просмотр метрик для задач потоковой передачи.
Если событие активируется из-за превышения порогового значения, можно использовать событие для отправки уведомления. См. раздел Настройка уведомлений для медленных заданий.
При необходимости можно указать пороговые значения длительности для задач. Смотрите настройку порогов для продолжительности выполнения задач или метрик потока невыполненных задач.
Включение очереди запусков заданий
Примечание.
Очередь включена по умолчанию для заданий, созданных с помощью пользовательского интерфейса после 15 апреля 2024 г.
Чтобы предотвратить пропуск выполнения задания из-за ограничений параллелизма, можно включить очередь для задания. Если включена очередь, выполнение задания ставится в очередь до 48 часов, если ресурсы недоступны для выполнения задания. Когда емкость доступна, выполнение задания будет отложено и выполняется. Очереди запуска отображаются в списке запусков для задания, а также в списке последних запусков заданий.
Выполнение выполняется в очередь при достижении одного из следующих ограничений:
- Максимальное число параллельных активных процессов в рабочей области.
- Максимальная параллельная
Run Job
задача выполняется в рабочей области. - Максимальное число параллельных запусков задания.
Очередь — это свойство уровня задания, которое выполняется только для этого задания.
Чтобы включить или отключить очередь, нажмите кнопку "Дополнительные параметры" и нажмитекнопку "Включить очередь" на боковой панели сведений о задании.
Настройка максимального числа одновременных запусков
По умолчанию максимальное число одновременных запусков для всех новых заданий равно 1.
Нажмите кнопку "Изменить параллельные запуски " в разделе "Дополнительные параметры", чтобы задать максимальное количество параллельных запусков этого задания.
Azure Databricks пропускает выполнение, если при попытке запуска нового выполнения задание уже достигло максимального числа активных выполнений.
Задайте это значение выше 1, чтобы разрешить несколько одновременных запусков одного задания. Это полезно, например, если вы запускаете задание по частому расписанию и хотите допустить перекрытие последовательных запусков или инициировать несколько запусков, различающихся входными параметрами.