Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание.
Задание Apache Airflow работает под управлением Apache Airflow.
Задание Apache Airflow, преобразующее возможности в Microsoft Fabric, переопределяет подход к созданию конвейеров данных и управлению ими. На базе среды выполнения Apache Airflow задания Apache Airflow предоставляют интегрированную облачную платформу для разработки, планирования и мониторинга баз данных DaGs на основе Python (направленные Acyclic Graphs). Он предоставляет интерфейс Software-as-Service (SaaS) для разработки конвейера данных и управления ими с помощью Apache Airflow. Это делает среду выполнения Apache Airflow легко доступной, позволяя создавать и работать группы доступности Airflow.
Основные понятия в задании Apache Airflow
- Мгновенное подготовка среды выполнения Apache Airflow: инициируйте новый рабочий процесс данных и немедленно обращается к среде выполнения Apache Airflow для запуска, отладки и эксплуатации групп доступности.
- Универсальная облачная разработка (IDE): помимо существующих средств разработки для создания dags Apache Airflow, вы можете использовать облачную среду разработки, предоставляемую Заданием Apache Airflow для действительно облачной и оптимизированной для разработки и отладки SaaS.
- Динамическое автоматическое масштабирование. Выполнение сотен задач Apache Airflow параллельно с нашей функцией автомасштабирования, предназначенной для снижения очереди заданий и повышения производительности.
- Интеллектуальная автоматическая приостановка: обеспечение экономичности путем автоматической приостановки среды выполнения Apache Airflow в минутах после бездействия в рабочих процессах данных, оптимизации использования емкости, особенно во время этапов разработки, в которых непрерывная среда выполнения не требуется.
- Расширенная встроенная безопасность: интегрированная в Microsoft Fabric среда выполнения Apache Airflow поддерживает идентификатор Microsoft Entra ID, упрощая единый вход при взаимодействии с интерфейсами UIs Apache Airflow. Кроме того, он включает роли рабочей области Microsoft Fabric для надежных мер безопасности.
- Поддержка подключаемых модулей и библиотек Apache Airflow: так как рабочие процессы данных на базе Apache Airflow поддерживают все функции, подключаемые модули и библиотеки Apache Airflow, предлагая сравнимую расширяемость.
- Настраиваемые пулы для повышения гибкости. При создании нового рабочего процесса данных используется пул по умолчанию — начальный пул. Этот пул мгновенно доступен и оптимизирован для обеспечения серверной среды выполнения Apache Airflow. Он также отключается, если не используется для экономии затрат, что делает его идеальным для сценариев разработки. Если требуется больше контроля над пулами, можно создать пользовательский пул. Этот пул позволяет указать размер, конфигурацию автомасштабирования и многое другое. Настройка рабочих процессов данных для рабочей среды таким образом обеспечивает автоматическую операцию с средой выполнения Apache Airflow, поддерживающей возможности планирования Apache Airflow. Настраиваемые пулы можно создавать с помощью параметров рабочей области, обеспечивая адаптацию рабочих процессов к конкретным потребностям.
Миграция из Диспетчера оркестрации рабочих процессов Azure
Необходимые компоненты
Чтобы клиенты могли обновить задание Apache Airflow в Microsoft Fabric из диспетчера оркестрации рабочих процессов Azure, рассмотрите следующие два сценария:
Сценарий 1. Вы используете хранилище BLOB-объектов в диспетчере оркестрации рабочих процессов Azure.
В этом сценарии рекомендуется использовать Visual Studio Code для простой миграции. Откройте файлы рабочих процессов в Visual Studio Code и скопируйте их в управляемое хранилище Fabric. Этот метод обеспечивает простой переход и быстрый доступ к мощным функциям рабочих процессов данных.
Сценарий 2. Использование хранилища синхронизации Git в Диспетчере оркестрации рабочих процессов Azure
В этом сценарии используйте функцию синхронизации Git задания Apache Airflow, чтобы легко синхронизировать репозиторий GitHub. Как и диспетчер оркестрации рабочих процессов Azure, эта функция гарантирует, что репозиторий GitHub остается синхронизированным, что позволяет начать разработку мгновенно. Чтобы приступить к работе, выполните инструкции по синхронизации репозитория GitHub в задании Apache Airflow.