Azure Data Factory управляемая виртуальная сеть

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

В этой статье описываются управляемые виртуальные сети и управляемые частные конечные точки в Azure Data Factory.

Управляемая виртуальная сеть

При создании среды выполнения интеграции Azure в управляемой виртуальной сети фабрики данных среда выполнения интеграции подготавливается с помощью управляемой виртуальной сети. Он использует частные конечные точки для безопасного подключения к поддерживаемым хранилищам данных.

Создание среды выполнения интеграции в управляемой виртуальной сети гарантирует изоляцию и безопасность процесса интеграции данных.

Преимущества использования управляемой виртуальной сети:

  • С помощью управляемой виртуальной сети можно выгрузить бремя управления виртуальной сетью в фабрику данных. Вам не нужно создавать подсеть для среды выполнения интеграции, которая в конечном итоге может использовать множество частных IP-адресов из виртуальной сети и потребует предварительного планирования сетевой инфраструктуры.
  • Глубокие Azure сетевые знания не требуются для безопасного выполнения интеграции данных. Вместо этого начало работы с безопасным ETL гораздо проще для инженеров данных.
  • Управляемая виртуальная сеть вместе с управляемыми частными конечными точками защищает от кражи данных.

В настоящее время управляемая виртуальная сеть поддерживается только в том же регионе, что и регион фабрики данных.

Примечание

Существующая глобальная среда выполнения интеграции не может переключиться на среду выполнения интеграции в управляемой виртуальной сети фабрики данных и наоборот.

Схема, демонстрирующая архитектуру управляемой виртуальной сети фабрики данных.

Существует два способа включения управляемой виртуальной сети в фабрике данных:

  1. Включите управляемую виртуальную сеть во время создания фабрики данных.

Снимок экрана: включение управляемой виртуальной сети во время создания фабрики данных.

  1. Включите управляемую виртуальную сеть в среде выполнения интеграции.

Снимок экрана: включение управляемой виртуальной сети в среде выполнения интеграции

Управляемые частные конечные точки

Управляемые частные конечные точки — это частные конечные точки, созданные в управляемой виртуальной сети Azure Data Factory, которая устанавливает приватное соединение к ресурсам Azure. Фабрика данных управляет этими частными конечными точками от вашего имени.

Фабрика данных поддерживает частные ссылки. Вы можете использовать приватный канал Azure для доступа к службам Azure как услуга (PaaS), таким как Azure Storage, Azure Cosmos DB и Azure Synapse Analytics.

При использовании приватного канала трафик между хранилищами данных и управляемой виртуальной сетью проходит полностью через магистральную сеть Microsoft. Приватный канал защищает от рисков кражи данных. Вы устанавливаете приватный канал к ресурсу, создавая частную конечную точку.

Частная конечная точка использует частный IP-адрес в управляемой виртуальной сети для эффективного подключения службы к ней. Частные конечные точки сопоставляются с определенным ресурсом в Azure, а не всей службой. Клиенты могут ограничить подключение к определенному ресурсу, утвержденному их организацией. Дополнительные сведения см. в разделе "Частные ссылки" и "Частные конечные точки".

Примечание

Поставщик ресурсов Microsoft.Network должен быть зарегистрирован в вашей подписке.

  1. Убедитесь, что в фабрике данных включена управляемая виртуальная сеть.
  2. Создайте управляемую частную конечную точку в Центре управления.

Снимок экрана, показывающий новые управляемые частные конечные точки.

  1. Подключение к частной конечной точке создается в состоянии ожидания при создании управляемой частной конечной точки в фабрике данных. Инициируется рабочий процесс утверждения. Владелец ресурса приватной ссылки отвечает за утверждение или отклонение соединения.

Screenshot с опцией

  1. Если владелец одобряет соединение, устанавливается приватное соединение. В противном случае частное соединение не будет установлено. В любом случае управляемая приватная конечная точка обновляется в соответствии с состоянием подключения.

Снимок экрана, на котором показано, как утвердить управляемую частную конечную точку.

Только управляемая частная конечная точка в утвержденном состоянии может отправлять трафик в определенный ресурс приватного канала.

Примечание

Пользовательский DNS не поддерживается в управляемой виртуальной сети.

Примечание

Как управляемая виртуальная сеть, так и управляемая частная конечная точка находятся в Microsoft подписке.

Интерактивная разработка

Интерактивные возможности разработки используются для таких функций, как тестовое подключение, просмотр списка папок и списка таблиц, получение схемы и предварительных версий данных. Вы можете включить интерактивную разработку при создании или редактировании среды выполнения интеграции Azure, которая находится в Azure Data Factory управляемой виртуальной сети. Серверная служба предварительно выделяет вычислительные ресурсы для интерактивных функций разработки. В противном случае вычислительные ресурсы будут выделены каждый раз, когда выполняется интерактивная операция, которая займет больше времени. Время жизни (TTL) для интерактивной разработки составляет 60 минут по умолчанию, что означает, что он автоматически отключится после 60 минут последней интерактивной операции разработки. Значение TTL можно изменить в соответствии с фактическими потребностями.

Снимок экрана, который показывает интерактивное создание контента.

Время жизни

Задача копирования

По умолчанию каждая операция копирования запускает новые вычислительные ресурсы на основе конфигурации операции копирования. Если управляемая виртуальная сеть включена, время запуска холодных вычислений занимает несколько минут, а перемещение данных не может начаться до завершения. Если в ваших конвейерах содержится несколько последовательных операций копирования или много операций копирования в цикле foreach, которые невозможно выполнить параллельно, вы можете установить значение времени жизни (TTL) в конфигурации службы выполнения Azure Integration Runtime. Указание значения времени жизни и числа DIU, необходимых для операции копирования, поддерживает активность соответствующих вычислительных ресурсов в течение определенного периода времени после завершения выполнения операции. Если новое действие копирования начинается во время TTL, оно будет повторно использовать существующие вычислительные ресурсы, и время запуска будет значительно сокращено. После завершения второго действия копирования вычислительные узлы будут оставаться активными в течение указанного времени TTL. У вас есть гибкость, чтобы выбрать из предварительно определенных размеров вычислительных ресурсов, начиная от небольших до средних и больших. Кроме того, можно настроить размер вычислительных ресурсов на основе конкретных требований и потребностей в режиме реального времени.

Примечание

Перенастройка номера DIU не влияет на текущее выполнение действия копирования.

Примечание

Мера интеграции данных (DIU) в размере 2 DIU не поддерживается для операции копирования в управляемой виртуальной сети.

Для выполнения всех действий копирования вы выберете diU, размер diU не будет автоматически масштабироваться в соответствии с фактическими потребностями. Таким образом, вам нужно выбрать достаточное количество DIU.

Предупреждение

Выбор небольшого числа DIUs для выполнения многочисленных операций приведет к тому, что многие из них будут находиться в очереди в ожидании, что серьезно негативно скажется на общей производительности.

Потоковая линия и внешняя активность

Как и в случае с копией, вы можете настроить размер вычислительных ресурсов и длительность TTL в соответствии с вашими требованиями. Однако, в отличие от копирования, обратите внимание, что конвейер и внешний TTL не могут быть отключены.

Примечание

Время жизни (TTL) применимо только к управляемым виртуальным сетям.

Снимок экрана: конфигурация TTL.

Можно использовать таблицу ниже в качестве справочной, чтобы определить оптимальное количество узлов для выполнения пакетов и внешних процессов.

Тип действия ёмкость
Активность конвейера Приблизительно 50 на узел
Активность скрипта и активность подстановки с SQL alwaysEncrypted, как правило, потребляют больше ресурсов по сравнению с другими активностями конвейера, при этом рекомендуемое количество составляет около 4 на узел.
Внешнее действие Приблизительно 800 на узел

Сравнение различных TTL

В следующей таблице перечислены различия между различными типами TTL:

Функция Интерактивная разработка Копировать масштаб вычислений Конвейер и масштаб внешних вычислений
Когда вступают в силу Сразу после активации Первое выполнение действия Первое выполнение действия
Может быть отключен Y Y N
Зарезервированные вычислительные ресурсы можно настроить N Y Y

Примечание

Вы не можете включить TTL в режиме интеграции Azure с автоматическим разрешением по умолчанию. Для него можно создать новую среду выполнения интеграции Azure.

Примечание

При активации TTL для копирования, конвейера или внешнего масштаба вычислений, выставление счетов определяется зарезервированными вычислительными ресурсами. В результате выходные данные действия не включают billingReference, так как это имеет отношение исключительно к сценариям, не связанным с TTL.

Создание управляемой виртуальной сети с помощью Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Примечание

Идентификатор группы других источников данных можно получить из ресурса частной ссылки.

Примечание

Значение referenceName должно быть задано только как значение по умолчанию, если вы создаете с помощью команды PowerShell.

Исходящее подключение

Поддерживаемые источники данных и службы

Следующие службы имеют встроенную поддержку частных конечных точек. Они могут быть подключены по частному подключению из управляемой виртуальной сети Data Factory.

  • Azure Databricks
  • Azure Functions (план "Премиум")
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft Purview

Сведения о поддержке источников данных см. в обзоре соединителя. Доступ к всем источникам данных, поддерживаемым фабрикой данных, можно получить через общедоступную сеть.

Локальные источники данных

Сведения о доступе к локальным источникам данных из управляемой виртуальной сети с помощью частной конечной точки см. в статье Доступ к локальному серверу SQL из управляемой виртуальной сети фабрики данных с помощью частной конечной точки.

Исходящие сообщения через общедоступную конечную точку из управляемой виртуальной сети хранилища данных

Все порты открыты для исходящего взаимодействия.

Ограничения и известные проблемы

Создание связанной службы для Key Vault

При создании связанной службы для Key Vault нет ссылки на среду выполнения интеграции. Поэтому во время создания связанной службы Key Vault нельзя создавать частные конечные точки. При создании связанной службы для хранилищ данных, которая ссылается на Key Vault, и эта связанная служба использует среду выполнения интеграции с включенной управляемой виртуальной сетью, вы можете создать частную конечную точку для Key Vault на этапе создания.

  • Test connection: Эта операция для связанной службы Key Vault проверяет только формат URL-адреса, но не выполняет никаких сетевых операций.
  • Using private endpoint: Этот столбец всегда отображается как пустой, даже если вы создаете частную конечную точку для Key Vault.

Создание связанной службы Azure HDInsight

Столбец "Использование частной конечной точки" всегда отображается как пустой, даже если вы создаете частную конечную точку для HDInsight с помощью службы приватного канала и подсистемы балансировки нагрузки с перенаправлением портов.

Скриншот, показывающий частную конечную точку для Key Vault.

Полное доменное имя (FQDN) Azure HDInsight

Если вы создали пользовательскую службу Private Link, полное доменное имя должно заканчиваться на azurehdinsight.net без privatelink в доменном имени при создании частной конечной точки. Если вы используете privatelink в доменном имени, убедитесь, что он действителен и вы можете его разрешить.

Ограничения доступа в управляемой виртуальной сети с частными конечными точками

Невозможно получить доступ к каждому ресурсу PaaS, когда обе стороны находятся под воздействием Private Link и частной конечной точки. Эта проблема является известным ограничением Private Link и частных конечных точек.

Например, у вас есть управляемая частная конечная точка для учетной записи хранения A. Вы также можете получить доступ к учетной записи хранения B через общедоступную сеть в той же управляемой виртуальной сети. Но если учетная запись хранения B имеет подключение к частной конечной точке из другой управляемой виртуальной сети или виртуальной сети клиента, вы не сможете получить доступ к учетной записи хранения B в управляемой виртуальной сети через общедоступную сеть.

Ознакомьтесь со следующими руководствами: