Поделиться через


Копирование данных из Impala с помощью Фабрики данных Azure или Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описано, как с помощью действия копирования в Фабрике данных Azure и конвейерах Azure Synapse Analytics копировать данные из Impala. Это продолжение статьи с обзором действия копирования, в которой представлены общие сведения о действии копирования.

Это важно

Соединитель Impala версии 2.0 обеспечивает улучшенную встроенную поддержку Impala. Если вы используете соединитель Impala версии 1.0 в решении, обновите соединитель Impala до 30 сентября 2025 г. Дополнительные сведения о разнице между версией 2.0 и версией 1.0 см. в этом разделе .

Поддерживаемые возможности

Соединитель Impala поддерживается для следующих возможностей:

Поддерживаемые возможности ИКР (инфракрасное излучение)
Действие копирования (источник/-) (1) (2)
Действие поиска (1) (2)

① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции

Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия копирования, приведен в таблице Поддерживаемые хранилища данных и форматы.

В службе предоставляется встроенный драйвер, который обеспечивает подключение. Поэтому не нужно вручную устанавливать драйвер для использования этого соединителя.

Необходимые компоненты

Если хранилище данных размещено в локальной сети, виртуальной сети Azure или виртуальном частном облаке Amazon, для подключения к нему нужно настроить локальную среду выполнения интеграции.

Если же хранилище данных представляет собой управляемую облачную службу данных, можно использовать Azure Integration Runtime. Если доступ предоставляется только по IP-адресам, утвержденным в правилах брандмауэра, вы можете добавить IP-адреса Azure Integration Runtime в список разрешений.

Вы также можете использовать функцию среды выполнения интеграции в управляемой виртуальной сети в Фабрике данных Azure для доступа к локальной сети без установки и настройки локальной среды выполнения интеграции.

Дополнительные сведения о вариантах и механизмах обеспечения сетевой безопасности, поддерживаемых Фабрикой данных, см. в статье Стратегии получения доступа к данным.

Замечание

Версия 2.0 поддерживается с локальной средой выполнения интеграции версии 5.55 или более поздней.

Начало работы

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы для Impala с помощью пользовательского интерфейса

Выполните следующие действия, чтобы создать связанную службу для Impala в пользовательском интерфейсе портала Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":

  2. Выполните поиск Impala и выберите соединитель Impala.

    Снимок экран:а соединитель Impala.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Снимок экрана: конфигурация связанной службы для Impala.

Сведения о конфигурации соединителя

Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю Impala.

Свойства связанной службы

Соединитель Impala теперь поддерживает версию 2.0. Ознакомьтесь с этим разделом , чтобы обновить версию соединителя Impala с версии 1.0. Чтобы узнать подробности о свойстве, см. соответствующие разделы.

Версия 2.0

Связанная служба Impala поддерживает следующие свойства при применении версии 2.0:

Свойство Описание: Обязательное поле
тип Для свойства type необходимо задать значение Impala. Да
версия Версия, которую вы указали. Значение равно 2.0. Да
хост IP-адрес или имя узла сервера Impala (192.168.222.160). Да
порт TCP-порт, используемый сервером Impala для прослушивания клиентских подключений. Значение по умолчанию — 21050. нет
thriftTransportProtocol Транспортный протокол для использования в слое Thrift. Допустимые значения: Binary, HTTP. Значение по умолчанию — Binary. Да
тип аутентификации Тип проверки подлинности.
Допустимые значения : Anonymous и UsernameAndPassword.
Да
имя пользователя Имя пользователя, используемое для доступа к серверу Impala. нет
пароль Пароль, который соответствует имени пользователя при использовании UsernameAndPassword. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. нет
включитьSSL Указывает, шифруются ли подключения к серверу с помощью протокола TLS. Значение по умолчанию — true. нет
включитьПроверкуСертификатаСервера Укажите, следует ли включить проверку SSL-сертификата сервера при подключении. Всегда используйте системное хранилище доверия. Значение по умолчанию — true. нет
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Дополнительные сведения см. в разделе Предварительные условия. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Вы можете использовать локальную среду выполнения интеграции, а ее версия должна быть 5.55 или более поздней. нет

Пример:

{
    "name": "ImpalaLinkedService",
    "properties": {
        "type": "Impala",
        "version": "2.0",
        "typeProperties": {
            "host" : "<host>",
            "port" : "<port>",
            "authenticationType" : "UsernameAndPassword",
            "username" : "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            },
            "enableSsl": true,
            "thriftTransportProtocol": "Binary",
            "enableServerCertificateValidation": true
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Версия 1.0

Следующие свойства поддерживаются для связанной службы Impala при применении версии 1.0:

Для связанной службы Impala поддерживаются следующие свойства.

Свойство Описание: Обязательное поле
тип Для свойства type необходимо задать значение Impala. Да
хост IP-адрес или имя узла сервера Impala (192.168.222.160). Да
порт TCP-порт, используемый сервером Impala для прослушивания клиентских подключений. Значение по умолчанию — 21050. нет
тип аутентификации Тип проверки подлинности.
Допустимые значения: Anonymous, SASLUsername и UsernameAndPassword.
Да
имя пользователя Имя пользователя, используемое для доступа к серверу Impala. Значение по умолчанию является анонимным при использовании SASLUsername. нет
пароль Пароль, который соответствует имени пользователя при использовании UsernameAndPassword. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. нет
включитьSSL Указывает, шифруются ли подключения к серверу с помощью протокола TLS. Значение по умолчанию равно false. нет
доверенный_путь_сертификата Полный путь к PEM-файлу, который содержит сертификаты доверенного ЦС, используемые для проверки сервера при подключении по протоколу TLS. Это свойство можно задать, только если TLS используется в локальной среде выполнения интеграции. Значением по умолчанию является файл cacerts.pem, который устанавливается вместе со средой выполнения интеграции. нет
useSystemTrustStore (использовать хранилище доверия системы) Указывает, следует ли использовать сертификат ЦС из доверенного хранилища системы или из указанного PEM-файла. Значение по умолчанию равно false. нет
разрешитьНесоответствиеИмениХостаCN Указывает, следует ли требовать, чтобы имя TLS/SSL-сертификата, выданного ЦС, совпадало с именем узла сервера при подключении по протоколу TLS. Значение по умолчанию равно false. нет
разрешить самоподписанный серверный сертификат Указывает, следует ли разрешить использование самозаверяющих сертификатов с сервера. Значение по умолчанию равно false. нет
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Дополнительные сведения см. в разделе Предварительные условия. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. нет

Пример:

{
    "name": "ImpalaLinkedService",
    "properties": {
        "type": "Impala",
        "typeProperties": {
            "host" : "<host>",
            "port" : "<port>",
            "authenticationType" : "UsernameAndPassword",
            "username" : "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. В этом разделе содержится список свойств, поддерживаемых набором данных Impala.

Чтобы скопировать данные из Impala, установите свойство type набора данных ImpalaObject. Поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
тип Свойство type для набора данных должно иметь значение ImpalaObject. Да
схема Имя схемы. Нет (если свойство query указано в источнике действия)
таблица Имя таблицы. Нет (если свойство query указано в источнике действия)
имя_таблицы Имя таблицы со схемой. Это свойство поддерживается только для обеспечения обратной совместимости. Для новых рабочих нагрузок используйте schema и table. Нет (если свойство query указано в источнике действия)

Пример

{
    "name": "ImpalaDataset",
    "properties": {
        "type": "ImpalaObject",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Impala linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Свойства действия копирования

Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. В этом разделе содержится список свойств, поддерживаемых типом источника Impala.

Impala в качестве источника данных

Чтобы копировать данные из Impala, установите тип источника ImpalaSource в действии копирования. В разделе source действия копирования поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
тип Для свойства type источника действия копирования необходимо задать значение ImpalaSource. Да
запрос Используйте пользовательский SQL-запрос для чтения данных. Например, "SELECT * FROM MyTable". Нет (если для набора данных задано свойство tableName)

Пример:

"activities":[
    {
        "name": "CopyFromImpala",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Impala input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "ImpalaSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Сопоставление типов данных для Impala

При копировании данных в и из Impala в службе используются следующие промежуточные сопоставления типов данных. Чтобы узнать, как действие копирования сопоставляет исходную схему и типы данных с приемником, см. раздел Сопоставление схем и типов данных.

Тип данных Impala Тип данных промежуточной службы (для версии 2.0) Тип данных промежуточной службы (для версии 1.0)
МАССИВ Струна Струна
БИГИНТ Int64 Int64
Булевый Булевый Булевый
ОБГОРАТЬ Струна Струна
Дата дата и время дата и время
ДЕСЯТИЧНЫЙ Десятичное число Десятичное число
ДВОЙНОЙ Двойной Двойной
ФЛОАТ Один Один
ИНТ Int32 Int32
КАРТА Струна Струна
СМОЛЛИНТ Int16 Int16
СТРУНА Струна Струна
СТРУКТУРА Струна Струна
TIMESTAMP DateTimeOffset (смещение даты и времени) дата и время
TINYINT SByte Int16
VARCHAR Струна Струна

Свойства действия поиска

Подробные сведения об этих свойствах см. в разделе Действие поиска.

Жизненный цикл и обновление соединителя Impala

В следующей таблице показаны этап выпуска и журналы изменений для различных версий соединителя Impala:

Версия Этап выпуска Журнал изменений
Версия 1.0 Дата окончания поддержки объявлена /
Версия 2.0 GA версия доступна • Локальная версия среды выполнения интеграции должна иметь значение 5.55 или более поздней.

• Значение enableSSL по умолчанию имеет значение true. enableServerCertificateValidation поддерживается.
trustedCertPath, useSystemTrustStoreallowHostNameCNMismatch и allowSelfSignedServerCert не поддерживаются.

• TIMESTAMP интерпретируется как тип данных DateTimeOffset.

• TINYINT считывается как тип данных SByte.

• Тип проверки подлинности SASLUsername не поддерживается.

Обновление соединителя Impala с версии 1.0 до версии 2.0

  1. На странице "Изменить связанную службу " выберите версию 2.0 и настройте связанную службу, указав свойства связанной службы версии 2.0.

  2. Сопоставление типов данных для связанной службы Impala версии 2.0 отличается от сопоставления типов данных для версии 1.0. Сведения о последнем сопоставлении типов данных см. в разделе "Сопоставление типов данных" для Impala.

  3. Примените локальную среду выполнения интеграции с версией 5.55 или более поздней.

Список хранилищ данных, поддерживаемых в рамках функции копирования в качестве источников и приемников, см. в разделе Поддерживаемые хранилища данных.