Копирование данных из веб-таблицы с помощью Azure Data Factory или Synapse Analytics

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

В этой статье описывается, как использовать активность копирования в потоке Azure Data Factory или Synapse Analytics для копирования данных из веб-табличной базы данных. Это продолжение статьи об обзоре действия копирования, в которой представлены общие сведения о действии копирования.

Далее приводятся различия между соединителем веб-таблиц, соединителем REST и соединителем HTTP.

  • Соединитель веб-таблиц извлекает содержимое таблицы со страницы HTML.
  • Соединитель REST предназначен для поддержки копирования данных из RESTful API.
  • Соединитель HTTP применяется для извлечения данных из любой конечной точки HTTP, например для скачивания файла.

Поддерживаемые возможности

Соединитель веб-таблиц поддерживается для перечисленных ниже возможностей.

Поддерживаемые возможности IR
Copy activity (источник/-) (2)
Операция поиска (2)

(1) Azure среды выполнения интеграции (2) локальная среда выполнения интеграции

Список хранилищ данных, которые поддерживаются в качестве источников/приемников, см. в таблице Поддерживаемые хранилища данных.

Сейчас этот соединитель веб-таблиц поддерживает только извлечение содержимого таблицы из HTML-страницы.

Предварительные требования

Чтобы использовать этот соединитель веб-таблицы, необходимо настроить самостоятельно хостируемую Integration Runtime. См. статью Self-hosted Integration Runtime для получения подробной информации.

Начало работы

Для выполнения действия копирования с конвейером можно использовать один из следующих средств или пакетов SDK:

Создание связанной службы для Web Table с помощью пользовательского интерфейса

Выполните следующие действия, чтобы создать связанную службу с веб-таблицей в пользовательском интерфейсе портала Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Azure Data Factory или Synapse и выберите "Связанные службы", а затем нажмите кнопку "Создать".

  2. Выполните поиск по запросу Web и выберите соединитель Web Table.

    Выберите коннектор Web Table.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Настройте связанную службу для Web Table.

Сведения о конфигурации соединителя

Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю веб-таблиц.

Свойства связанной службы

Для связанной службы веб-таблиц поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
тип Для свойства type необходимо задать значение Web Да
URL-адрес URL-адрес источника Web Да
тип аутентификации Допустимое значение: Anonymous. Да
connectVia Integration Runtime для подключения к хранилищу данных. Требуется Self-hosted Integration Runtime, как упомянуто в разделе Prerequisites. Да

Пример:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. Этот раздел содержит список свойств, поддерживаемых набором данных веб-таблиц.

Чтобы скопировать данные из веб-таблиц, задайте для свойства type набора данных значение WebTable. Поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
тип Свойство type для набора данных должно иметь значение WebTable. Да
путь Относительный URL-адрес ресурса, который содержит таблицу. № Если путь не задан, используется только URL-адрес, указанный в определении связанной службы.
индекс Индекс таблицы в ресурсе. Дополнительные сведения см. в разделе Получение индекса таблицы на HTML-странице. Да

Пример:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Свойства Copy activity

Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры. Этот раздел содержит список свойств, поддерживаемых источником веб-таблиц.

Веб-таблицы в качестве источника

Чтобы скопировать данные из веб-таблицы, задайте тип источника WebSource в действии копирования, дополнительные свойства не поддерживаются.

Пример:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Получение индекса таблицы на HTML-странице

Чтобы получить индекс таблицы, которую необходимо настроить в свойствах dataset, можно использовать, например, Excel 2016 в качестве средства следующим образом:

  1. Запустите Excel 2016 и перейдите на вкладку Data.

  2. На панели инструментов щелкните Создать запрос, выберите Из других источников и щелкните Из Интернета.

    Меню Power Query

  3. В диалоговом окне Из Интернета введите URL-адрес, который будет использоваться в JSON для связанной службы (например: https://en.wikipedia.org/wiki/), вместе с путем, который вы укажете для набора данных (например: AFI%27s_100_Years...100_Movies), а затем нажмите ОК.

    Диалоговое окно

    В этом примере используется URL-адрес https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies.

  4. Если отображается диалоговое окно Доступ к веб-содержимому, выберите соответствующий URL-адрес и тип аутентификации, а затем нажмите кнопку Подключить.

    Диалоговое окно

  5. В представлении дерева щелкните элемент table, чтобы просмотреть содержимое таблицы, а затем в нижней части экрана нажмите кнопку Изменить.

    Диалоговое окно навигатора

  6. В окне Query Editor нажмите кнопку Advanced Editor на панели инструментов.

    Кнопка расширенного редактора

  7. В диалоговом окне Advanced Editor номер рядом с "Источник" является индексом.

    Расширенный редактор — индекс

Если вы используете Excel 2013, воспользуйтесь статьей Подключение к веб-странице для получения подробной информации. Действия аналогичны, если вы используете Microsoft Power BI для desktop.

Свойства действия поиска

Подробные сведения об этих свойствах см. в разделе Действие поиска.

Список хранилищ данных, поддерживаемых в качестве источников и приемников для операции копирования, смотрите в разделе поддерживаемые хранилища данных.