Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ПРИМЕНИМО К:
Azure Data Factory
Azure Synapse Analytics
Совет
Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.
В этой статье описывается, как использовать активность копирования в потоке Azure Data Factory или Synapse Analytics для копирования данных из веб-табличной базы данных. Это продолжение статьи об обзоре действия копирования, в которой представлены общие сведения о действии копирования.
Далее приводятся различия между соединителем веб-таблиц, соединителем REST и соединителем HTTP.
- Соединитель веб-таблиц извлекает содержимое таблицы со страницы HTML.
- Соединитель REST предназначен для поддержки копирования данных из RESTful API.
- Соединитель HTTP применяется для извлечения данных из любой конечной точки HTTP, например для скачивания файла.
Поддерживаемые возможности
Соединитель веб-таблиц поддерживается для перечисленных ниже возможностей.
| Поддерживаемые возможности | IR |
|---|---|
| Copy activity (источник/-) | (2) |
| Операция поиска | (2) |
(1) Azure среды выполнения интеграции (2) локальная среда выполнения интеграции
Список хранилищ данных, которые поддерживаются в качестве источников/приемников, см. в таблице Поддерживаемые хранилища данных.
Сейчас этот соединитель веб-таблиц поддерживает только извлечение содержимого таблицы из HTML-страницы.
Предварительные требования
Чтобы использовать этот соединитель веб-таблицы, необходимо настроить самостоятельно хостируемую Integration Runtime. См. статью Self-hosted Integration Runtime для получения подробной информации.
Начало работы
Для выполнения действия копирования с конвейером можно использовать один из следующих средств или пакетов SDK:
- Средство копирования данных
- портал Azure
- SDK .NET
- пакет SDK Python
- Azure PowerShell
- REST API
- шаблон Azure Resource Manager
Создание связанной службы для Web Table с помощью пользовательского интерфейса
Выполните следующие действия, чтобы создать связанную службу с веб-таблицей в пользовательском интерфейсе портала Azure.
Перейдите на вкладку "Управление" в рабочей области Azure Data Factory или Synapse и выберите "Связанные службы", а затем нажмите кнопку "Создать".
Выполните поиск по запросу Web и выберите соединитель Web Table.
Настройте сведения о службе, проверьте подключение и создайте связанную службу.
Сведения о конфигурации соединителя
Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю веб-таблиц.
Свойства связанной службы
Для связанной службы веб-таблиц поддерживаются следующие свойства:
| Свойство | Описание: | Обязательное поле |
|---|---|---|
| тип | Для свойства type необходимо задать значение Web | Да |
| URL-адрес | URL-адрес источника Web | Да |
| тип аутентификации | Допустимое значение: Anonymous. | Да |
| connectVia | Integration Runtime для подключения к хранилищу данных. Требуется Self-hosted Integration Runtime, как упомянуто в разделе Prerequisites. | Да |
Пример:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства набора данных
Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. Этот раздел содержит список свойств, поддерживаемых набором данных веб-таблиц.
Чтобы скопировать данные из веб-таблиц, задайте для свойства type набора данных значение WebTable. Поддерживаются следующие свойства:
| Свойство | Описание: | Обязательное поле |
|---|---|---|
| тип | Свойство type для набора данных должно иметь значение WebTable. | Да |
| путь | Относительный URL-адрес ресурса, который содержит таблицу. | № Если путь не задан, используется только URL-адрес, указанный в определении связанной службы. |
| индекс | Индекс таблицы в ресурсе. Дополнительные сведения см. в разделе Получение индекса таблицы на HTML-странице. | Да |
Пример:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
Свойства Copy activity
Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры. Этот раздел содержит список свойств, поддерживаемых источником веб-таблиц.
Веб-таблицы в качестве источника
Чтобы скопировать данные из веб-таблицы, задайте тип источника WebSource в действии копирования, дополнительные свойства не поддерживаются.
Пример:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Получение индекса таблицы на HTML-странице
Чтобы получить индекс таблицы, которую необходимо настроить в свойствах dataset, можно использовать, например, Excel 2016 в качестве средства следующим образом:
Запустите Excel 2016 и перейдите на вкладку Data.
На панели инструментов щелкните Создать запрос, выберите Из других источников и щелкните Из Интернета.
В диалоговом окне Из Интернета введите URL-адрес, который будет использоваться в JSON для связанной службы (например: https://en.wikipedia.org/wiki/), вместе с путем, который вы укажете для набора данных (например: AFI%27s_100_Years...100_Movies), а затем нажмите ОК.
В этом примере используется URL-адрес https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies.
Если отображается диалоговое окно Доступ к веб-содержимому, выберите соответствующий URL-адрес и тип аутентификации, а затем нажмите кнопку Подключить.
В представлении дерева щелкните элемент table, чтобы просмотреть содержимое таблицы, а затем в нижней части экрана нажмите кнопку Изменить.
В окне Query Editor нажмите кнопку Advanced Editor на панели инструментов.
В диалоговом окне Advanced Editor номер рядом с "Источник" является индексом.
Если вы используете Excel 2013, воспользуйтесь статьей Подключение к веб-странице для получения подробной информации. Действия аналогичны, если вы используете Microsoft Power BI для desktop.
Свойства действия поиска
Подробные сведения об этих свойствах см. в разделе Действие поиска.
Связанный контент
Список хранилищ данных, поддерживаемых в качестве источников и приемников для операции копирования, смотрите в разделе поддерживаемые хранилища данных.