Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ПРИМЕНИМО К:
Фабрика данных Azure
Azure Synapse Analytics
Совет
Data Factory в Microsoft Fabric — это следующее поколение Фабрика данных Azure с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.
В этой статье описаны наборы данных, как они определены в формате JSON и как они используются в конвейерах Фабрика данных Azure и Synapse.
Если вы не знакомы с Фабрика данных Azure, ознакомьтесь с Введение в Фабрика данных Azure для получения общей информации. Дополнительные сведения о Azure Synapse см. в разделе Что такое Azure Synapse
Обзор
В рабочей области Фабрика данных Azure или Synapse может быть один или несколько конвейеров. Конвейер — это логическая группа действий, которые вместе выполняют задачу. Действия в конвейере определяют действия, выполняемые с данными. Теперь набор данных — это именованное представление данных, которое указывает данные, необходимые для использования в действиях, разделяя их на входные и выходные. Наборы данных представляют данные в разных хранилищах, например в таблицах, файлах, папках и документах. Например, набор данных Azure Blob указывает контейнер и папку в Хранилище BLOB-объектов, из которых должно считываться действие.
Перед созданием набора данных необходимо создать связанную службу, чтобы связать хранилище данных со службой. Связанные службы во многом напоминают строки подключения, определяющие сведения о подключении, необходимые для подключения службы к внешним ресурсам. Таким образом, набор данных представляет структуру данных в связанных хранилищах данных, а связанная служба определяет подключение к источнику данных. Например, связанная служба служба хранилища Azure связывает учетную запись хранения. Набор данных Azure Blob представляет собой контейнер объектов Blob и папку в учетной записи служба хранилища Azure, содержащие входные Blob объекты для обработки.
Ниже приведен пример сценария. Чтобы скопировать данные из хранилища BLOB-объектов в базу данных SQL, создайте две связанные службы: Хранилище BLOB-объектов Azure и База данных SQL Azure. Затем создайте два набора данных: набор данных с разделённым текстом (который относится к связанной службе Хранилище BLOB-объектов Azure, предполагая, что у вас есть текстовые файлы в качестве источника) и набор данных таблицы Azure SQL (который ссылается на связанную службу базы данных Azure SQL). Хранилище BLOB-объектов Azure и связанные службы База данных SQL Azure содержат строки подключения, которые служба использует во время выполнения для подключения к служба хранилища Azure и База данных SQL Azure соответственно. Набор данных с разделителями указывает контейнер объектов BLOB и папку объектов BLOB, содержащие входные BLOB-объекты в Хранилище BLOB-объектов, а также параметры, связанные с форматом. Набор данных таблицы Azure SQL указывает таблицу SQL в базе данных SQL, в которую копируются данные.
На следующей схеме показана связь между конвейером, действием, набором данных и связанными службами:
Создание набора данных с помощью пользовательского интерфейса
Чтобы создать набор данных с Фабрика данных Azure Studio, перейдите на вкладку "Автор" (значок карандаша), а затем значок знака плюса, чтобы выбрать Dataset.
Показывает вкладку "Автор" в Фабрика данных Azure Studio с кнопкой создания набора данных, выбранной пользователем.
Вы увидите новое окно набора данных, чтобы выбрать любой из соединителей, доступных в Фабрика данных Azure, для настройки существующей или новой связанной службы.
Далее вам будет предложено выбрать формат набора данных.
Наконец, можно выбрать существующую связанную службу типа, выбранного для набора данных, или создать новую, если она еще не определена.
После создания набора данных его можно использовать в любых конвейерах в Фабрика данных Azure.
JSON набора данных
Набор данных определяется в формате JSON следующим образом:
{
"name": "<name of dataset>",
"properties": {
"type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
"linkedServiceName": {
"referenceName": "<name of linked service>",
"type": "LinkedServiceReference",
},
"schema":[
],
"typeProperties": {
"<type specific property>": "<value>",
"<type specific property 2>": "<value 2>",
}
}
}
В следующей таблице описаны свойства приведенного выше объекта JSON.
| Свойство | Описание: | Обязательное поле |
|---|---|---|
| имя | Имя набора данных. См. Правила именования. | Да |
| тип | Тип набора данных. Укажите один из типов, которые поддерживает фабрика данных (например: DelimitedText, AzureSqlTable). Дополнительные сведения см. в разделе о типах наборов данных. |
Да |
| схема | Схема набора данных представляет собой физический формат данных и структуру. | Нет |
| свойстваТипа | Свойства каждого типа различаются. Сведения о поддерживаемых типах и их свойствах см. в разделе Тип набора данных. | Да |
При импорте схемы набора данных нажмите кнопку Импорт схемы и выберите импорт из источника или из локального файла. В большинстве случаев вы будете импортировать схему непосредственно из источника. Но если у вас уже есть файл локальной схемы (файл Parquet или CSV с заголовками), можно указать, чтобы служба использовала этот файл как основу для схемы.
В процессе копирования используются наборы данных в источнике и приёмнике. Схема, определенная в наборе данных, является необязательной и используется для справки. Сведения о том, как настроить сопоставление столбцов и полей между источником и приемником, см. в статье о схеме и сопоставлении типов.
В Поток данных наборы данных используются в преобразованиях источника и приемника. Наборы данных определяют базовые схемы данных. Если у ваших данных нет схемы, вы можете использовать смещение схемы для источника и приемника. Метаданные из наборов данных отображаются в исходном преобразовании в качестве проекции источника. Проекция в преобразовании источника представляет данные Поток данных с заданными именами и типами.
Тип набора данных
Служба поддерживает различные типы наборов данных в зависимости от используемых хранилищ. Вы можете найти список поддерживаемых хранилищ данных в статье Общие сведения о соединителях. Выберите хранилище данных, чтобы узнать, как создать для него связанную службу и набор данных.
Например, для набора данных текста с разделителями задается тип DelimitedText, как показано в следующем примере JSON:
{
"name": "DelimitedTextInput",
"properties": {
"linkedServiceName": {
"referenceName": "AzureBlobStorage",
"type": "LinkedServiceReference"
},
"annotations": [],
"type": "DelimitedText",
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"fileName": "input.log",
"folderPath": "inputdata",
"container": "adfgetstarted"
},
"columnDelimiter": ",",
"escapeChar": "\\",
"quoteChar": "\""
},
"schema": []
}
}
Примечание.
Значение схемы определяется с помощью синтаксиса JSON. Дополнительные сведения о сопоставлении схем и сопоставлении типов данных см. в документации для Фабрика данных Azure действия копирования по схеме и сопоставлению типов.
Создайте наборы данных.
Наборы данных можно создавать с помощью одного из этих средств или пакетов SDK: .NET API, PowerShell, REST API, шаблона Azure Resource Manager и портала Azure
Наборы данных текущей версии и версии 1
Ниже приведены некоторые различия между наборами данных в текущей версии фабрики данных (и Azure Synapse) и устаревшей версией Фабрики данных 1:
- Внешнее свойство не поддерживается в текущей версии. Оно заменено триггером.
- Политика и свойства доступности не поддерживаются в текущей версии. Время начала конвейера зависит от триггеров.
- Наборы данных с заданной областью (наборы данных, определенные в конвейере) в текущей версии не поддерживаются.
Связанный контент
Быстрый старт
Пошаговые инструкции по созданию конвейеров и наборов данных с помощью одного из указанных ниже инструментов или пакетов SDK приведены в указанных ниже руководствах.
- Quickstart: создайте фабрику данных с помощью .NET
- Быстрый старт: создание фабрики данных с помощью PowerShell
- Быстрый старт: создание фабрики данных с помощью REST API
- Quickstart: создайте фабрику данных с помощью портала Azure