Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure
Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
В этой статье описывается, какие бывают наборы данных, каким образом они определяются в формате JSON, а также как они используются в конвейерах Фабрики данных Azure и Azure Synapse.
Чтобы получить общее представление о Фабрике данных, ознакомьтесь со статьей Знакомство с Фабрикой данных Azure. Дополнительную информацию об Azure Synapse см. в разделе Что такое Azure Synapse
Обзор
Рабочая область Фабрики данных Azure или Azure Synapse может содержать один или несколько конвейеров. Конвейер — это логическая группа действий, которые вместе выполняют задачу. Действия в конвейере определяют действия, выполняемые с данными. Теперь набор данных — это именованное представление данных, которое указывает данные, необходимые для использования в действиях, разделяя их на входные и выходные. Наборы данных представляют данные в разных хранилищах, например в таблицах, файлах, папках и документах. Например, набор данных Azure Blob указывает контейнер Blob и папку в Blob Storage, из которых активность должна считывать данные.
Перед созданием набора данных необходимо создать связанную службу, чтобы связать хранилище данных со службой. Связанные службы во многом напоминают строки подключения, определяющие сведения о подключении, необходимые для подключения службы к внешним ресурсам. Таким образом, набор данных представляет структуру данных в связанных хранилищах данных, а связанная служба определяет подключение к источнику данных. Например, связанная служба хранилища Azure привязывает учетную запись хранения. Набор данных BLOB-объектов Azure представляет собой контейнер BLOB-объектов и папку в учетной записи хранения Azure, содержащую входные BLOB-объекты для обработки.
Ниже приведен пример сценария. Чтобы скопировать данные из Хранилища BLOB-объектов в базу данных SQL, создайте две связанные службы: хранилища BLOB-объектов Azure и Базу данных SQL Azure. Затем создайте два набора данных: набор данных "Текст с разделителями" (который относится к связанной службе "Хранилище BLOB-объектов Azure" при условии, что текстовые файлы используются как источник) и набор данных "Таблица SQL Azure" (который относится к связанной службе "База данных SQL Azure"). Связанные службы Azure Blob Storage и Azure SQL Database содержат строки подключения, которые служба использует во время выполнения для подключения к Azure Storage и Azure SQL Database соответственно. Набор данных с текстом с разделителями определяет контейнер и папку объектов BLOB, которые содержат входные объекты BLOB в вашем хранилище BLOB-объектов, а также настройки, связанные с форматом. Набор данных таблицы SQL Azure определяет таблицу SQL в базе данных SQL, в которую будут копироваться данные.
На следующей схеме показана связь между конвейером, действием, набором данных и связанными службами:
Создание набора данных с помощью пользовательского интерфейса
Чтобы создать набор данных с помощью студии Фабрики данных Azure, выберите вкладку "Автор" (со значком карандаша), а затем щелкните значок со знаком плюса, чтобы выбрать набор данных.
Появится окно нового набора данных, в котором можно выбрать любой из соединителей, доступных в Фабрике данных Azure, для настройки существующей или новой связанной службы.
Далее вам будет предложено выбрать формат набора данных.
Наконец, можно выбрать существующую связанную службу типа, выбранного для набора данных, или создать новую, если она еще не определена.
Созданный набор данных можно использовать в любом конвейере в Фабрике данных Azure.
JSON набора данных
Набор данных определяется в формате JSON следующим образом:
{
"name": "<name of dataset>",
"properties": {
"type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
"linkedServiceName": {
"referenceName": "<name of linked service>",
"type": "LinkedServiceReference",
},
"schema":[
],
"typeProperties": {
"<type specific property>": "<value>",
"<type specific property 2>": "<value 2>",
}
}
}
В следующей таблице описаны свойства приведенного выше объекта JSON.
Свойство | Описание: | Обязательное поле |
---|---|---|
имя | Имя набора данных. См. Правила именования. | Да |
тип | Тип набора данных. Укажите один из типов, которые поддерживает фабрика данных (например: DelimitedText, AzureSqlTable). Дополнительные сведения см. в разделе о типах наборов данных. |
Да |
схема | Схема набора данных представляет собой физический формат данных и структуру. | Нет |
свойстваТипа | Свойства каждого типа различаются. Сведения о поддерживаемых типах и их свойствах см. в разделе Тип набора данных. | Да |
При импорте схемы набора данных нажмите кнопку Импорт схемы и выберите импорт из источника или из локального файла. В большинстве случаев вы будете импортировать схему непосредственно из источника. Но если у вас уже есть файл локальной схемы (файл Parquet или CSV с заголовками), можно указать, чтобы служба использовала этот файл как основу для схемы.
В процессе копирования используются наборы данных в источнике и приёмнике. Схема, определенная в наборе данных, является необязательной и используется для справки. Сведения о том, как настроить сопоставление столбцов и полей между источником и приемником, см. в статье о схеме и сопоставлении типов.
В Потоке данных наборы данных используются в преобразованиях источников и приемников. Наборы данных определяют базовые схемы данных. Если у ваших данных нет схемы, вы можете использовать смещение схемы для источника и приемника. Метаданные из наборов данных отображаются в исходном преобразовании в качестве проекции источника. Проекция в преобразовании источника представляет данные потока данных с определенными именами и типами.
Тип набора данных
Служба поддерживает различные типы наборов данных в зависимости от используемых хранилищ. Вы можете найти список поддерживаемых хранилищ данных в статье Общие сведения о соединителях. Выберите хранилище данных, чтобы узнать, как создать для него связанную службу и набор данных.
Например, для набора данных текста с разделителями задается тип DelimitedText, как показано в следующем примере JSON:
{
"name": "DelimitedTextInput",
"properties": {
"linkedServiceName": {
"referenceName": "AzureBlobStorage",
"type": "LinkedServiceReference"
},
"annotations": [],
"type": "DelimitedText",
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"fileName": "input.log",
"folderPath": "inputdata",
"container": "adfgetstarted"
},
"columnDelimiter": ",",
"escapeChar": "\\",
"quoteChar": "\""
},
"schema": []
}
}
Примечание.
Значение схемы определяется с помощью синтаксиса JSON. Для получения более подробной информации о сопоставлении схем и типов данных см. документацию по сопоставлению схем и типов в действии копирования в Azure Data Factory.
Создайте наборы данных.
Наборы данных можно создавать с помощью таких инструментов и пакетов SDK: API .NET, PowerShell, REST API, шаблон Azure Resource Manager, портал Azure.
Наборы данных текущей версии и версии 1
Ниже приведены некоторые различия между наборами данных в текущей версии фабрики данных (и Azure Synapse) и в устаревшей версии 1 фабрики данных.
- Внешнее свойство не поддерживается в текущей версии. Оно заменено триггером.
- Политика и свойства доступности не поддерживаются в текущей версии. Время начала конвейера зависит от триггеров.
- Наборы данных с заданной областью (наборы данных, определенные в конвейере) в текущей версии не поддерживаются.
Связанный контент
Быстрый старт
Пошаговые инструкции по созданию конвейеров и наборов данных с помощью одного из указанных ниже инструментов или пакетов SDK приведены в указанных ниже руководствах.
- Быстрый старт: создание фабрики данных с использованием .NET
- Быстрый старт: создание фабрики данных с помощью PowerShell
- Быстрый старт: создание фабрики данных с помощью REST API
- Краткое руководство. Создание фабрики данных с помощью портала Azure