Наборы данных в Фабрика данных Azure и Azure Synapse Analytics

ПРИМЕНИМО К: Фабрика данных Azure Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Фабрика данных Azure с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

В этой статье описаны наборы данных, как они определены в формате JSON и как они используются в конвейерах Фабрика данных Azure и Synapse.

Если вы не знакомы с Фабрика данных Azure, ознакомьтесь с Введение в Фабрика данных Azure для получения общей информации. Дополнительные сведения о Azure Synapse см. в разделе Что такое Azure Synapse

Обзор

В рабочей области Фабрика данных Azure или Synapse может быть один или несколько конвейеров. Конвейер — это логическая группа действий, которые вместе выполняют задачу. Действия в конвейере определяют действия, выполняемые с данными. Теперь набор данных — это именованное представление данных, которое указывает данные, необходимые для использования в действиях, разделяя их на входные и выходные. Наборы данных представляют данные в разных хранилищах, например в таблицах, файлах, папках и документах. Например, набор данных Azure Blob указывает контейнер и папку в Хранилище BLOB-объектов, из которых должно считываться действие.

Перед созданием набора данных необходимо создать связанную службу, чтобы связать хранилище данных со службой. Связанные службы во многом напоминают строки подключения, определяющие сведения о подключении, необходимые для подключения службы к внешним ресурсам. Таким образом, набор данных представляет структуру данных в связанных хранилищах данных, а связанная служба определяет подключение к источнику данных. Например, связанная служба служба хранилища Azure связывает учетную запись хранения. Набор данных Azure Blob представляет собой контейнер объектов Blob и папку в учетной записи служба хранилища Azure, содержащие входные Blob объекты для обработки.

Ниже приведен пример сценария. Чтобы скопировать данные из хранилища BLOB-объектов в базу данных SQL, создайте две связанные службы: Хранилище BLOB-объектов Azure и База данных SQL Azure. Затем создайте два набора данных: набор данных с разделённым текстом (который относится к связанной службе Хранилище BLOB-объектов Azure, предполагая, что у вас есть текстовые файлы в качестве источника) и набор данных таблицы Azure SQL (который ссылается на связанную службу базы данных Azure SQL). Хранилище BLOB-объектов Azure и связанные службы База данных SQL Azure содержат строки подключения, которые служба использует во время выполнения для подключения к служба хранилища Azure и База данных SQL Azure соответственно. Набор данных с разделителями указывает контейнер объектов BLOB и папку объектов BLOB, содержащие входные BLOB-объекты в Хранилище BLOB-объектов, а также параметры, связанные с форматом. Набор данных таблицы Azure SQL указывает таблицу SQL в базе данных SQL, в которую копируются данные.

На следующей схеме показана связь между конвейером, действием, набором данных и связанными службами:

Связь между конвейером, действием, набором данных и связанными службами

Создание набора данных с помощью пользовательского интерфейса

Чтобы создать набор данных с Фабрика данных Azure Studio, перейдите на вкладку "Автор" (значок карандаша), а затем значок знака плюса, чтобы выбрать Dataset.

Показывает вкладку "Автор" в Фабрика данных Azure Studio с кнопкой создания набора данных, выбранной пользователем.

Вы увидите новое окно набора данных, чтобы выбрать любой из соединителей, доступных в Фабрика данных Azure, для настройки существующей или новой связанной службы.

Отображает новое окно набора данных, в котором можно выбрать тип связанной службы для любого из поддерживаемых соединителей фабрики данных.

Далее вам будет предложено выбрать формат набора данных.

Отображает окно формата набора данных, позволяющее выбрать формат нового набора данных.

Наконец, можно выбрать существующую связанную службу типа, выбранного для набора данных, или создать новую, если она еще не определена.

Отображает окно свойств набора, в котором можно выбрать существующий набор данных выбранного ранее типа или создать новый.

После создания набора данных его можно использовать в любых конвейерах в Фабрика данных Azure.

JSON набора данных

Набор данных определяется в формате JSON следующим образом:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

В следующей таблице описаны свойства приведенного выше объекта JSON.

Свойство Описание: Обязательное поле
имя Имя набора данных. См. Правила именования. Да
тип Тип набора данных. Укажите один из типов, которые поддерживает фабрика данных (например: DelimitedText, AzureSqlTable).

Дополнительные сведения см. в разделе о типах наборов данных.
Да
схема Схема набора данных представляет собой физический формат данных и структуру. Нет
свойстваТипа Свойства каждого типа различаются. Сведения о поддерживаемых типах и их свойствах см. в разделе Тип набора данных. Да

При импорте схемы набора данных нажмите кнопку Импорт схемы и выберите импорт из источника или из локального файла. В большинстве случаев вы будете импортировать схему непосредственно из источника. Но если у вас уже есть файл локальной схемы (файл Parquet или CSV с заголовками), можно указать, чтобы служба использовала этот файл как основу для схемы.

В процессе копирования используются наборы данных в источнике и приёмнике. Схема, определенная в наборе данных, является необязательной и используется для справки. Сведения о том, как настроить сопоставление столбцов и полей между источником и приемником, см. в статье о схеме и сопоставлении типов.

В Поток данных наборы данных используются в преобразованиях источника и приемника. Наборы данных определяют базовые схемы данных. Если у ваших данных нет схемы, вы можете использовать смещение схемы для источника и приемника. Метаданные из наборов данных отображаются в исходном преобразовании в качестве проекции источника. Проекция в преобразовании источника представляет данные Поток данных с заданными именами и типами.

Тип набора данных

Служба поддерживает различные типы наборов данных в зависимости от используемых хранилищ. Вы можете найти список поддерживаемых хранилищ данных в статье Общие сведения о соединителях. Выберите хранилище данных, чтобы узнать, как создать для него связанную службу и набор данных.

Например, для набора данных текста с разделителями задается тип DelimitedText, как показано в следующем примере JSON:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Примечание.

Значение схемы определяется с помощью синтаксиса JSON. Дополнительные сведения о сопоставлении схем и сопоставлении типов данных см. в документации для Фабрика данных Azure действия копирования по схеме и сопоставлению типов.

Создайте наборы данных.

Наборы данных можно создавать с помощью одного из этих средств или пакетов SDK: .NET API, PowerShell, REST API, шаблона Azure Resource Manager и портала Azure

Наборы данных текущей версии и версии 1

Ниже приведены некоторые различия между наборами данных в текущей версии фабрики данных (и Azure Synapse) и устаревшей версией Фабрики данных 1:

  • Внешнее свойство не поддерживается в текущей версии. Оно заменено триггером.
  • Политика и свойства доступности не поддерживаются в текущей версии. Время начала конвейера зависит от триггеров.
  • Наборы данных с заданной областью (наборы данных, определенные в конвейере) в текущей версии не поддерживаются.

Быстрый старт

Пошаговые инструкции по созданию конвейеров и наборов данных с помощью одного из указанных ниже инструментов или пакетов SDK приведены в указанных ниже руководствах.

Ссылки на схему набора данных