Что такое подготовка данных?

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Обработка данных включает преобразование и переформатирование данных из исходного источника, чтобы сделать его более подходящим и полезным для различных подчиненных приложений.

Организациям нужна возможность изучать свои важнейшие бизнес-данные для подготовки и первичной обработки, чтобы проводить точный анализ комплексной информации, объем которой ежедневно растет. Подготовка данных необходима, чтобы организации могли использовать данные в различных бизнес-процессах и ускорить окупаемость.

Фабрика данных позволяет выполнять подготовку данных без кода в масштабе облака итеративно с помощью Power Query. Фабрика данных интегрируется с Power Query Online и делает функции Power Query M доступными в качестве действия конвейера.

Фабрика данных преобразует M, созданную редактором Power Query Online Mashup, в код spark для выполнения масштабирования облака путем преобразования M в потоки данных Azure Data Factory. Обработка данных с помощью Power Query и потоков данных особенно полезна для инженеров данных или "гражданских интеграторов данных".

Случаи использования

Быстрое интерактивное исследование и подготовка данных

Несколько инженеров по работе с данными и интеграторов данных граждан могут интерактивно изучать и подготавливать наборы данных в масштабе облака. С увеличением объема, разнообразия и скорости данных в озерах данных пользователям требуется эффективный способ изучения и подготовки наборов данных. Например, может потребоваться создать набор данных, содержащий все демографические сведения о новых клиентах с 2017 года. При этом не выполняется сопоставление с известным целевым объектом. Происходит изучение, первичная обработка и структурирование наборов данных для выполнения требований перед публикацией в озере. Первичная обработка часто используется для менее формальных сценариев аналитики. Подготовленные наборы данных могут использоваться для преобразований и операций нисходящего машинного обучения.

Гибкая подготовка данных без написания программного кода

Интеграторы данных граждан тратят свыше 60 % времени на поиск и подготовку данных. Для повышения производительности работы это необходимо сделать без написания программного кода. Предоставление гражданским интеграторам данных возможности обогащать, формировать и публиковать данные при помощи таких известных инструментов, как Power Query Online, значительно повышает их производительность. Wrangling в Azure Data Factory позволяет использовать редактор mashup в Power Query Online, чтобы пользователи-непрофессионалы могли быстро устранять ошибки, стандартизировать данные и создавать качественные данные для принятия бизнес-решений.

Проверка и исследование данных

Выполняйте визуальный анализ данных без написания программного кода для удаления выбросов и аномалий, а также для приведения данных к формату, удобному для оперативной аналитики.

Поддерживаемые источники

Соединитель Формат данных Тип аутентификации
Azure Blob Storage CSV, Parquet, Excel Ключ учетной записи, сервисный принципал, MSI
Azure Data Lake Storage Gen1 CSV, Parquet, Excel Служебный принципал, MSI
Azure Data Lake Storage Gen2 CSV, Parquet, Excel Ключ учетной записи, сервисный принципал, MSI
База данных SQL Azure - Проверка подлинности SQL, MSI, сервисный принципал
Azure Synapse Analytics - Проверка подлинности SQL, MSI, сервисный принципал

Редактор мэшапов

При создании действия Power Query все исходные наборы данных становятся запросами набора данных и помещаются в папку ADFResource. По умолчанию UserQuery будет указывать на первый запрос к набору данных. Все преобразования необходимо осуществлять с UserQuery, потому что изменения запросов к наборам данных не поддерживаются и не будут сохраняться. Переименование, добавление и удаление запросов сейчас не поддерживается.

Первичная обработка

В настоящее время не все функции Power Query M поддерживаются для обработки данных, несмотря на доступность во время разработки. При создании действий Power Query вы получите следующее сообщение об ошибке, если функция не поддерживается:

The Power Query Spark Runtime does not support the function

Дополнительные сведения о поддерживаемых преобразованиях см. в разделе Power Query функции обработки данных.

Узнайте, как создать набор данных для преобразования с использованием Power Query.