Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure
Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Инструмент "Копирование данных" предназначен для оптимизации процесса приема данных в озеро данных, что обычно является первым шагом сценария комплексной интеграции данных. Это позволяет сэкономить время, особенно при использовании службы для принятия данных из источников данных впервые. Ниже приведены некоторые преимущества использования этого средства:
- При использовании средства копирования данных не требуется понимать определения служб для связанных служб, наборов данных, конвейеров, действий и триггеров.
- Процедура отправки данных в озеро данных с помощью инструмента копирования данных интуитивно понятна. Этот инструмент автоматически создает все необходимые ресурсы для копирования данных из выбранного исходного хранилища данных в выбранное хранилище данных назначения или хранилище данных-приемник.
- Инструмент копирования данных позволяет проверить, были ли данные приняты во время авторизации, что позволяет с самого начала избежать потенциальных ошибок.
- Если необходимо реализовать сложную бизнес-логику для загрузки данных в озеро данных, вы все еще можете изменять ресурсы, созданные инструментом "Копирование данных", используя авторизацию каждого действия в пользовательском интерфейсе.
В следующей таблице предоставлены рекомендации по использованию инструмента "Копирование данных" и авторизации каждого действия в пользовательском интерфейсе:
Средство копирования данных | Авторизация каждого действия (действие копирования) |
---|---|
Требуется легко создавать задачи загрузки данных без изучения сущностей, таких как связанные службы, наборы данных, конвейеры и т. д. | Требуется реализовать комплексную и гибкую логику для загрузки данных в озеро. |
Требуется быстро загрузить большое количество артефактов данных в озеро данных. | Необходимо связать действие копирования с последующими действиями для очистки обработки данных. |
Чтобы запустить средство копирования данных, выберите плитку Приема на домашней странице пользовательского интерфейса Фабрики данных или Synapse Studio.
После запуска средства копирования данных вы увидите два типа задач: одна встроенная задача копирования , а другая — задача копирования на основе метаданных. Встроенная задача копирования приводит к созданию конвейера в течение пяти минут для репликации данных без определения сущностей. Задача копирования на основе метаданных позволяет упростить процесс создания параметризованных конвейеров и внешней таблицы управления, чтобы управлять масштабным копированием большого количества объектов (например, тысяч таблиц). Дополнительные сведения см. в статье Копирование данных на основе метаданных.
Интуитивная процедура загрузки данных в озеро данных
Этот инструмент позволяет легко переместить данные из разнообразных источников в места назначения за считанные минуты с использованием интуитивно понятной процедуры:
Настройте параметры источника.
Настройте параметры назначения.
Настройте дополнительные параметры операции копирования, такие как сопоставление столбцов, параметры производительности и параметры отказоустойчивости.
Укажите расписание задачи загрузки данных.
Просмотрите сводку по сущностям, которые будут созданы.
При необходимости измените конвейер, чтобы обновить параметры действия копирования.
Инструмент изначально предназначен для работы с большими объемами данных и поддерживает разнообразные данные и типы объектов. Его можно использовать для перемещения сотен папок, файлов или таблиц. Инструмент позволяет выполнять автоматический предварительный просмотр данных, собирать и автоматически сопоставлять схемы, а также фильтровать данные.
Автоматический предварительный просмотр данных
Часть данных можно просмотреть из выбранного исходного хранилища данных, что позволяет проверить копируемые данные. Кроме того, если исходные данные находятся в текстовом файле, инструмент копирования данных анализирует его, чтобы автоматически обнаружить сведения о разделителях строк и столбцов, а также о схемах.
После обнаружения выберите Предварительный просмотр данных.
Сбор и автоматическое сопоставление схем
Схема источника данных во многих случаях может отличаться от схемы назначения данных. В этом случае необходимо сопоставить столбцы в исходной схеме со столбцами в целевой схеме.
Средство копирования данных отслеживает и изучает поведение при сопоставлении столбцов между исходными и целевыми хранилищами. После выбора одного или нескольких столбцов из исходного хранилища данных и сопоставления их со схемой назначений инструмент копирования данных начинает анализировать шаблон для пар столбцов, выбранных из обоих источников. Затем он применяет тот же шаблон для остальных столбцов. Таким образом, вы видите, что все столбцы сопоставлены с назначением так, как вам нужно, всего за несколько кликов. Если вы не удовлетворены выбором сопоставления столбцов, предоставленного средством копирования данных, его можно игнорировать и продолжить сопоставление столбцов вручную. Тем временем инструмент "Копирование данных" постоянно изучает и обновляет шаблон, в конечном итоге достигая оптимального шаблона сопоставления столбцов для ваших нужд.
Примечание.
При копировании данных из SQL Server или Базы данных SQL Azure в Azure Synapse Analytics, если таблица не существует в целевом хранилище, средство копирования данных поддерживает автоматическое создание таблицы с помощью исходной схемы.
Фильтрация данных
Вы можете фильтровать исходные данные, чтобы выбрать только те, которые нужно скопировать в целевое хранилище данных. Благодаря фильтрации объем данных, которые необходимо скопировать в хранилище данных-приемник, уменьшается, и, таким образом, повышается пропускная способность операции копирования. В инструменте копирования данных предусмотрен гибкий способ фильтрации данных в реляционной базе данных с помощью языка запросов SQL или файлов в папке больших двоичных объектов Azure.
Фильтрация данных в базе данных
На следующем снимке экрана показан SQL-запрос на фильтрацию данных.
Фильтрация данных в папке блобов Azure
Вы можете использовать переменные в пути к папке для копирования данных из папки. Поддерживаемые переменные: {year}, {month}, {day}, {hour} и {minute}. Пример: inputfolder/{year}/{month}/{day}.
Предположим, что у вас есть входные папки в следующем формате:
2016/03/01/01
2016/03/01/02
2016/03/01/03
...
Нажмите кнопку "Обзор" для файла или папки, перейдите к одной из этих папок (например, 2016-03-01-02>>>) и нажмите кнопку "Выбрать". В текстовом поле должно быть видно: 2016/03/01/02.
Затем измените в нем 2016 на {year}, 03 на {month}, 01 на {day}, 02 на {hour} и нажмите клавишу TAB. При выборе параметра Добавочная загрузка: имена папок или файлов, секционированных по времени в разделе Поведение загрузки файлов и выборе параметров Расписание или Переворачивающееся окно на странице Свойства появятся раскрывающиеся списки для выбора формата следующих четырех переменных.
Инструмент копирования данных создает параметры с выражениями, функциями и системными переменными, которые можно использовать для представления {year}, {month}, {day}, {hour} и {minute} при создании конвейера.
Параметры планирования
Операцию копирования можно выполнить однократно или запускать по расписанию (ежечасно, ежедневно и т. д.). Эти варианты можно использовать с соединителями в различных средах, включая локальные, облачные и настольные компьютеры.
Однократная операция копирования позволяет один раз переместить данные из источника в целевое расположение. Ее можно применять к данным любого размера и любого из поддерживаемых форматов. Запланированное копирование позволяет копировать данные с определенной периодичностью. Для настройки запланированной копии можно использовать расширенные параметры (например, повторные попытки, время ожидания и оповещения).
Связанный контент
Попробуйте эти руководства с использованием инструмента копирования данных: