Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Эта статья является частью шести из семи частей серии, которая содержит рекомендации по миграции из Netezza в Azure Synapse Analytics. В этой статье основное внимание уделяется передовым методам использования инструментов Microsoft и сторонних разработчиков.
Средства миграции хранилища данных
Миграция существующего хранилища данных в Azure Synapse обеспечивает следующие преимущества:
Глобально безопасная, масштабируемая, экономичная, ориентированная на облако база данных с оплатой по мере использования.
Обширная аналитическая экосистема Майкрософт, существующая в Azure. Эта экосистема состоит из технологий, которые помогут модернизировать хранилище данных после миграции и расширить аналитические возможности для повышения ценности.
Несколько средств корпорации Майкрософт и сторонних партнеров помогут выполнить миграцию из существующих хранилищ данных в Azure Synapse. В этой статье описываются следующие типы средств:
Средства миграции данных и баз данных Майкрософт.
Сторонние средства автоматизации хранилища данных для автоматизации и документирования миграции в Azure Synapse.
Сторонние средства миграции хранилища данных для переноса схемы и данных в Azure Synapse.
Сторонние средства для компенсации различий в реализациях SQL между вашим текущим решением СУБД хранилища данных и Azure Synapse.
Средства миграции данных Майкрософт
Корпорация Майкрософт предлагает несколько средств, которые помогут выполнить миграцию существующего хранилища данных в Azure Synapse, например:
Службы Майкрософт для передачи физических данных.
Службы Майкрософт для приема данных.
В следующих разделах данные средства рассмотрены более подробно.
Фабрика данных Microsoft Azure
Фабрика данных — это полностью управляемая гибридная служба интеграции данных с оплатой по мере использования для высокомасштабируемой ETL- и ELT-обработки. Она использует Apache Spark для параллельной обработки и анализа данных в памяти, чтобы максимизировать пропускную способность.
Подсказка
Фабрика данных позволяет создавать масштабируемые конвейеры интеграции данных без написания кода.
Соединители Фабрики данных поддерживают подключение к внешним источникам данных и баз данных и имеют шаблоны для распространенных задач интеграции данных. Визуальный пользовательский интерфейс на основе браузера позволяет специалистам, не являющимся программистами, создавать и запускать конвейеры для приема, преобразования и загрузки данных. Более опытные программисты могут включать настраиваемый код, например программы Python.
Подсказка
Фабрика данных обеспечивает возможность совместной разработки между бизнесом и ИТ-специалистами.
Фабрика данных также является инструментом оркестрации и лучшим средством Майкрософт для автоматизации комплексного процесса миграции. Автоматизация снижает риск, усилия и время при выполнении миграции, а также делает процесс миграции легко воспроизводимым. На следующей диаграмме показан поток данных для сопоставления в рамках Фабрики данных.
На следующем снимке экрана представлен пример потока данных для первичной обработки в рамках Фабрики данных Azure.
В Фабрике данных вы можете разрабатывать простые или комплексные процессы ETL и ELT без написания кода или обслуживания, всего в несколько щелчков мыши. Процессы ETL/ELT включают прием, перемещение, подготовку, преобразование и обработку данных. Вы можете разрабатывать и управлять планированием и триггерами в Фабрике данных для создания автоматизированной среды интеграции и загрузки данных. В Фабрике данных можно определять процессы массовой загрузки данных PolyBase, управлять ими и планировать их.
Подсказка
Фабрика данных включает в себя средства миграции данных и всего хранилища данных в Azure.
Фабрику данных можно использовать для реализации гибридной средой, в которой безопасно и согласованно размещаются локальные, облачные, потоковые и SaaS-данные, и для управления такой средой. Данные SaaS могут поступать от разных приложений, например Salesforce.
Возможность упорядочения потоков данных — это новая функция в Data Factory. Она позволяет сделать Фабрику данных доступной для бизнес-пользователей, которые хотят визуально обнаруживать, изучать и подготавливать данные в большом масштабе без написания кода. Подготовка потоков данных для обработки предоставляет возможность самостоятельной подготовки данных, аналогично функциям в Microsoft Excel, Power Query и потокам данных Microsoft Power BI. Бизнес-пользователи могут осуществлять подготовку и интеграцию данных с помощью пользовательского интерфейса в стиле электронной таблицы с параметрами преобразования выпадающего списка.
Фабрика данных является рекомендуемым подходом для реализации интеграции данных и процессов ETL/ELT для среды Azure Synapse, особенно если нужно выполнить рефакторинг для существующих устаревших процессов.
Службы Майкрософт для передачи физических данных
В следующих разделах обсуждаются несколько продуктов и служб, которые корпорация Майкрософт предоставляет для помощи клиентам в передаче данных.
Azure ExpressRoute
Azure ExpressRoute используется для создания частных подключений между центрами обработки данных Azure и инфраструктурой в локальной среде или в среде совместного размещения. Подключения ExpressRoute не осуществляются через общедоступный Интернет, обеспечивая повышенную надежность и быстродействие, а также более низкую задержку по сравнению с обычными интернет-подключениями. В некоторых случаях использование подключений ExpressRoute для передачи данных между локальными системами и Azure приносит существенную экономию.
AzCopy
AzCopy — это служебная программа командной строки, которая копирует файлы в Хранилище BLOB-объектов Azure через стандартное подключение к Интернету. В проекте миграции хранилища можно использовать AzCopy для отправки извлеченных, сжатых текстовых файлов с разделителями перед загрузкой в Azure Synapse с помощью PolyBase. AzCopy может отправлять отдельные файлы, выбранные файлы или папки с файлами. Если экспортированные файлы имеют формат Parquet, используйте вместо этого собственное средство Parquet для чтения.
Azure Data Box
Azure Data Box — это служба Майкрософт, которая предоставляет защищаемый законодательством об интеллектуальной собственности физическое устройство хранения, на которое можно скопировать данные для миграции. Затем это устройство отправляется в центр обработки данных Azure для передачи данных в облачное хранилище. Эта служба может быть экономически эффективной для больших объемов данных (десятков или сотен терабайтов) и в тех случаях, когда пропускную способность сети невозможно или очень сложно увеличить. Azure Data Box обычно используется для однократной загрузки большого объема исторических данных в Azure Synapse.
Шлюз Azure Data Box
Azure Data Box Gateway — это виртуализированное устройство шлюза для облачного хранилища, которое размещается на вашем предприятии и отправляет ваши изображения, мультимедийные файлы и другие данные в Azure. Используйте Шлюз Data Box для задач однократной миграции или непрерывной добавочной передачи данных.
Службы Майкрософт для приема данных
В следующих разделах обсуждаются продукты и службы, которые корпорация Майкрософт предоставляет для помощи клиентам в приеме данных.
Копировать в
Инструкция COPY INTO обеспечивает наибольшую гибкость приема данных с высокой пропускной способностью в Azure Synapse. Дополнительные сведения о возможностях COPY INTO см. в статье COPY (Transact-SQL).
PolyBase
PolyBase — это самый быстрый и самый масштабируемый метод для массовой загрузки данных в Azure Synapse. PolyBase использует архитектуру MPP (с массовой параллельной обработкой) в Azure Synapse для параллельной загрузки данных с целью достижения максимальной пропускной способности. PolyBase может считывать данные из неструктурированных файлов в Хранилище BLOB-объектов Azure или напрямую из внешних источников данных и других реляционных баз данных через соединители.
Подсказка
PolyBase может загружать данные параллельно из Хранилища BLOB-объектов Azure в Azure Synapse.
PolyBase также может напрямую считывать из файлов, сжатых с помощью gzip — это уменьшает физический объем данных, перемещаемых в процессе загрузки. PolyBase поддерживает популярные форматы данных, такие как текст с разделителями, ORC и Parquet.
Подсказка
Вы можете вызвать PolyBase из Фабрики данных в рамках конвейера миграции.
PolyBase тесно интегрирован с Фабрикой данных и поддерживает быстрое развитие процессов ETL/ELT для загрузки данных. Вы можете запланировать процессы загрузки данных через визуальный интерфейс, который повышает производительность и снижает вероятность ошибок по сравнению с написанием кода вручную. Корпорация Майкрософт рекомендует использовать PolyBase для приема данных в Azure Synapse, особенно при больших объемах данных.
PolyBase использует для загрузки данных инструкции CREATE TABLE AS или INSERT...SELECT.
CREATE TABLE AS минимизирует логирование для достижения максимальной пропускной способности. Наиболее эффективным форматом для загрузки данных являются сжатые текстовые файлы с разделителями. Для обеспечения максимальной пропускной способности разделите большие входные файлы на несколько небольших и загрузите их параллельно. Для максимально быстрой загрузки в промежуточную таблицу определите целевую таблицу как тип HEAP и используйте распределение по принципу циклического обхода.
PolyBase имеет некоторые ограничения, например не допускает строки с длиной более 1 мегабайта и не поддерживает вложенные форматы фиксированной ширины, такие как JSON и XML.
Партнеры Майкрософт по миграции Netezza
Партнеры Майкрософт предлагают инструменты, услуги и опыт для переноса устаревшей локальной платформы хранилища данных в Azure Synapse.
Дальнейшие действия
Дополнительные сведения о реализации современных хранилищ данных см. в следующей статье в этой серии: за пределами миграции Netezza реализуйте современное хранилище данных в Microsoft Azure.