Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описано несколько вариантов, которые можно использовать для передачи данных в Azure и из нее в зависимости от ваших потребностей.
Физическая передача
Использование физического оборудования для передачи данных в Azure является хорошим вариантом при применении следующих факторов:
- ваша сеть медленная или ненадежная;
- Получение больше пропускной способности сети слишком дорого.
- Политики безопасности или организации не разрешают исходящие подключения при обработке конфиденциальных данных.
Если ваша основная проблема заключается в том, сколько времени требуется для передачи данных, попробуйте проверить, медленнее ли передачи сети, чем физический транспорт.
Служба импорта и экспорта Azure и Azure Data Box — это два основных варианта физического транспорта данных в Azure.
Служба "Импорт и экспорт Azure"
Служба импорта и экспорта Azure позволяет безопасно передавать большие объемы данных в облачное хранилище Blob Azure или файлы Azure путем отправки во внутренние центры обработки данных Azure жестких дисков с интерфейсом SATA (HDD) или твердотельных накопителей (SSD). Эту службу можно также использовать для передачи данных из хранилища Azure на жесткие диски, чтобы диски были доставлены вам для загрузки данных в локальную среду.
Коробка данных
Data Box — это устройство Майкрософт, которое работает аналогично службе импорта и экспорта Azure. С помощью Data Box Microsoft предоставляет собственное, безопасное и защищённое от несанкционированного доступа устройство передачи данных и организует всю логистику, которую можно отслеживать на портале Azure. Одним из преимуществ службы Data Box является простота использования. Нет необходимости приобретать несколько жестких дисков, выполнять их подготовку и передавать файлы на каждый из них. Многие партнеры Azure поддерживают Data Box, что упрощает использование автономной передачи данных в облако в рамках своих решений.
Средства командной строки и API
Рассмотрите следующие варианты, если вам нужны скрипты и программные передачи данных:
Azure CLI — это кроссплатформенное средство, которое позволяет управлять службами Azure и отправлять данные в хранилище.
AzCopy — это программа командной строки, которая позволяет копировать данные в хранилище BLOB-объектов, хранилище файлов Azure и хранилище таблиц Azure с оптимальной производительностью. AzCopy поддерживает параллелизм и возможность возобновить операции копирования в случае сбоя. Можно также использовать AzCopy для копирования данных из Amazon Web Services (AWS) в Azure. Для программного доступа библиотека Microsoft Azure Storage Data Movement является основным каркасом, который управляет AzCopy. Он предоставляется как библиотека .NET Core.
Azure PowerShell — это среда сценариев, в которой
Start-AzureStorageBlobCopyкомандлет предлагает возможность операторам, знакомым с Azure PowerShell.DistCp — это программа, используемая для копирования данных между хранилищем по умолчанию кластера Azure HDInsight и другими учетными записями хранилища BLOB-объектов или Azure Data Lake Storage.
Apache Sqoop — это проект Apache и часть экосистемы Hadoop. Он предварительно установлен на всех кластерах HDInsight. Sqoop передает данные между кластером HDInsight и реляционными базами данных, такими как SQL, Oracle и MySQL. Это коллекция связанных инструментов, включая средства импорта и экспорта, и работает с кластерами HDInsight с помощью хранилища BLOB-объектов или подключенного хранилища Data Lake Storage.
PolyBase — это технология, которая обращается к данным за пределами базы данных с помощью языка T-SQL. Он позволяет выполнять запросы к внешним данным в Hadoop или импортировать и экспортировать данные из хранилища BLOB-объектов.
Командная строка Hadoop — это средство, которое можно использовать при расположении данных на головном узле кластера HDInsight. С помощью
hadoop fs -copyFromLocalкоманды можно скопировать эти данные в подключенное хранилище кластера, например хранилище BLOB-объектов или Data Lake Storage. Чтобы использовать команду Hadoop, необходимо сначала подключиться к головному узлу. После подключения вы можете отправить файл в хранилище.
Графический интерфейс
Рассмотрите следующие параметры, если вам нужно передать только несколько файлов или объектов данных и не нужно автоматизировать процесс.
Обозреватель службы хранилища Azure — это кроссплатформенное средство, которое позволяет управлять содержимым учетных записей хранения. Он позволяет загружать, скачивать и управлять блобами, файлами, очередями, таблицами и сущностями Azure Cosmos DB. Используйте Storage Explorer с хранилищем Blob для управления BLOB-объектами и папками, а также для загрузки и скачивания BLOB-объектов между вашей локальной файловой системой и хранилищем Blob или между учетными записями хранения.
Портал Azure — это веб-приложение, которое предоставляет единый интерфейс для создания, управления и мониторинга ресурсов Azure. Хранилище BLOB-объектов и хранилище данных Data Lake предоставляют веб-интерфейс для исследования и загрузки файлов. Этот параметр подходит, если вы не хотите устанавливать средства или выполнять команды, чтобы быстро искать файлы или отправлять только несколько файлов.
Потоки данных Microsoft Fabric — это облачные возможности, которые помогают подготавливать и преобразовывать данные без написания кода. Они предоставляют интерфейс с низким уровнем кода для загрузки данных из сотен источников и преобразования ваших данных с помощью встроенных преобразователей данных и загрузки обработанных данных в поддерживаемые точки назначения.
Синхронизация данных и конвейеры
Фабрика данных Azure — это управляемая служба, предназначенная для регулярного передачи файлов между службами Azure, локальными системами или сочетанием обоих. С помощью фабрики данных можно создавать и планировать управляемые данными рабочие процессы, известные как конвейеры , которые используют данные из разрозненных хранилищ данных. Фабрика данных может обрабатывать и преобразовывать данные с помощью вычислительных служб, таких как Apache Spark и Машинное обучение Azure. Рабочие процессы, управляемые данными, можно создавать для оркестрации и автоматизации перемещения данных и преобразования данных.
Фабрика данных Fabric — это платформа интеграции данных, которая позволяет управлять перемещением и преобразованием данных в облачных и гибридных средах. Он позволяет создавать и планировать рабочие процессы на основе данных (конвейеры), которые включают данные из различных источников, включая облачное хранилище, базы данных и локальные системы. Эти конвейеры поддерживают различные действия, такие как перемещение данных, преобразование и поток управления, и могут использовать такие вычислительные подсистемы, как Spark и SQL в рабочих нагрузках Fabric. Благодаря интеграции с OneLake Fabric обеспечивает единый доступ к данным, управление и совместную работу во всем пространстве данных.
Среда выполнения интеграции в Фабрике данных, локальный шлюз данных в Fabric и шлюз данных виртуальной сети обеспечивают безопасные возможности подключения и интеграции данных в облачных, локальных и виртуальных сетевых средах.
Шлюз Azure Data Box передает данные в Azure и из Него, но это виртуальный модуль, а не жесткий диск. Виртуальные машины ( виртуальные машины), которые находятся в локальной сети, записывают данные в шлюз Data Box с помощью протоколов сетевой файловой системы (NFS) и блока сообщений сервера (SMB). Затем устройство передает данные в Azure.
Основные критерии выбора
В сценариях передачи данных выберите подходящую систему для ваших потребностей, учитывая следующие моменты:
Определите, требуется ли перенос больших объемов данных и передача данных через интернет-подключение займет слишком много времени, ненадежно или слишком дорого. Если да, рассмотрите возможность применения физической передачи данных.
Определите, предпочитаете ли выполнять скрипты задач передачи данных, чтобы они были повторно использованы. Если да, выберите один из параметров командной строки или Фабрики данных.
Определите, нужно ли передавать большой объем данных через сетевое подключение. Если да, выберите параметр, оптимизированный для больших данных.
Определите, нужно ли передавать данные в реляционную базу данных или из нее. Если да, выберите вариант, поддерживающий одну или несколько реляционных баз данных. Для некоторых из этих параметров также требуется кластер Hadoop.
Определите, нужен ли вашим данным автоматизированный конвейер или оркестрация рабочих процессов. Если да, рассмотрите фабрику данных.
Матрица возможностей
В следующих таблицах перечислены основные различия в возможностях.
Физическая передача
| Возможность | Служба "Импорт и экспорт Azure" | Коробка данных |
|---|---|---|
| Форм-фактор | Внутренние жесткие диски SATA или SDD | Безопасное, защищенное от несанкционированного доступа одно аппаратное устройство |
| Корпорация Майкрософт управляет материально-техническим обеспечением доставки | нет | Да |
| Интегрируется с партнерскими продуктами | нет | Да |
| Пользовательское устройство | нет | Да |
Программы командной строки
Следующие средства совместимы с Hadoop и HDInsight.
| Возможность | DistCp | Sqoop | Интерфейс командной строки Hadoop |
|---|---|---|---|
| Оптимизация для больших объемов данных | Да | Да | Да |
| Копирование в реляционную базу данных | нет | Да | нет |
| Копирование из реляционной базы данных | нет | Да | нет |
| Копирование в хранилище BLOB-объектов | Да | Да | Да |
| Копирование из хранилища BLOB-объектов | Да | Да | нет |
| Копирование в Data Lake Storage | Да | Да | Да |
| Копирование из Data Lake Storage | Да | Да | нет |
В следующей таблице содержатся средства передачи данных общего назначения.
| Возможность | Azure CLI | AzCopy | Azure PowerShell | PolyBase |
|---|---|---|---|---|
| Совместимые платформы | Linux, OS X, Windows | Linux, Windows | Виндоус | SQL Server |
| Оптимизация для больших объемов данных | нет | Да | нет | Да 1 |
| Копирование в реляционную базу данных | нет | нет | нет | Да |
| Копирование из реляционной базы данных | нет | нет | нет | Да |
| Копирование в хранилище BLOB-объектов | Да | Да | Да | Да |
| Копирование из хранилища BLOB-объектов | Да | Да | Да | Да |
| Копирование в Data Lake Storage | нет | Да | Да | Да |
| Копирование из Data Lake Storage | нет | нет | Да | Да |
1Производительность PolyBase можно улучшить путем отправки вычислений в Hadoop и использования групп масштабирования PolyBase , чтобы обеспечить параллельную передачу данных между экземплярами SQL Server и узлами Hadoop.
Графические интерфейсы, синхронизация данных и конвейеры данных
| Возможность | Storage Explorer | Портал Azure 2 | Фабрика данных | Шлюз Data Box | Dataflows |
|---|---|---|---|---|---|
| Оптимизация для больших объемов данных | нет | нет | Да | Да | Да |
| Копирование в реляционную базу данных | нет | нет | Да | нет | Да |
| Копирование из реляционной базы данных | нет | нет | Да | нет | Да |
| Копирование в хранилище BLOB-объектов | Да | нет | Да | Да | Да |
| Копирование из хранилища BLOB-объектов | Да | нет | Да | нет | Да |
| Копирование в Data Lake Storage | нет | нет | Да | нет | Да |
| Копирование из Data Lake Storage | нет | нет | Да | нет | Да |
| Отправка в хранилище BLOB-объектов | Да | Да | Да | Да | Да |
| Отправка в Data Lake Storage | Да | Да | Да | Да | Да |
| Оркестрация передачи данных. | нет | нет | Да | нет | Да |
| Пользовательские преобразования данных | нет | нет | Да | нет | Да |
| Модель ценообразования | Бесплатно | Бесплатно | Оплата за использование | Оплата за единицу | Оплата за использование |
2 Портал Azure в данном случае обеспечивает доступ к средствам веб-исследования для Blob Storage и Data Lake Storage.
Соавторы
Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.
Автор субъекта:
- Зойнер Теджада | Генеральный директор и архитектор
Другие участники:
- Prabhjot Kaur | Старший инженер по решениям
- Шрирам Колла | Главный архитектор облачных решений
Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.