Поделиться через


Обзор приема данных Azure Synapse Data Explorer (предварительная версия)

Это важно

Обозреватель данных Azure Synapse Analytics (предварительная версия) будет прекращен 7 октября 2025 г. После этой даты рабочие нагрузки, работающие в Synapse Data Explorer, будут удалены, а связанные данные приложения будут потеряны. Мы настоятельно рекомендуем мигрировать в Eventhouse на платформе Microsoft Fabric.

Программа Microsoft Cloud Migration Factory (CMF) предназначена для поддержки клиентов при миграции в Fabric. Программа предлагает практические ресурсы клавиатуры без затрат для клиента. Эти ресурсы назначаются в течение 6–8 недель с предопределенной и согласованной областью. Номинации клиентов принимаются от команды учетных записей Microsoft или непосредственно путем отправки запроса на помощь команде CMF.

Прием данных — это процесс, используемый для загрузки записей данных из одного или нескольких источников для импорта данных в таблицу в пуле Azure Synapse Data Explorer. После принятия данные становятся доступными для запроса.

Служба управления данными Azure Synapse Data Explorer, которая отвечает за прием данных, реализует следующий процесс:

  • Извлекает данные из пакетов или потоковой передачи из внешнего источника и считывает запросы из ожидающей очереди Azure.
  • Пакетные данные, поступающие в ту же базу данных и таблицу, оптимизированы для повышения скорости загрузки.
  • Исходные данные проверяются и формат преобразуется при необходимости.
  • Дополнительные манипуляции с данными, включая сопоставление схемы, упорядочение, индексирование, кодировку и сжатие данных.
  • Данные сохраняются в хранилище в соответствии с заданной политикой хранения.
  • Прием данных фиксируется в подсистеме, где она доступна для запроса.

Поддерживаемые форматы данных, свойства и разрешения

Пакетная обработка и прием потоковой передачи

  • Прием пакетов выполняет пакетную обработку данных и оптимизирован для высокой пропускной способности приема. Этот метод является предпочтительным и наиболее производительным типом приема. Данные обрабатываются пакетно в соответствии со свойствами загрузки. Небольшие пакеты данных объединяются и оптимизированы для быстрого выполнения запросов. Политику пакетной загрузки можно задать в базах данных или таблицах. По умолчанию максимальное значение пакетной обработки составляет 5 минут, 1000 элементов или общий размер 1 ГБ. Ограничение размера данных для команды пакетной загрузки составляет 4 ГБ.

  • Потоковая загрузка данных — это постоянный процесс загрузки данных из потокового источника. Потоковый прием данных позволяет уменьшить задержку до близкой к реальному времени для небольших наборов данных в каждой таблице. Данные изначально передаются в хранилище строк, а затем перемещаются в участки хранилища столбцов.

Методы приема и средства

Azure Synapse Data Explorer поддерживает несколько методов приема, каждый из которых имеет собственные целевые сценарии. Эти методы включают средства приема, соединители и подключаемые модули для различных служб, управляемых конвейеров, программного приема с помощью пакетов SDK и прямого доступа к приему.

Прием с помощью управляемых конвейеров

Для организаций, которые хотят, чтобы управление (регулированием, повторными попытками, мониторами, оповещениями и т. д.) осуществлялось внешней службой, использование коннектора, вероятно, является наиболее подходящим решением. Прием в очереди подходит для больших объемов данных. Azure Synapse Data Explorer поддерживает следующие Azure Pipelines:

  • Конвейеры Synapse: полностью управляемая служба интеграции данных для аналитических рабочих нагрузок в конвейерах Synapse подключается к более чем 90 поддерживаемым источникам для обеспечения эффективной и устойчивой передачи данных. Конвейеры Synapse подготавливают, преобразовывают и обогащают данные для предоставления аналитических данных, которые можно отслеживать различными способами. Эта служба может использоваться в качестве одноразового решения на периодической временной шкале или активироваться определенными событиями.

Программная интеграция с помощью SDK

Azure Synapse Data Explorer предоставляет пакеты SDK, которые можно использовать для приема запросов и данных. Программная загрузка оптимизирована для снижения затрат на загрузку, и минимизирует транзакции хранения во время и после процесса загрузки.

Перед началом работы выполните следующие действия, чтобы получить конечные точки пула Data Explorer для настройки программного приема.

  1. В Synapse Studio в области навигации слева выберите Управление>пулы Data Explorer.

  2. Выберите пул обозревателя данных, который вы хотите использовать для просмотра сведений.

    Снимок экрана: экран пулов обозревателя данных с списком существующих пулов.

  3. Запишите конечные точки приема запросов и данных. Используйте конечную точку запроса в качестве кластера при настройке подключений к пулу Обозревателя данных. При настройке пакетов SDK для приема данных используйте конечную точку приема данных.

    Снимок экрана: область свойств пулов обозревателя данных с адресами URI запроса и приема данных.

Доступные пакеты SDK и проекты с открытым кодом

Инструменты

  • Прием по одному щелчку: позволяет быстро получать данные путем создания и настройки таблиц из широкого диапазона типов источников. Однократная загрузка автоматически предлагает таблицы и структуры отображения на основе источника данных в Azure Synapse Data Explorer. Использование функции "один клик" может применяться для однократного приема данных или для определения непрерывного приема через сетку событий в контейнер, в который данные были загружены.

Команды управления языком запросов Kusto

Существует ряд методов, с помощью которых данные могут быть непосредственно загружены в движок с использованием команды Языка запросов Kusto (KQL). Поскольку этот метод обходит службы управления данными, он подходит только для исследования и прототипирования. Не используйте этот метод в производственных или сценариях с высокой нагрузкой.

  • Встроенное введение: команда управления .ingest inline отправляется в движок, причем данные, которые нужно ввести, являются частью самого текста команды. Этот метод предназначен для импровизированного тестирования.

  • Прием из запроса: команда управления .set, .append, .set-or-append или .set-or-replace отправляется в движок, причем данные указываются косвенно как результаты запроса или команды.

  • Загрузка из хранилища (pull): управляющая команда .ingest into направляется движку, с данными, хранящимися во внешнем хранилище (например, Blob Storage Azure), доступном для движка и на которое указывает команда.

Пример использования команд управления приемом см. в разделе «Анализ с помощью обозревателя данных».

Процесс приема

Выбрав наиболее подходящий метод приема для ваших потребностей, сделайте следующее:

  1. Настройка политики хранения

    Данные, загруженные в таблицу в Azure Synapse Data Explorer, подлежат действующей ретенционной политике таблицы. Если политика хранения не задана для таблицы явно, то эффективная политика хранения выводится из политики хранения базы данных. Горячее хранение — это функция размера кластера и политики хранения. Поглощение большего объема данных, чем у вас есть доступное пространство, принудит первые поступившие данные к холодному архивированию.

    Убедитесь, что политика хранения базы данных подходит для ваших потребностей. Если нет, явно переопределите его на уровне таблицы. Дополнительные сведения см. в политике хранения.

  2. Создание таблицы

    Для приема данных необходимо создать таблицу заранее. Используйте один из следующих вариантов:

    Примечание.

    Если запись является неполной или поле не может быть проанализировано как обязательный тип данных, соответствующие столбцы таблицы будут заполнены значениями NULL.

  3. Создание сопоставления схем

    Сопоставление схем помогает привязать поля исходных данных к столбцам целевой таблицы. Сопоставление позволяет переносить данные из разных источников в одну таблицу на основе определённых атрибутов. Поддерживаются различные типы сопоставлений, ориентированные на строки (CSV, JSON и AVRO), а также ориентированные на столбцы (Parquet). В большинстве методов сопоставления также могут быть предварительно созданы в таблице и использоваться из параметра команды загрузки.

  4. Установка политики обновления (необязательно)

    Некоторые сопоставления формата данных (Parquet, JSON и Avro) поддерживают простые и полезные преобразования времени приема. Если сценарий требует более сложной обработки на этапе приема данных, используйте политику обновления, которая позволяет легкой обработке с помощью команд языка запросов Kusto. Политика обновления автоматически выполняет извлечение и преобразование данных, ранее загруженных в исходную таблицу, и заносит полученные данные в одну или несколько целевых таблиц. Задайте политику обновления.

Дальнейшие действия