Руководство по сбору данных Центров событий в формате Parquet и анализе с помощью Azure Synapse Analytics

Центры событий Azure создают большие объемы потоковых данных, которые часто необходимо хранить для анализа. В этом руководстве показано, как записать эти данные в формате Parquet — формат хранилища столбцов, оптимизированный для рабочих нагрузок аналитики, с помощью Azure Stream Analytics без написания кода.

Используйте редактор без кода Stream Analytics, чтобы создать задание, которое передает данные из Event Hubs непосредственно в Azure Data Lake Storage Gen2. Затем запросите сохраненные файлы Parquet, используя Azure Synapse Analytics с помощью Spark и бессерверного SQL.

В этом руководстве описано следующее:

Развертывание генератора событий, отправляющего примеры событий в концентратор событий
Создайте задание Stream Analytics с помощью редактора без кода
Проверка входных данных и схемы
Настройте хранилище Azure Data Lake Storage Gen2 для захвата данных из концентратора событий.
Выполнение задания Stream Analytics
Используйте Azure Synapse Analytics для выполнения запросов к файлам Parquet

Требования

Прежде чем начать, выполните следующие действия.

Если у вас еще нет подписки Azure, создайте бесплатную учетную запись.
Разверните приложение генератора событий TollApp в Azure. interval Задайте для параметра значение 1 и используйте новую группу ресурсов для этого шага.
Создайте рабочую область Azure Synapse Analytics с учетной записью Data Lake Storage 2-го поколения.

Использование бескодового редактора для создания задания Stream Analytics

Найдите группу ресурсов, в которой развернут генератор событий TollApp.
Выберите пространство имен Центров событий Azure. Может потребоваться открыть его на отдельной вкладке или в окне.
На странице пространства имен Центров событий выберите Центры событий в разделе "Сущности " в меню слева.
Выберите entrystream экземпляр.
На странице Event Hubs выберите Обработка данных в разделе Функции в меню слева.
Выберите Начать на плитке Запись данных в ADLS Gen2 в формате Parquet.
Назовите задание parquetcapture и нажмите кнопку "Создать".
На странице конфигурации концентратора событий выполните следующие действия.
1. Для группы потребителей выберите "Использовать существующий".
2. Убедитесь, что выбрана $Default группа потребителей.
3. Убедитесь, что сериализация имеет значение JSON.
4. Убедитесь, что для метода проверки подлинности задано значение Connection String. Чтобы упростить руководство, используйте аутентификацию с использованием строки подключения. В рабочих сценариях рекомендуется использовать управляемое удостоверение Azure для повышения безопасности и упрощения управления. Для получения дополнительной информации см. статью Использование управляемых удостоверений для доступа к центрам событий из задания Azure Stream Analytics.
5. Убедитесь, что имя общего ключа доступа концентратора событий установлено на RootManageSharedAccessKey.
6. Выберите "Подключиться" в нижней части окна.
В течение нескольких секунд отображаются примеры входных данных и схемы. Вы можете удалить поля, переименовать поля или изменить тип данных.
Выберите элемент Azure Data Lake Storage 2-го поколения на панели холста и настройте его, указав
- Подписка, в которой находится учетная запись Azure Data Lake 2-го поколения
- Имя учетной записи для хранения, которая должна быть такой же учетной записью Azure Data Lake Storage 2-го поколения, используемой в вашей рабочей области Azure Synapse Analytics, как указано в разделе "Предварительные требования".
- Контейнер, в котором создаются файлы Parquet.
- Для пути к таблице Delta укажите имя таблицы.
- Шаблон даты и времени по умолчанию yyyy-MM-dd и HH.
- Выберите Подключиться.
Нажмите кнопку "Сохранить" на верхней ленте, чтобы сохранить задание, а затем нажмите кнопку "Пуск ", чтобы запустить задание. После запуска задания выберите X в правом углу, чтобы закрыть страницу задания Stream Analytics .
Список всех заданий Stream Analytics, созданных с помощью редактора без кода. В течение двух минут задание переходит в состояние "Выполнение ". Нажмите кнопку "Обновить" на странице, чтобы увидеть изменение состояния из "Создано" —> "Запуск".>

Просмотр выходных данных в учетной записи Azure Data Lake Storage 2-го поколения

Найдите учетную запись Azure Data Lake Storage 2-го поколения, используемую на предыдущем шаге.
Выберите контейнеры в разделе хранилища данных в меню слева.
Выберите контейнер, используемый на предыдущем шаге. Вы увидите файлы parquet, созданные в указанной ранее папке.

Запрос собранных данных в формате Parquet с помощью Azure Synapse Analytics

Запрос с использованием Azure Synapse Spark

Найдите рабочую область Azure Synapse Analytics и откройте Synapse Studio.
Создайте бессерверный пул Apache Spark в рабочей области, если таковой еще не существует.
Выберите плитку Open Synapse Studio в разделе "Начало работы ", чтобы запустить Synapse Studio на новой вкладке или окне.
В Synapse Studio перейдите в центр Разработка и создайте новую Записную книжку.
Создайте новую ячейку кода и вставьте в нее следующий код. Замените контейнер и adlsname именем контейнера и учетной записи Azure Data Lake Storage 2-го поколения, используемой на предыдущем шаге.
```
%%pyspark
df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
display(df.limit(10))
df.count()
df.printSchema()
```
Чтобы подключиться к панели инструментов, выберите пул Spark в раскрывающемся списке.
Нажмите кнопку "Выполнить все ", чтобы просмотреть результаты.

Запрос с использованием бессерверных SQL Azure Synapse

В центре Разработка создайте новый скрипт SQL.
Вставьте следующий скрипт и запустите его с помощью встроенной бессерверной конечной точки SQL. Замените контейнер и adlsname именем контейнера и учетной записи Azure Data Lake Storage 2-го поколения, используемой на предыдущем шаге.
```
SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]
```

Очистка ресурсов

Найдите экземпляр Event Hubs и просмотрите список заданий Stream Analytics в разделе Process Data. Остановите все выполняемые задания.
Перейдите в группу ресурсов, которую вы использовали при развертывании генератора событий TollApp.
Выберите команду Удалить группу ресурсов. Чтобы подтвердить удаление, введите имя группы ресурсов.

Следующие шаги

В этом руководстве вы узнали, как создать задание Stream Analytics с помощью редактора без кода для записи потоков данных Центров событий в формате Parquet. Затем вы использовали Azure Synapse Analytics для запроса файлов Parquet с помощью Synapse Spark и Synapse SQL.

Без обработки потока кода с помощью Azure Stream Analytics

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-26