Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Центры событий Azure создают большие объемы потоковых данных, которые часто необходимо хранить для анализа. В этом руководстве показано, как записать эти данные в формате Parquet — формат хранилища столбцов, оптимизированный для рабочих нагрузок аналитики, с помощью Azure Stream Analytics без написания кода.
Используйте редактор без кода Stream Analytics, чтобы создать задание, которое передает данные из Event Hubs непосредственно в Azure Data Lake Storage Gen2. Затем запросите сохраненные файлы Parquet, используя Azure Synapse Analytics с помощью Spark и бессерверного SQL.
В этом руководстве описано следующее:
- Развертывание генератора событий, отправляющего примеры событий в концентратор событий
- Создайте задание Stream Analytics с помощью редактора без кода
- Проверка входных данных и схемы
- Настройте хранилище Azure Data Lake Storage Gen2 для захвата данных из концентратора событий.
- Выполнение задания Stream Analytics
- Используйте Azure Synapse Analytics для выполнения запросов к файлам Parquet
Требования
Прежде чем начать, выполните следующие действия.
- Если у вас еще нет подписки Azure, создайте бесплатную учетную запись.
-
Разверните приложение генератора событий TollApp в Azure.
intervalЗадайте для параметра значение 1 и используйте новую группу ресурсов для этого шага. - Создайте рабочую область Azure Synapse Analytics с учетной записью Data Lake Storage 2-го поколения.
Использование бескодового редактора для создания задания Stream Analytics
Найдите группу ресурсов, в которой развернут генератор событий TollApp.
Выберите пространство имен Центров событий Azure. Может потребоваться открыть его на отдельной вкладке или в окне.
На странице пространства имен Центров событий выберите Центры событий в разделе "Сущности " в меню слева.
Выберите
entrystreamэкземпляр.На странице Event Hubs выберите Обработка данных в разделе Функции в меню слева.
Выберите Начать на плитке Запись данных в ADLS Gen2 в формате Parquet.
Назовите задание
parquetcaptureи нажмите кнопку "Создать".На странице конфигурации концентратора событий выполните следующие действия.
Для группы потребителей выберите "Использовать существующий".
Убедитесь, что выбрана
$Defaultгруппа потребителей.Убедитесь, что сериализация имеет значение JSON.
Убедитесь, что для метода проверки подлинности задано значение Connection String. Чтобы упростить руководство, используйте аутентификацию с использованием строки подключения. В рабочих сценариях рекомендуется использовать управляемое удостоверение Azure для повышения безопасности и упрощения управления. Для получения дополнительной информации см. статью Использование управляемых удостоверений для доступа к центрам событий из задания Azure Stream Analytics.
Убедитесь, что имя общего ключа доступа концентратора событий установлено на RootManageSharedAccessKey.
Выберите "Подключиться" в нижней части окна.
В течение нескольких секунд отображаются примеры входных данных и схемы. Вы можете удалить поля, переименовать поля или изменить тип данных.
Выберите элемент Azure Data Lake Storage 2-го поколения на панели холста и настройте его, указав
Подписка, в которой находится учетная запись Azure Data Lake 2-го поколения
Имя учетной записи для хранения, которая должна быть такой же учетной записью Azure Data Lake Storage 2-го поколения, используемой в вашей рабочей области Azure Synapse Analytics, как указано в разделе "Предварительные требования".
Контейнер, в котором создаются файлы Parquet.
Для пути к таблице Delta укажите имя таблицы.
Шаблон даты и времени по умолчанию
yyyy-MM-ddиHH.Выберите Подключиться.
Нажмите кнопку "Сохранить" на верхней ленте, чтобы сохранить задание, а затем нажмите кнопку "Пуск ", чтобы запустить задание. После запуска задания выберите X в правом углу, чтобы закрыть страницу задания Stream Analytics .
Список всех заданий Stream Analytics, созданных с помощью редактора без кода. В течение двух минут задание переходит в состояние "Выполнение ". Нажмите кнопку "Обновить" на странице, чтобы увидеть изменение состояния из "Создано" —> "Запуск".>
Просмотр выходных данных в учетной записи Azure Data Lake Storage 2-го поколения
Найдите учетную запись Azure Data Lake Storage 2-го поколения, используемую на предыдущем шаге.
Выберите контейнеры в разделе хранилища данных в меню слева.
Выберите контейнер, используемый на предыдущем шаге. Вы увидите файлы parquet, созданные в указанной ранее папке.
Запрос собранных данных в формате Parquet с помощью Azure Synapse Analytics
Запрос с использованием Azure Synapse Spark
Найдите рабочую область Azure Synapse Analytics и откройте Synapse Studio.
Создайте бессерверный пул Apache Spark в рабочей области, если таковой еще не существует.
Выберите плитку Open Synapse Studio в разделе "Начало работы ", чтобы запустить Synapse Studio на новой вкладке или окне.
В Synapse Studio перейдите в центр Разработка и создайте новую Записную книжку.
Создайте новую ячейку кода и вставьте в нее следующий код. Замените контейнер и adlsname именем контейнера и учетной записи Azure Data Lake Storage 2-го поколения, используемой на предыдущем шаге.
%%pyspark df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet') display(df.limit(10)) df.count() df.printSchema()Чтобы подключиться к панели инструментов, выберите пул Spark в раскрывающемся списке.
Нажмите кнопку "Выполнить все ", чтобы просмотреть результаты.
Запрос с использованием бессерверных SQL Azure Synapse
В центре Разработка создайте новый скрипт SQL.
Вставьте следующий скрипт и запустите его с помощью встроенной бессерверной конечной точки SQL. Замените контейнер и adlsname именем контейнера и учетной записи Azure Data Lake Storage 2-го поколения, используемой на предыдущем шаге.
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet', FORMAT='PARQUET' ) AS [result]
Очистка ресурсов
- Найдите экземпляр Event Hubs и просмотрите список заданий Stream Analytics в разделе Process Data. Остановите все выполняемые задания.
- Перейдите в группу ресурсов, которую вы использовали при развертывании генератора событий TollApp.
- Выберите команду Удалить группу ресурсов. Чтобы подтвердить удаление, введите имя группы ресурсов.
Следующие шаги
В этом руководстве вы узнали, как создать задание Stream Analytics с помощью редактора без кода для записи потоков данных Центров событий в формате Parquet. Затем вы использовали Azure Synapse Analytics для запроса файлов Parquet с помощью Synapse Spark и Synapse SQL.