Руководство: запись данных в таблицу Delta, хранящуюся в Azure Data Lake Storage 2-го поколения

В этом руководстве показано, как создать задание Stream Analytics, которое записывается в таблицу Delta в Azure Data Lake Storage 2-го поколения. В этом руководстве вы узнаете, как:

  • Развертывание генератора событий, отправляющего примеры данных в концентратор событий
  • Создайте задание для Stream Analytics
  • Настройка Azure Data Lake Storage 2-го поколения с помощью таблицы Delta
  • Запустите задание Stream Analytics

Предпосылки

Прежде чем начать, выполните следующие действия.

Создайте задание для Stream Analytics

  1. Войдите на портал Azure.

  2. Выберите все службы в меню слева.

  3. Переместите указатель мыши на задания Stream Analytics в разделе "Аналитика" и выберите + (плюс).

    Снимок экрана: выбор заданий Stream Analytics на странице

  4. Выберите Создать ресурс в левом верхнем углу портала Azure.

  5. Выберите Analytics>задание Stream Analytics из списка результатов.

  6. В новом задании Stream Analytics выполните следующие действия.

    1. Для подписки выберите подписку Azure.
    2. Для группы ресурсов выберите тот же ресурс, который использовался ранее в развертывании TollApp.
    3. В поле "Имя" введите имя задания. Имя задания Stream Analytics может содержать буквенно-цифровые символы, дефисы и символы подчеркивания. Он должен быть длиной от 3 до 63 символов.
    4. Для среды размещения убедитесь, что выбрано облако .
    5. Для единиц потока выберите 1. Единицы потоковой передачи представляют вычислительные ресурсы, необходимые для выполнения задания. Сведения о масштабировании единиц потоковой передачи см. в статье о понимании и настройке единиц потоковой передачи.

    Снимок экрана: страница задания Create Stream Analytics.

  7. В нижней части страницы выберите Проверить и создать.

  8. В разделе «Просмотр и создание» просмотрите настройки и выберите «Создать», чтобы создать задание Stream Analytics.

  9. На странице развертывания выберите "Перейти к ресурсу" , чтобы перейти на страницу задания Stream Analytics .

Настройка входных данных для задания

Следующим шагом является определение входного источника для задания, которое должно прочитать данные с помощью концентратора событий, созданного при развертывании TollApp.

  1. Найдите задание Stream Analytics, созданное в предыдущем разделе.

  2. В разделе топологии заданий задания Stream Analytics выберите входные данные.

  3. Выберите + Добавить входные данные и концентратор событий.

    Снимок экрана: страница

  4. Заполните входную форму следующими значениями, созданными с помощью шаблона Azure TollApp:

    1. Для входного псевдонима введите entrystream.

    2. Выберите "Концентратор событий" из подписок.

    3. Для подписки выберите подписку Azure.

    4. Для пространства имен Концентратора событий выберите пространство имен концентратора событий, созданное в предыдущем разделе.

    5. Используйте параметры по умолчанию для остальных параметров и нажмите кнопку "Сохранить".

      Снимок экрана: выбор входного концентратора событий.

Настройка выходных данных для задания

Следующим шагом является определение приемника данных, куда задание может записывать данные. В этом руководстве вы записываете выходные данные в таблицу Delta в Azure Data Lake Storage 2-го поколения.

  1. В разделе топологии заданий задания Stream Analytics выберите параметр "Выходные данные ".

  2. Выберите +Добавить результат>хранилище объектов BLOB/ADLS второго поколения.

    Снимок экрана: страница

  3. Заполните выходную форму следующими сведениями и нажмите кнопку "Сохранить".

    1. Для псевдонима вывода введите DeltaOutput.

    2. Выберите хранилище BLOB-объектов или ADLS 2-го поколения из подписок.

    3. Для подписки выберите подписку Azure.

    4. Для учетной записи хранения выберите созданную учетную запись ADLS Gen2 (которая начинается с tollapp).

    5. Для контейнера выберите "Создать" и укажите уникальное имя контейнера.

    6. Для формата сериализации событий выберите Delta Lake. Хотя Delta Lake указан в качестве одного из вариантов здесь, это не формат данных. Delta Lake использует версионированные файлы Parquet для хранения ваших данных. Узнать больше о Delta lake.

    7. Для пути к таблице Delta введите папку руководства/таблицу Delta.

    8. Используйте параметры по умолчанию для остальных параметров и нажмите кнопку "Сохранить".

      Снимок экрана, на котором показана конфигурация выходных данных.

Создание запросов

На этом этапе вы настроили задание Stream Analytics для чтения входящего потока данных. Следующим шагом является создание запроса, который анализирует данные в режиме реального времени. Запросы используют язык SQL, имеющий некоторые расширения, относящиеся к Stream Analytics.

  1. Выберите запрос в области топологии задания в меню слева.

  2. Введите следующий запрос в окно запроса. В этом примере запрос считывает данные из Центров событий и копирует выбранные значения в таблицу Delta в ADLS 2-го поколения.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Нажмите кнопку "Сохранить запрос " на панели инструментов.

    Снимок экрана, показывающий запрос на работу.

Запуск задания Stream Analytics и просмотр выходных данных

  1. Вернитесь на страницу обзора задания на портале Azure и нажмите кнопку "Пуск".

    Снимок экрана: выбор кнопки

  2. На странице выполнения задания убедитесь, что для времени начала выполнения задания выбрано значение Сейчас, а затем нажмите Пуск в нижней части страницы.

    Снимок экрана: выбор страницы начального задания.

  3. Через несколько минут на портале найдите учетную запись хранения и контейнер, настроенный в качестве выходных данных для задания. Теперь можно увидеть разностную таблицу в папке, указанной в контейнере. Задание занимает несколько минут, чтобы запуститься в первый раз. После запуска он продолжает работать по мере поступления данных.

    Снимок экрана: выходные файлы данных в контейнере.

Очистите ресурсы

Если ресурсы больше не нужны, удалите группу ресурсов, задание Stream Analytics и все связанные ресурсы. Удаление задания прекращает начисление платы за единицы потоковой передачи, которые использует задание. Если вы планируете использовать задание в будущем, его можно остановить и перезапустить позже, когда вам потребуется. Если вы не собираетесь продолжать использовать это задание, удалите все ресурсы, созданные в этом руководстве, выполнив следующие действия.

  1. В меню слева на портале Azure выберите группы ресурсов и выберите имя созданного ресурса.
  2. На странице группы ресурсов выберите "Удалить", введите имя ресурса для удаления в текстовом поле и нажмите кнопку "Удалить".

Дальнейшие шаги

В этом руководстве вы создали простое задание Stream Analytics, отфильтровали входящие данные и написали результаты в таблице Delta в учетной записи ADLS 2-го поколения. Дополнительные сведения о заданиях Stream Analytics см. в следующем разделе: