Основные понятия структурированной потоковой передачи

Структурированная потоковая передача Apache Spark — это механизм обработки практически в режиме реального времени, который предлагает сквозную отказоустойчивость с гарантией обработки точно один раз с помощью знакомых API Spark. Структурированная потоковая передача позволяет выражать вычисления с данными потоковой передачи таким же образом, как для пакетных вычислений по статическим данным. Механизм структурированной потоковой передачи выполняет инкрементное вычисление и постоянно обновляет результат по мере поступления потоковых данных.

Для пошагового руководства см. Запуск первой структурированной потоковой рабочей нагрузки.

Чтение из потока данных

Используйте структурированную потоковую передачу для добавочного приема данных из поддерживаемых источников данных.

Функция Описание
Автозагрузчик Постепенно и эффективно обрабатывают новые файлы данных по мере их поступления в облачное хранилище.
Чтение и запись потоков таблиц Delta Используйте таблицы Delta Lake в качестве источников потоковой передачи и приемников с гарантией обработки точно один раз.
Стандартные соединители Подключитесь к шинам сообщений, очередям и корпоративным приложениям с помощью стандартных коннекторов.
Размер микро-батча Ограничение входных ставок для поддержания согласованных размеров пакетов и предотвращения задержек обработки.

Запись в хранилище данных

Настройка того, как структурированная потоковая передача предоставляет данные целевым системам.

Функция Описание
Контрольные точки Сохраняйте состояние обработки, чтобы обеспечить отказоустойчивость и семантику доставки с гарантией единичной доставки.
Режим вывода Выберите между режимами добавления, обновления и завершения для запросов потоковой передачи с сохранением состояния.
Интервалы триггера Задайте интервалы триггеров, чтобы сбалансировать задержку и затраты на требования к обработке.
Режим реального времени в структурированной потоковой передаче Обработка данных для рабочих нагрузок в режиме реального времени со сквозной задержкой до пяти миллисекунд.

Обработка с сохранением состояния и без сохранения состояния

Статические запросы обрабатывают строки без сохранения состояния. Запросы с отслеживанием состояния поддерживают промежуточное состояние для агрегаций, соединений и дедупликации.

Функция Описание
Запросы потоковой передачи без отслеживания состояния Оптимизируйте запросы, обрабатывающие данные без поддержания промежуточного состояния.
Водяные знаки Контролируйте время ожидания структурированной потоковой обработки данных для поздно поступающих данных в состоянии операций.
Состояния потоковой передачи Управление агрегациями, объединениями потоков и дедупликацией с помощью операторов с отслеживанием состояния.

Отслеживайте и управляйте

Отслеживание производительности запросов, применение оптимизации и управление доступом к данным для рабочих рабочих нагрузок структурированной потоковой передачи.

Функция Описание
Мониторинг с помощью StreamingQueryListener Отслеживайте ход выполнения запросов и метрики производительности с помощью API пользовательского интерфейса Spark и прослушивателя.
Управление каталогом Unity Настройте каталог Unity для потоковой передачи рабочих нагрузок с помощью управления и контроля доступа.