Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье показано, как добавить источник отслеживания изменений данных (CDC) в службу Azure SQL Managed Instance в поток событий.
Соединитель источника CDC Azure SQL Managed Instance для потоков событий Microsoft Fabric позволяет записывать моментальный снимок текущих данных в базе данных SQL Managed Instance. Затем соединитель отслеживает и записывает любые будущие изменения на уровне строк в эти данные. После записи изменений в потоке событий вы можете обрабатывать эти данные CDC в режиме реального времени и отправлять их в разные места назначения в Fabric для дальнейшей обработки или анализа.
Замечание
С помощью DeltaFlow (предварительная версия) можно преобразовать необработанные события Debezium CDC в потоки, готовые к аналитике, которые отражают структуру исходной таблицы. DeltaFlow автоматизирует регистрацию схемы, управление таблицами назначения и обработку эволюции схемы. Чтобы использовать DeltaFlow, выберите события, готовые к аналитике, и автоматически обновленную схему на этапе обработки схемы.
Предпосылки
- Доступ к рабочей области в режиме лицензии на емкость Fabric или в режиме пробной лицензии с разрешениями уровня "Contributor" или выше.
- Запущенная база данных Azure SQL Managed Instance.
- Ваша Azure SQL Managed Instance должна быть с включенной общедоступной конечной точкой и не находиться за брандмауэром или защищенной в виртуальной сети. Если не включена общедоступная конечная точка и система находится в защищенной сети, подключитесь к ней, используя включение виртуальной сети через соединитель Eventstream.
- Чтобы включить CDC на вашем Azure SQL Managed Instance, выполните хранимую процедуру
sys.sp_cdc_enable_db. Дополнительные сведения см. в разделе "Включение и отключение записи измененных данных".
Включение общедоступной конечной точки в управляемом экземпляре Azure SQL
Перейдите на портал Azure, откройте управляемый экземпляр Azure SQL, выберите Networking и включите общедоступную конечную точку.
Включение CDC в управляемом экземпляре Azure SQL
Включите CDC для базы данных.
EXEC sys.sp_cdc_enable_db;Включите CDC для таблицы, используя параметр роли контроля доступа. В этом примере
MyTable— имя таблицы SQL.EXEC sys.sp_cdc_enable_table @source_schema = N'dbo', @source_name = N'MyTable', @role_name = NULL GOПосле успешного выполнения запроса вы включили CDC в вашем управляемом экземпляре Azure SQL.
Добавить Azure SQL Managed Instance CDC как источник
Если вы еще не добавили источник в поток событий, выберите плитку "Подключить источники данных ". Вы также можете выбрать Добавить источник>Подключить источники данных на ленте.
Если вы добавляете источник в уже опубликованный поток событий, переключитесь в режим редактирования . На ленте выберите Добавить источник>Подключить источники данных.
На странице Выбрать источник данных найдите и выберите Подключить на плитке Изменение захвата данных (CDC) в базе данных Azure SQL MI (DB).
Настройка и подключение к Azure SQL Managed Instance CDC
Прием данных об изменениях из баз данных Azure SQL Managed Instance с автоматической регистрацией схем таблиц через CDC в Eventstream.
Замечание
DeltaFlow (предварительная версия): при выборе событий, готовых к аналитике, и автоматического обновления схемы на этапе обработки схемы, DeltaFlow преобразует необработанные события Debezium CDC в потоки, готовые к аналитике, которые отражают структуру исходной таблицы. DeltaFlow также автоматизирует создание целевой таблицы и обработку эволюции схемы.
На странице "Подключение" выберите "Создать подключение".
В разделе Connection settings введите следующие значения для Azure SQL Managed Instance:
Server: Введите конечную точку из портала Azure, заменив запятую между сервером и портом на двоеточие. Например, если ваша конечная точка —
xxxxx.public.xxxxxx.database.windows.net,3342, в полеxxxxx.public.xxxxxx.database.windows.net:3342введите .Database: Введите имя базы данных, к которой вы хотите подключиться в Azure SQL Managed Instance.
Прокрутите вниз и в разделе учетных данных подключения выполните следующие действия.
В поле "Имя подключения" введите имя подключения.
Для типа проверки подлинности выберите "Базовый".
Замечание
В настоящее время Fabric Eventstream поддерживает проверку подлинности только Basic.
Введите Username и Password для Azure SQL Managed Instance.
Выберите "Подключиться" в нижней части страницы.
Теперь на странице "Подключение" выберите "Все таблицы" или "Введите имена таблиц". Если выберете последний вариант, укажите таблицы, используя список полных идентификаторов таблиц, разделённых запятыми (
schemaName.tableName), или допустимые регулярные выражения. Рассмотрим пример.- Используйте
dbo.test.*, чтобы выбрать все таблицы, имена которых начинаются сdbo.test. - Используйте
dbo\.(test1|test2)для выбораdbo.test1иdbo.test2.
В списке можно объединить оба формата. Общее ограничение символов для всей записи составляет 102 400 символов.
- Используйте
Разверните дополнительные параметры , чтобы настроить режим обработки десятичных знаков, который указывает, как соединитель обрабатывает
DECIMALиNUMERICзначения столбцов:-
Precise: представляет значения с использованием точных десятичных типов (например, JavaBigDecimal), чтобы обеспечить полную точность и точность представления данных. -
Double: преобразует значения в числа с плавающей запятой двойной точности. Этот параметр повышает удобство использования и производительность, но может привести к потере точности. -
String: кодирует значения в виде форматированных строк. Этот параметр упрощает их использование в подчиненных системах, но теряет семантические сведения о исходном числовом типе.
-
Сведения о потоке или источнике
На странице "Подключение" выполните одно из этих действий на основе того, используете ли вы поток событий или концентратор Real-Time.
Eventstream:
В области сведений о источнике справа выполните следующие действия:
Чтобы изменить имя источника, нажмите кнопку Карандаш.
Обратите внимание, что имя потока событий и имя Stream доступны только для чтения.
центрReal-Time:
В разделе сведений о потоке справа выполните следующие действия.
Выберите рабочую область Fabric где нужно создать поток событий.
Для имени eventstream нажмите кнопку «Карандаш» и введите название для eventstream.
Значение имени потока автоматически создается шляхом добавления -stream к имени eventstream. Этот поток отображается на странице "Все потоки данных " концентратора в режиме реального времени, когда мастер завершит работу.
Нажмите кнопку "Далее" в нижней части страницы "Настройка ".
Проверка и подключение
На экране "Обзор и подключение" просмотрите сводку и выберите "Добавить (Eventstream) или "Connect (Real-Time hub).
Страница обработки схемы
На шаге обработки схемы выберите один из следующих вариантов:
- События, готовые к аналитике и автоматически обновляемая схема (предварительная версия DeltaFlow): соединитель преобразует необработанные события CDC в потоки, готовые к аналитике, которые отражают структуру исходной таблицы. DeltaFlow дополняет события метаданными, такими как тип изменения (вставка, обновление или удаление) и метки времени, а также автоматически управляет целевыми таблицами и эволюцией схемы.
- Необработанные события CDC: Соединитель принимает и делает доступными необработанные события CDC. При необходимости соединитель может автоматически обнаружить схемы таблиц и зарегистрировать их в реестре схем. Используйте этот параметр, если требуется осведомленность о схеме без преобразования DeltaFlow.
Замечание
На следующем снимке экрана показана Azure SQL Database CDC. Параметры обработки схем одинаковы для всех поддерживаемых соединителей источника CDC.
Включите ассоциацию схемы событий.
Для Workspace выберите рабочую область Fabric для набора схем.
Для набора схем по умолчанию выбран параметр +Create , который создает новый набор схем. Его можно изменить, чтобы выбрать существующий набор схем событий.
Если вы выбрали параметр +Создать на предыдущем шаге, введите имя набора схем.
На странице «Проверка + подключение» просмотрите сводку, а затем выберите «Добавить» (Eventstream) или «Подключить» (Real-Time hub).
Для всех таблиц или выбранных таблиц в базе данных Azure SQL Managed Instance соединитель автообнаружает и создает схемы и регистрирует их в реестре схем.
DeltaFlow: готовое для аналитики преобразование событий (предварительная версия)
При включении событий, готовых для аналитики, и автообновляемой схемы (DeltaFlow) коннектор предоставляет следующие возможности:
-
Фигура события, готовая к аналитике: Сырые события Debezium CDC преобразуются в табличный формат, который отражает структуру исходной таблицы. События обогащены столбцами метаданных, включая тип изменения (
insertилиupdatedelete) и метку времени события. - Автоматическое управление таблицами назначения: при маршрутизации потоков с поддержкой DeltaFlow в поддерживаемое назначение, например в хранилище событий, целевые таблицы автоматически создаются для сопоставления схемы исходной таблицы. Вам не нужно вручную создавать или настраивать целевые таблицы.
- Обработка эволюции схемы. При изменении исходных таблиц баз данных (например, добавляются новые столбцы или создаются таблицы), DeltaFlow автоматически обнаруживает изменения, обновляет зарегистрированные схемы и корректирует целевые таблицы соответствующим образом. Этот параметр сводит к минимуму вмешательство вручную, вызванное изменениями схемы.
Замечание
DeltaFlow (предварительная версия) в настоящее время поддерживается с Azure SQL Database CDC, Azure SQL Managed Instance CDC, SQL Server на соединителях источника CDC виртуальной машины и PostgreSQL CDC.
Дополнительные сведения о том, как DeltaFlow преобразует необработанные события CDC в готовые к аналитике выходные данные, включая типы операций и столбцы метаданных, см. в разделе "Преобразование выходных данных DeltaFlow".
Просмотр обновленного потока событий
Вы можете увидеть, что источник Azure SQL MI DB (CDC) добавлен в ваш поток событий в режиме Редактирования.
Чтобы реализовать этот недавно добавленный источник Azure SQL Managed Instance, выберите Publish. После выполнения этих действий источник Azure SQL Managed Instance доступен для визуализации в представлении Live.
Снимок экрана добавленного источника AZURE SQL MI DB CDC в режиме Live View с расширенными функциями.
Настройте направления Eventstream для использования схем
В настоящее время для потоков событий со связанными схемами поддерживаются только Eventhouse, настраиваемая конечная точка и назначения производных потоков. В этом разделе показано, как добавить и настроить назначение Eventhouse, если для потока событий включены расширенные функции (например, поддержка схемы).
Замечание
При использовании DeltaFlow (предварительная версия) с поддерживаемым источником отслеживания измененных данных (CDC) целевые таблицы в хранилище событий автоматически создаются и управляются для сопоставления структуры исходной таблицы. Вам не нужно вручную настраивать схему целевой таблицы. DeltaFlow также обрабатывает эволюцию схемы автоматически при изменении исходных таблиц.
Настройте схему для назначения пользовательской конечной точки.
Выберите "Преобразовать события" или "Добавить назначение", а затем выберите CustomEndpoint.
На панели настраиваемых конечных точек укажите имя назначения.
Для схемы входных данных выберите схему для событий. При включении поддержки схемы для потока событий вы можете выбрать этот флажок.
Подробные инструкции по настройке назначения настраиваемой конечной точки см. в разделе "Добавление настраиваемой конечной точки" или назначения пользовательского приложения в поток событий.
Настройте схемы для места назначения eventhouse
Выберите "Преобразовать события" или "Добавить назначение", а затем выберите Eventhouse.
На панели eventhouse настройте следующие параметры, связанные со схемой:
Для входной схемы выберите одну или несколько схем из раскрывающегося списка.
Замечание
Если вы выбрали опцию динамическая схема через заголовки при настройке источника Центров событий, возможно, вы сконфигурировали несколько схем для источника и сопоставили их с различными свойствами и значениями.
Для метода создания таблицы выберите одну таблицу со всеми схемами, объединенными или отдельными таблицамидля каждой схемы в зависимости от ваших требований.
Для записи данных с помощью выберите один из следующих вариантов:
- Только полезная нагрузка: запишите извлеченные полезные данные в таблицу. Если существует несколько входных схем, данные отправляются в несколько таблиц.
-
Метаданные и полезные данные: запись метаданных и полезных данных в одну таблицу. Примеры столбцов:
source, ,subjecttypeиdata.
Подробные инструкции по настройке назначения eventhouse см. в разделе "Добавление хранилища событий в поток событий" .
Просмотр данных DeltaFlow, подготовленных для аналитики (предварительная версия)
Если вы включили анализ-подготовленные события и автоматически обновляемую схему (DeltaFlow), целевые таблицы автоматически создаются в структуре, которая отражает таблицы вашей исходной базы данных. Каждая таблица содержит исходные столбцы, а также столбцы метаданных для типа изменения и метки времени.
Замечание
На следующем снимке экрана показана Azure SQL Database CDC. Выходные данные целевой таблицы DeltaFlow одинаковы для всех поддерживаемых соединителей источника CDC.
Эти таблицы можно запрашивать с помощью языка запросов Kusto (KQL) или других средств аналитики без необходимости анализировать необработанные полезные данные Debezium CDC.
Связанный контент
Другие соединители:
- Потоки данных Amazon Kinesis
- Azure Cosmos DB
- Центры событий Azure
- Центр Интернета вещей Azure
- Фиксирование изменений данных в базе данных Azure SQL (CDC)
- Confluent Kafka
- Пользовательская конечная точка
- Google Cloud Pub/Sub
- База данных PostgreSQL CDC
- Пример данных
- события Azure Blob Storage
- Fabric событие рабочей области