Комплексная аналитика с помощью Azure Synapse
Решение, описанное в этой статье, сочетает в себе ряд служб Azure, которые будут принимать, хранить, обрабатывать, обогащать и обслуживать данные и аналитические сведения из различных источников (структурированные, частично структурированные, неструктурированные и потоковые).
Скачайте файл Visio этой архитектуры.
Примечание
- Службы, охватываемые этой архитектурой, являются лишь подмножеством большого семейства служб Azure. Аналогичные результаты могут быть получены с использованием других служб или функций, не охватываемых этим проектом.
- Конкретные бизнес-требования для вашего варианта использования аналитики могут включать использование различных служб или функций, которые не рассматриваются в этом проекте.
Варианты использования аналитики, охватываемые архитектурой, иллюстрируются различными источниками данных в левой части диаграммы. Поток данных проходит через решение снизу вверх следующим образом:
Примечание
В следующих разделах Azure Data Lake используется в качестве дома для данных на различных этапах жизненного цикла данных. Azure Data Lake организовано различными уровнями и контейнерами следующим образом:
- Необработанный слой — это целевая область для данных, поступающих из исходных систем. Как подразумевает имя, данные в этом слое являются необработанными, нефильтрованными и необработанными.
- На следующем этапе жизненного цикла данные перемещаются на обогащенный слой, где данные очищаются, фильтруются и, возможно, преобразуются.
- Затем данные перемещаются на курированный слой, где хранятся данные, готовые к потребителю.
Ознакомьтесь с документацией по зонам озера данных и контейнерам для полной проверки уровней и контейнеров Azure Data Lake и их использования.
Azure Synapse Link для Azure Cosmos DB и Azure Synapse Link для Dataverse позволяют выполнять аналитику практически в режиме реального времени с помощью операционных и бизнес-приложений с помощью обработчиков аналитики, доступных в рабочей области Azure Synapse: SQL Serverless и Пулы Spark.
При использовании Azure Synapse Link для Azure Cosmos DB используйте бессерверный запрос или записную книжку пула Spark. Вы можете получить доступ к аналитическому хранилищу Azure Cosmos DB, а затем объединить наборы данных из практически в реальном времени с данными из озера данных или из хранилища данных.
При использовании Azure Synapse Link для Dataverse используйте бессерверный запрос SQL Server или записную книжку пула Spark. Вы можете получить доступ к выбранным таблицам Dataverse, а затем объединить данные бизнес-приложений практически в режиме реального времени с данными из озера данных или хранилища данных.
- Результирующие наборы данных из бессерверных запросов SQL Server можно сохранить в озере данных. Если вы используете записные книжки Spark, результирующий набор данных можно сохранить в озере данных или хранилище данных (пул SQL).
Загрузите соответствующие данные из пула SQL Azure Synapse или озера данных в наборы данных Power BI для визуализации и изучения данных. Модели Power BI реализуют семантику модели для упрощения анализа бизнес-данных и связей. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.
Данные также можно безопасно предоставлять другим бизнес-подразделениям или внешним доверенным партнерам с помощью Azure Data Share. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.
Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и использования ИИ для обнаружения ценных бизнес-аналитических сведений в разных типах документов и форматах, включая документы Office, PDF-файлы, изображения, аудио, формы и веб-страницы.
- Используйте конвейеры Azure Synapse для извлечения данных из различных баз данных, как локальных, так и в облаке. Конвейеры могут активироваться на основе предварительно определенного расписания, в ответ на событие или вызываться явным образом с помощью REST API.
В уровне озера необработанных данных упорядочение озера данных следует рекомендациям по созданию слоев, структурам папок, используемым в каждом слое и формату файлов, используемым для каждого сценария аналитики.
Из конвейера Azure Synapse используйте действие копирования данных для этапов данных, скопированных из реляционных баз данных в необработанный слой озера данных Azure Data Lake Store 2-го поколения . Данные можно сохранить в текстовом формате с разделителями или в сжатом виде как файлы Parquet.
Используйте потоки данных, бессерверные запросы SQL или записные книжки Spark для проверки, преобразования и перемещения наборов данных из необработанного слоя через обогащенный слой и в слой Curated в озере данных.
- В рамках преобразований данных можно вызывать модели машинного обучения из пулов SQL с помощью стандартных записных книжек T-SQL или Spark. Эти модели машинного обучения можно использовать для обогащения наборов данных и формирования дополнительной бизнес-аналитики. Эти модели машинного обучения можно использовать из служб ИИ Azure или пользовательских моделей машинного обучения из Azure ML.
Конечный набор данных можно обслуживать непосредственно из слоя curated озера данных или использовать действие копирования данных для приема окончательного набора данных в таблицы пула SQL с помощью команды COPY для быстрого приема данных.
Загрузите соответствующие данные из пула SQL Azure Synapse или озера данных в наборы данных Power BI для визуализации данных. Модели Power BI реализуют семантику модели для упрощения анализа бизнес-данных и связей. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.
Данные также можно безопасно предоставлять другим бизнес-подразделениям или внешним доверенным партнерам с помощью Azure Data Share. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.
Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и использования ИИ для обнаружения ценных бизнес-аналитических сведений в разных типах документов и форматах, включая документы Office, PDF-файлы, изображения, аудио, формы и веб-страницы.
Используйте конвейеры Azure Synapse для извлечения данных из различных полуструктурированных источников данных, как локальных, так и в облаке. Например:
- Получите данные из файловых источников, содержащих файлы CSV или JSON.
- Подключитесь к базам данных No-SQL, таким как Azure Cosmos DB или MongoDB.
- Вызывайте REST API, предоставляемые приложениями SaaS, которые будут выступать в качестве источника данных для конвейера.
В уровне озера необработанных данных упорядочение озера данных следует рекомендациям по созданию слоев, структурам папок, используемым в каждом слое и формату файлов, используемым для каждого сценария аналитики.
Из конвейера Azure Synapse используйте действие копирования данных для этапов данных, скопированных из полуструктурированных источников данных, в необработанный слой озера данных Azure Data Lake Store 2-го поколения . Сохраните данные, полученные из источников данных, в исходном формате.
Для конвейеров пакетной или микро пакетной службы используйте потоки данных, бессерверные запросы SQL или записные книжки Spark для проверки, преобразования и перемещения наборов данных в управляемый слой в озере данных. Запросы SQL Server без сервера предоставляют базовые CSV-файлы, Parquet или JSON в виде внешних таблиц, чтобы их можно было запрашивать с помощью T-SQL.
- В рамках преобразований данных можно вызывать модели машинного обучения из пулов SQL с помощью стандартных записных книжек T-SQL или Spark. Эти модели машинного обучения можно использовать для обогащения наборов данных и формирования дополнительной бизнес-аналитики. Эти модели машинного обучения можно использовать из служб ИИ Azure или пользовательских моделей машинного обучения из Azure ML.
Для сценариев телеметрии и аналитики временных рядов практически в режиме реального времени используйте пулы Обозревателя данных для легкого приема, консолидации и сопоставления журналов и данных событий Интернета вещей в нескольких источниках данных. С помощью пулов Обозревателя данных можно использовать запросы Kusto (KQL) для выполнения анализа временных рядов, геопространственного кластеризации и обогащения машинного обучения.
Конечный набор данных можно обслуживать непосредственно из слоя curated озера данных или использовать действие копирования данных для приема окончательного набора данных в таблицы пула SQL с помощью команды COPY для быстрого приема данных.
Загрузите соответствующие данные из пулов SQL Azure Synapse, пулов Data Explorer или озера данных в наборы данных Power BI для визуализации данных. Модели Power BI реализуют семантику модели для упрощения анализа бизнес-данных и связей. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.
Данные также можно безопасно предоставлять другим бизнес-подразделениям или внешним доверенным партнерам с помощью Azure Data Share. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.
Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и использования ИИ для обнаружения ценных бизнес-аналитических сведений в разных типах документов и форматах, включая документы Office, PDF-файлы, изображения, аудио, формы и веб-страницы.
Используйте конвейеры Azure Synapse для извлечения данных из различных неструктурированных источников данных, как локальных, так и в облаке. Например:
- Получите видео, изображение, звук или произвольный текст из файловых источников, содержащих исходные файлы.
- Вызывайте REST API, предоставляемые приложениями SaaS, которые будут выступать в качестве источника данных для конвейера.
В слое необработанных озера данных упорядочение озера данных , следуя рекомендациям по созданию слоев, каким структурам папок следует использовать в каждом слое, а также о том, какие файлы следует использовать для каждого сценария аналитики.
Из конвейера Azure Synapse используйте действие копирования данных для этапов данных, скопированных из неструктурированных источников данных, в необработанный слой озера данных Azure Data Lake Store 2-го поколения . Сохраните данные, полученные из источников данных, в исходном формате.
Используйте записные книжки Spark для проверки, преобразования, обогащения и перемещения наборов данных из необработанного слоя через обогащенный слой и в курированный слой в озере данных.
- В рамках преобразований данных можно вызывать модели машинного обучения из пулов SQL с помощью стандартных записных книжек T-SQL или Spark. Эти модели машинного обучения можно использовать для обогащения наборов данных и формирования дополнительной бизнес-аналитики. Эти модели машинного обучения можно использовать из служб ИИ Azure или пользовательских моделей машинного обучения из Azure ML.
Конечный набор данных можно обслуживать непосредственно из слоя curated озера данных или использовать действие копирования данных для приема окончательного набора данных в таблицы хранилища данных с помощью команды COPY для быстрого приема данных.
Загрузите соответствующие данные из пула SQL Azure Synapse или озера данных в наборы данных Power BI для визуализации данных. Модели Power BI реализуют семантику модели для упрощения анализа бизнес-данных и связей.
Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.
Данные также можно безопасно предоставлять другим бизнес-подразделениям или внешним доверенным партнерам с помощью Azure Data Share. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.
Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и использования ИИ для обнаружения ценных бизнес-аналитических сведений в разных типах документов и форматах, включая документы Office, PDF-файлы, изображения, аудио, формы и веб-страницы.
- Используйте Центры событий Azure или Центры Интернета вещей Azure для приема потоков данных, созданных клиентскими приложениями или устройствами Интернета вещей. Затем Центры событий или Центр Интернета вещей будут принимать и сохранять данные потоковой передачи без изменения последовательности полученных событий. После этого потребители смогут подключиться к Центрам событий или конечным точкам Центра Интернета вещей и получить сообщения для последующей обработки.
В уровне озера необработанных данных упорядочение озера данных следует рекомендациям по созданию слоев, структурам папок, используемым в каждом слое и формату файлов, используемым для каждого сценария аналитики.
Настройте конечные точки хранилища Центров событий или Центра Интернета вещей , чтобы сохранить копию событий в необработанном слое озера данных Azure Data Lake Store 2-го поколения . Эта функция реализует "холодный путь" шаблона лямбда-архитектуры и позволяет выполнять анализ исторических и тенденций для потоковых данных, сохраненных в озере данных, с помощью запросов SQL Serverless или записных книжек Spark после шаблона для частично структурированных источников данных, описанных выше.
Для аналитики в режиме реального времени используйте задание Stream Analytics , чтобы реализовать "горячий путь" шаблона архитектуры Лямбда и получить аналитические сведения от передаваемых данных потока. Определите по крайней мере один вход для потока данных, поступающих из Центров событий или Центра Интернета вещей, один запрос для обработки входного потока данных и один выход Power BI, в который будут отправлены результаты запроса.
- В ходе обработки данных с помощью Stream Analytics можно вызывать модели машинного обучения, чтобы обогатить наборы данных в рамках потока данных и принимать бизнес-решения на основе созданных прогнозов. Эти модели машинного обучения можно использовать из служб ИИ Azure или из пользовательских моделей машинного обучения в Машинном обучении Azure.
Используйте другие выходные данные задания Stream Analytics для отправки обработанных событий в пулы SQL Azure Synapse или пулы Data Explorer для дальнейшего анализа вариантов использования.
Для сценариев телеметрии и аналитики временных рядов практически в режиме реального времени используйте пулы Обозревателя данных для легкого приема событий Интернета вещей непосредственно из Центров событий или Центров Интернета вещей. С помощью пулов Обозревателя данных можно использовать запросы Kusto (KQL) для выполнения анализа временных рядов, геопространственного кластеризации и обогащения машинного обучения.
Затем бизнес-аналитики используют наборы данных Power BI в режиме реального времени и возможности панели мониторинга для визуализации быстро меняющихся аналитических сведений, созданных запросом Stream Analytics.
Данные также можно безопасно предоставлять другим бизнес-подразделениям или внешним доверенным партнерам с помощью Azure Data Share. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.
Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и использования ИИ для выявления ценных бизнес-аналитических сведений в разных типах документов и форматах, включая документы Office, PDF-файлы, изображения, аудио, формы и веб-страницы.
В архитектуре были использованы следующие службы Azure:
- Azure Synapse Analytics
- Azure Data Lake 2-го поколения
- Azure Cosmos DB
- Службы ИИ Azure
- Машинное обучение Azure
- Центры событий Azure
- Центр Интернета вещей Azure
- Azure Stream Analytics
- Microsoft Purview
- Общий ресурс данных Azure
- Microsoft Power BI
- Идентификатор Microsoft Entra
- Управление затратами Майкрософт
- Azure Key Vault
- Azure Monitor
- Microsoft Defender для облака
- Azure DevOps
- Политика Azure
- GitHub
В приведенной выше архитектуре конвейеры Azure Synapse отвечают за оркестрацию конвейеров данных. Конвейеры Фабрики данных Azure также предоставляют те же возможности, что и в этой статье.
Azure Databricks также можно использовать в качестве подсистемы вычислений, используемой для обработки структурированных и неструктурированных данных непосредственно в озере данных.
В приведенной выше архитектуре служба Azure Stream Analytics отвечает за обработку данных потоковой передачи. Пулы Spark Azure Synapse и Azure Databricks могут использоваться для решения той же задачи с помощью записных книжек.
Кластеры Azure HDInsight Kafka также можно использовать для приема потоковых данных и обеспечения правильного уровня производительности и масштабируемости, необходимых для больших рабочих нагрузок потоковой передачи.
Вы также можете использовать функции Azure для вызова служб ИИ Azure или пользовательских моделей машинного обучения Azure из конвейера Azure Synapse.
Технологии, используемые в этой архитектуре, были выбраны потому, что каждая из них предоставляет необходимые функции для решения наиболее распространенных задач по обработке данных в организации. Эти службы соответствуют требованиям к масштабируемости и доступности, что помогает контролировать затраты. Службы, охватываемые этой архитектурой, являются лишь подмножеством большого семейства служб Azure. Аналогичные результаты могут быть получены с использованием других служб или функций, не охватываемых этим проектом.
Конкретные бизнес-требования для вашего варианта использования аналитики также могут включать использование различных служб или функций, которые не рассматриваются в этом проекте.
Сравните с другими альтернативами:
В этом примере сценария показано, как использовать Azure Synapse Analytics с обширным семейством служб данных Azure для создания современной платформы данных, которая может использоваться для решения самых распространенных задач, связанных с обработкой данных в организации.
Этот подход также может использоваться для:
- Создайте архитектуру продукта данных , которая состоит из хранилища данных для структурированных данных и озера данных для полуструктурированных и неструктурированных данных. Вы можете развернуть один продукт данных для централизованных сред или несколько продуктов данных для распределенных сред, таких как Сетка данных. Дополнительные сведения об управлении данными и целевых зонах данных.
- Интегрируйте реляционные источники данных с другими неструктурированными наборами данных, используя технологии обработки больших данных.
- Использования семантического моделирования и мощных средств визуализации для более простого анализа данных.
- Совместно используйте наборы данных в организации или с доверенными внешними партнерами.
- Реализуйте решения интеллектуального анализа знаний, чтобы извлечь ценные бизнес-сведения из изображений, файлов PDF, документов и т. д.
Управление данными в крупных корпоративных средах часто является сложной задачей. С одной стороны, бизнес-аналитики должны иметь возможность обнаруживать и анализировать ресурсы данных, которые могут помочь им в решении бизнес-задач. С другой стороны, старшие специалисты по данным хотят иметь представление о конфиденциальности и безопасности бизнес-данных.
Используйте Microsoft Purview для обнаружения данных и аналитических сведений о ресурсах данных, классификации данных и конфиденциальности, которая охватывает весь ландшафт данных организации.
Microsoft Purview поможет вам поддерживать бизнес-глоссарий с определенной бизнес-терминологией, необходимой для пользователей, чтобы понять семантику того, какие наборы данных означают и как они предназначены для использования в организации.
Вы можете зарегистрировать все источники данных и упорядочить их в коллекции, которая также служит границей безопасности для метаданных.
Настройте регулярные проверки для автоматического каталога и обновления соответствующих метаданных о ресурсах данных в организации. Microsoft Purview также может автоматически добавлять сведения о происхождении данных на основе данных из фабрики данных Azure или конвейеров Azure Synapse.
Классификация данных и метки конфиденциальности данных можно добавлять автоматически в ресурсы данных на основе предварительно настроенных или таможенных правил, применяемых во время регулярных проверок.
Специалисты по управлению данными могут использовать отчеты и аналитические сведения , созданные Microsoft Purview, для контроля над всей ландшафтом данных и защиты организации от любых проблем с безопасностью и конфиденциальностью.
Чтобы улучшить качество решений Azure, следуйте рекомендациям и рекомендациям, определенным в Azure Well-Architected Framework пять основных принципов архитектуры: оптимизация затрат, эффективность работы, надежность и безопасность.
Следуя этим рекомендациям, в составе проекта необходимо использовать следующие службы:
- Идентификатор Microsoft Entra: службы удостоверений, единый вход и многофакторная проверка подлинности в рабочих нагрузках Azure.
- Управление затратами Майкрософт: финансовое управление рабочими нагрузками Azure.
- Azure Key Vault: безопасное управление учетными данными и сертификатами. Например, Azure Synapse Pipelines, Пулы Azure SynapseSpark и Azure ML могут получать учетные данные и сертификаты из Azure Key Vault, используемых для безопасного доступа к хранилищам данных.
- Azure Monitor: сбор, анализ и действия с данными телеметрии ресурсов Azure для упреждающего выявления проблем и повышения производительности и надежности.
- Microsoft Defender для Облака: укрепление и мониторинг состояния безопасности рабочих нагрузок Azure.
- Azure DevOps и GitHub: реализуйте методики DevOps для обеспечения автоматизации и соответствия конвейерам разработки и развертывания рабочей нагрузки для Azure Synapse и Машинного обучения Azure.
- Политика Azure: реализуйте организационные стандарты и управление для обеспечения согласованности ресурсов, соответствия нормативным требованиям, безопасности, затрат и управления.
Эти рекомендации реализуют основные принципы Azure Well-Architected Framework, которые являются набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. вWell-Architected Framework.
Оптимизация затрат фокусируется на способах сокращения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в контрольном списке проверки конструктора для оптимизации затрат.
Как правило, используйте калькулятор цен Azure для оценки затрат. Идеальная ценовая категория и общие затраты для каждой службы, включенной в архитектуру, зависят от объема обрабатываемых и сохраняемых данных, а также от ожидаемого уровня производительности. Для получения дополнительных сведений о расценках для каждой службы используйте приведенную ниже информацию:
Бессерверная архитектура Azure Synapse Analytics позволяет масштабировать уровни вычислений и хранилища независимо. Стоимость вычислительных ресурсов определяется на основе использования. По требованию пользователя эти ресурсы могут быть приостановлены или масштабированы. В ресурсах хранилища стоимость взимается за используемые терабайты, что значит, что при получении большего количества данных стоимость увеличится.
Плата за Azure Data Lake 2-го поколения взимается на основе объема данных, хранящихся и на основе количества транзакций для чтения и записи данных.
Плата за Центры событий Azure и Центры Интернета вещей Azure взимается на основе объема вычислительных ресурсов, необходимых для обработки потоков сообщений.
Плата за машинное обучение Azure взимается из объема вычислительных ресурсов, используемых для обучения и развертывания моделей машинного обучения.
Службы искусственного интеллекта взимается в зависимости от количества вызовов, которые вы выполняете в API-интерфейсы службы.
Microsoft Purview имеет цену на количество ресурсов данных в каталоге и объем вычислительных ресурсов, необходимых для их сканирования.
Плата за Azure Stream Analytics взимается на основе объема вычислительной мощности, необходимой для обработки потоковых запросов.
Power BI имеет различные варианты продукта для различных требований. Power BI Embedded предоставляет возможность внедрения функций Power BI в приложения на основе Azure. Экземпляр Power BI Embedded включен в образец цены выше.
Стоимость Azure Cosmos DB зависит от объема хранилища и вычислительных ресурсов, необходимых базам данных.
Подобную архитектуру также можно реализовать в подготовительных средах, в которых можно разрабатывать и тестировать рабочие нагрузки. Чтобы получить экономичную подготовительную среду, учитывайте конкретные требования к рабочим нагрузкам и возможности каждой службы.
В этой статье есть репозиторий компаньонов, доступный в GitHub, который показывает, как автоматизировать развертывание служб, описанных в этой архитектуре. Следуйте комплексному руководству по развертыванию Azure Synapse в Azure Analyticse , чтобы развернуть эту архитектуру в подписке. В этом руководстве по развертыванию приведены подробные инструкции и несколько вариантов развертывания.
Эта статья обновляется и поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Автор субъекта:
- Фабио Брага | Главный технический архитектор MTC
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Ознакомьтесь с рекомендациями, определенными в сценарии управления данными и аналитики Azure для масштабируемой аналитической среды в Azure.
Изучите схемы обучения инженера данных в Microsoft learn для дальнейшего обучения содержимого и лабораторий в службах, участвующих в этой эталонной архитектуре.
Просмотрите документацию и разверните эталонную архитектуру, используя рекомендации по развертыванию, доступные на сайте GitHub.