Сценарий этого примера демонстрирует конвейер данных, который объединяет большие объемы данных из нескольких источников в единую аналитическую платформу в Azure. Этот конкретный сценарий основан на решении по продажам и маркетингу, но конструктивные шаблоны актуальны для многих отраслей, требующих расширенной аналитики больших наборов данных, таких как электронная коммерция, розничная торговля и здравоохранение.
Архитектура
Скачайте файл Visio для этой архитектуры.
Поток данных
Поток данных проходит через решение следующим образом.
- Для каждого источника данных все обновления периодически экспортируются в промежуточную область в Azure Data Lake Storage.
- Фабрика данных Azure добавочно загружает данные из Azure Data Lake Storage в промежуточные таблицы в Azure Synapse Analytics. В ходе этого процесса данные очищаются и преобразовываются. PolyBase может сделать процесс параллельным для больших наборов данных.
- После загрузки нового пакета данных в хранилище создается ранее созданная табличная модель Служб Azure Analysis Services. Эта семантическая модель упрощает анализ бизнес-данных и связей.
- Бизнес-аналитики используют Microsoft Power BI для анализа данных в хранилище с помощью семантической модели Analysis Services.
Компоненты
У компании имеются источники данных на различных платформах:
- Локальный сервер SQL Server
- Локальный Oracle
- База данных SQL Azure
- Табличное хранилище Azure
- Azure Cosmos DB
Данные из этих разных источников данных загружаются с помощью нескольких компонентов Azure:
- Azure Data Lake Storage используется для подготовки исходных данных перед загрузкой в Azure Synapse.
- Фабрика данных преобразовывает промежуточные данные в общую структуру в Azure Synapse. Фабрика данных загружает данные в Azure Synapse с помощью PolyBase для повышения пропускной способности.
- Azure Synapse — это распределенная система для хранения и анализа больших наборов данных. Использование ею массовой параллельной обработки (MPP) делает ее пригодной для запуска высокопроизводительной аналитики. Azure Synapse может использовать PolyBase для быстрой загрузки данных из Azure Data Lake Storage.
- Analysis Services предоставляет семантическую модель данных. А также может увеличить производительность системы при анализе данных.
- Power BI — набор средств бизнес-аналитики для анализа данных и обмена информацией. Power BI может запрашивать семантическую модель, хранящуюся в Analysis Services, или напрямую запрашивать Azure Synapse.
- Идентификатор Microsoft Entra проверяет подлинность пользователей, которые подключаются к серверу служб Analysis Services через Power BI. Фабрика данных также может использовать идентификатор Microsoft Entra для проверки подлинности в Azure Synapse с помощью субъекта-службы или управляемого удостоверения для ресурсов Azure.
Альтернативные варианты
Этот пример конвейера включает несколько разных источников данных. Эта архитектура может обрабатывать самые разнообразные источники реляционных и нереляционных данных.
Фабрика данных управляет рабочими процессами конвейера данных. Если вы хотите загрузить данные только один раз или по запросу, можно использовать такие средства, как массовая копия SQL Server (bcp) и AzCopy для копирования данных в Azure Data Lake Storage. Затем данные можно загрузить напрямую в Azure Synapse с помощью PolyBase.
Если у вас очень большие наборы данных, рассмотрите возможность использования Data Lake Storage, который обеспечивает неограниченное хранение данных аналитики.
Azure Synapse не подходит для рабочих нагрузок OLTP или малых наборов данных (менее 250 ГБ). Для этих случаев следует использовать Базу данных SQL Azure или Microsoft SQL Server.
Сравните с другими альтернативами:
Подробности сценария
Этот пример демонстрирует компанию по продажам и маркетингу, которая создает программы стимулирования. Это программы для вознаграждения клиентов, поставщиков, продавцов и сотрудников. Основой для этих программ являются данные, и компания хочет улучшить аналитические сведения, полученные с помощью аналитики данных с использованием Azure.
Компании необходим современный подход к анализу данных, чтобы своевременно принимать решения, используя правильные данные. Компания поставила перед собой следующие цели.
- Объединить различные типы источников данных в платформу в масштабе облака.
- Преобразовать источник данных в общую классификацию и структуру, чтобы данные были согласованными и их можно было с легкостью сравнивать.
- Загружать данные, используя строгий параллельный подход, который может поддерживать тысячи программ стимулирования без высоких затрат на развертывание и обслуживание локальной инфраструктуры.
- Значительно уменьшить время, необходимое для сбора и преобразования данных, чтобы вы могли сосредоточиться на анализе данных.
Потенциальные варианты использования
Этот подход также может использоваться для:
- Создания хранилища данных, которое будет единственным источником правильных данных.
- Интеграции реляционных источников данных с другими неструктурированными наборами данных.
- Использования семантического моделирования и мощных средств визуализации для более простого анализа данных.
Рекомендации
Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.
Технологии этой архитектуры были выбраны, поскольку они отвечали требованиям компании к масштабируемости и доступности во время контролирования затрат.
- Архитектура вычислений с массовым параллелизмом Azure Synapse предоставляет такие возможности, как масштабируемость и высокую производительность.
- Azure Synapse гарантирует соглашения об уровне обслуживания и рекомендации по достижению высокого уровня доступности.
- Если анализ активности находится на низком уровне, компания может ситуативно масштабировать Azure Synapse, тем самым сократив или даже приостановив вычисления, чтобы уменьшить затраты.
- Azure Analysis Services могут быть масштабированы, чтобы уменьшить время отклика во время высоких рабочих нагрузок запросов. Операции обработки могут выполняться отдельно от пула запросов, чтобы эти операции не замедлялись из-за клиентских запросов.
- Azure Analysis Services также обладает Соглашением об уровне обслуживания и практическими рекомендациями для получения высокой производительности.
- Модель безопасности Azure Synapse обеспечивает безопасность подключения, проверку подлинности и авторизацию с помощью идентификатора Microsoft Entra или проверки подлинности SQL Server и шифрования. Службы Azure Analysis Services используют идентификатор Microsoft Entra для управления удостоверениями и проверки подлинности пользователей.
Оптимизация затрат
Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".
Просмотрите образец цен для сценария хранилища данных с помощью калькулятора цен Azure. Изменяйте значения до тех пор, пока не увидите, как ваши требования влияют на затраты.
- Azure Synapse позволяет независимо масштабировать уровни вычисления и хранилища. Стоимость за использование вычислительных ресурсов взимается каждый час. По требованию пользователя может быть выполнена приостановка использования данных ресурсов или их масштабируемость. В ресурсах хранилища стоимость взимается за используемые терабайты, что значит, что при получении большего количества данных стоимость увеличится.
- Цены Фабрики данных основаны на количестве операций чтения и записи, операций мониторинга и операций оркестрации, выполняемых в рабочей нагрузке. Затраты на фабрику данных будут увеличиваться с каждым дополнительным потоком данных и объемом данных, обрабатываемых каждым из них.
- Службы Analysis Services доступны на уровнях "Разработчик", "Базовый" и "Стандартный". Оценивание экземпляров происходит на основе используемых единиц обработки запроса (QPU) и доступной памяти. Чтобы снизить затраты, свести к минимуму количество запущенных запросов, необходимо знать, сколько данных они обрабатывают и как часто они запускаются.
- Существуют различные варианты решения Power BI. С их помощью оно может соответствовать различным требованиям. Power BI Embedded предоставляет опцию на основе Azure для внедрения функций Power BI в ваши приложения. Экземпляр Power BI Embedded включен в образец цены выше.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующим участником.
Автор субъекта:
- Алекс Бак | Старший разработчик содержимого
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
Просмотрите статью Автоматизированная корпоративная бизнес-аналитика с использованием Хранилища данных SQL и Фабрики данных Azure, которая включает инструкции по развертыванию экземпляра этой архитектуры в Azure.
Дополнительные сведения о службах, используемых в этом сценарии: