Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Сценарий этого примера демонстрирует конвейер данных, который объединяет большие объемы данных из нескольких источников в единую аналитическую платформу в Azure. Этот конкретный сценарий основан на решении по продажам и маркетингу, но конструктивные шаблоны актуальны для многих отраслей, требующих расширенной аналитики больших наборов данных, таких как электронная коммерция, розничная торговля и здравоохранение.
Архитектура
Скачайте файл Visio этой архитектуры.
Поток данных
Поток данных проходит через решение следующим образом.
- Для каждого источника данных все обновления периодически экспортируются в промежуточную область в Azure Data Lake Storage.
- Фабрика данных Azure добавочно загружает данные из Azure Data Lake Storage в промежуточные таблицы в Azure Synapse Analytics. В ходе этого процесса данные очищаются и преобразовываются. PolyBase может сделать процесс параллельным для больших наборов данных.
- После загрузки нового пакета данных в хранилище обновляется ранее созданная табличная модель в службах Azure Analysis Services. Эта семантическая модель упрощает анализ бизнес-данных и связей.
- Бизнес-аналитики используют Microsoft Power BI для анализа данных в хранилище с помощью семантической модели Analysis Services.
Компоненты
У компании имеются источники данных на различных платформах:
- Локальный сервер SQL Server
- Oracle на локальной инфраструктуре
- База данных SQL Azure
- Табличное хранилище Azure
- Azure Cosmos DB (облачная база данных)
Данные из этих разных источников данных загружаются с помощью нескольких компонентов Azure:
- Data Lake Storage — это масштабируемая служба хранения данных для структурированных и неструктурированных данных. В этой архитектуре предварительная обработка исходных данных осуществляется перед их загрузкой в Azure Synapse Analytics. Он служит начальной площадкой для необработанных данных.
- Фабрика данных Azure — это облачная служба интеграции данных. В этой архитектуре он управляет преобразованием промежуточных данных в общую структуру в Azure Synapse Analytics. Фабрика данных Azure использует PolyBase при загрузке данных в Azure Synapse Analytics для повышения пропускной способности.
- Azure Synapse Analytics — это распределенная система аналитики, которая объединяет большие данные и хранилище данных. В этой архитектуре. он хранит и анализирует большие наборы данных с помощью массовой параллельной обработки (MPP). Он служит основным аналитическим механизмом. Azure Synapse Analytics может использовать PolyBase для быстрой загрузки данных из Data Lake Storage.
- Analysis Services — это полностью управляемая платформа для создания семантических моделей данных. В этой архитектуре она предоставляет табличную семантику модели, которая упрощает анализ данных и повышает производительность запросов. Его можно настроить для обновления после каждой загрузки данных в Azure Synapse Analytics, чтобы обеспечить актуальную информацию.
- Power BI — это набор средств бизнес-аналитики для анализа данных и обмена аналитическими сведениями. В этой архитектуре Power BI позволяет бизнес-аналитикам изучать и визуализировать данные. Он подключается к службам Analysis Services для семантического запроса или непосредственно к Azure Synapse Analytics для доступа к необработанным данным.
- Microsoft Entra ID — это облачная служба управления удостоверениями и доступом. В этой архитектуре пользователи, подключающиеся к серверу Служб Analysis Services, проходят проверку подлинности через Power BI. Фабрика данных Azure также может использовать идентификатор Microsoft Entra для проверки подлинности в Azure Synapse Analytics с помощью субъекта-службы или управляемого удостоверения для ресурсов Azure.
Альтернативные варианты
Этот пример конвейера включает несколько разных источников данных. Эта архитектура может обрабатывать широкий спектр реляционных и нереляционных источников данных.
Фабрика данных управляет рабочими процессами конвейера данных. Если вы хотите загрузить данные только один раз или по запросу, можно использовать такие средства, как массовая копия SQL Server (bcp) и AzCopy для копирования данных в Azure Data Lake Storage. Затем данные можно загрузить напрямую в Azure Synapse с помощью PolyBase.
Если у вас есть крупномасштабные наборы данных, рассмотрите возможность использования Data Lake Storage, которая предоставляет неограниченное хранилище для аналитических данных.
Azure Synapse не подходит для рабочих нагрузок OLTP или наборов данных меньше 250 ГБ. Для этих случаев следует использовать Базу данных SQL Azure или Microsoft SQL Server.
Сравните с другими альтернативами:
Подробности сценария
Этот пример демонстрирует компанию по продажам и маркетингу, которая создает программы стимулирования. Это программы для вознаграждения клиентов, поставщиков, продавцов и сотрудников. Основой для этих программ являются данные, и компания хочет улучшить аналитические сведения, полученные с помощью аналитики данных с использованием Azure.
Компания нуждается в современном подходе к анализу данных, чтобы решения были приняты с помощью правильных данных в нужное время. Компания поставила перед собой следующие цели.
- Объединить различные типы источников данных в платформу в масштабе облака.
- Преобразовать источник данных в общую классификацию и структуру, чтобы данные были согласованными и их можно было с легкостью сравнивать.
- Загружать данные, используя строгий параллельный подход, который может поддерживать тысячи программ стимулирования без высоких затрат на развертывание и обслуживание локальной инфраструктуры.
- Значительно уменьшить время, необходимое для сбора и преобразования данных, чтобы вы могли сосредоточиться на анализе данных.
Потенциальные варианты использования
Этот подход также может использоваться для:
- Создайте хранилище данных, чтобы оно стало единственным источником достоверных данных.
- Интеграции реляционных источников данных с другими неструктурированными наборами данных.
- Использования семантического моделирования и мощных средств визуализации для более простого анализа данных.
Рекомендации
Эти рекомендации реализуют основные принципы Azure Well-Architected Framework, которые являются набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в Хорошо спроектированной архитектурной модели.
Технологии этой архитектуры были выбраны, поскольку они отвечали требованиям компании к масштабируемости и доступности во время контролирования затрат.
- Архитектура массовой параллельной обработки Azure Synapse обеспечивает масштабируемость и высокую производительность.
- Azure Synapse гарантирует соглашения об уровне обслуживания и рекомендации по достижению высокого уровня доступности.
- При низком уровне активности анализа компания может масштабировать Azure Synapse по запросу, уменьшая или даже уменьшая вычислительные ресурсы, чтобы снизить затраты.
- Службы Azure Analysis Services можно горизонтально масштабировать, чтобы сократить время отклика при высокой нагрузке запросов. Операции обработки могут выполняться отдельно от пула запросов, чтобы эти операции не замедлялись из-за клиентских запросов.
- Azure Analysis Services также гарантирует соглашения об уровне обслуживания и рекомендации по достижению высокого уровня доступности.
- Модель безопасности Azure Synapse обеспечивает безопасность подключения, проверку подлинности и авторизацию с помощью идентификатора Microsoft Entra или проверки подлинности SQL Server и шифрования. Службы Azure Analysis Services используют идентификатор Microsoft Entra для управления удостоверениями и проверки подлинности пользователей.
Оптимизация затрат
Оптимизация затрат фокусируется на способах сокращения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в контрольном списке проверки дизайна для оптимизации затрат.
Просмотрите пример ценообразования для сценария хранения данных с помощью калькулятора цен Azure. Изменяйте значения до тех пор, пока не увидите, как ваши требования влияют на затраты.
- Azure Synapse позволяет масштабировать уровни вычислений и хранилища независимо. Стоимость вычислительных ресурсов взимается каждый час, их масштабирование или приостановка могут быть выполнены по запросу. Биллинг за ресурсы хранения осуществляется за каждый терабайт, поэтому расходы будут увеличиваться по мере увеличения количества загружаемых данных.
- Затраты на фабрику данных основаны на количестве операций чтения и записи, операций мониторинга и действий оркестрации, выполняемых в рабочей нагрузке. Затраты на фабрику данных будут увеличиваться с каждым дополнительным потоком данных и объемом данных, обрабатываемых каждым из них.
- Службы Analysis Services доступны на уровнях "Разработчик", "Базовый" и "Стандартный". Оценивание экземпляров происходит на основе используемых единиц обработки запроса (QPU) и доступной памяти. Чтобы снизить затраты, свести к минимуму количество запущенных запросов, необходимо знать, сколько данных они обрабатывают и как часто они запускаются.
- Power BI имеет различные варианты продукта для различных требований. Power BI Embedded предоставляет возможность внедрения функций Power BI в приложения на основе Azure. Экземпляр Power BI Embedded включен в пример цены, приведён выше.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующим участником.
Основной автор:
- Алекс Бак | Старший разработчик содержимого
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
Просмотрите структуру архитектуры баз данных.
Дополнительные сведения о службах, используемых в этом сценарии: