Анализ данных Microsoft Graph в хранилище данных
В этой статье описывается распространенный шаблон интеграции Microsoft Graph для бизнес-сценария, который требует сложного анализа данных совместной работы предприятия для улучшения бизнес-процессов и повышения производительности.
Этот сценарий основан на большом объеме извлеченных данных Microsoft 365 и имеет следующие требования:
- Тип интеграции данных.
- Исходящий поток данных из границ Microsoft 365 в приложение.
- Большой объем данных, охватывающих несколько месяцев.
- Относительно высокая задержка данных; Исходный фрагмент данных может включать сообщения, сроком действия которых не более года.
Лучшим вариантом для этого сценария является использование Microsoft Graph Data Connect. Клиенту необходимо настроить хранилище данных высокой емкости, например Azure Data Lake или Azure Synapse, включить подписку Azure и настроить конвейер Фабрика данных Azure или Azure Synapse.
На следующей схеме показана архитектура для этого решения.
Компоненты решения
Архитектура решения включает в себя следующие компоненты:
- Microsoft Graph Data Connect, который позволяет извлекать данные Microsoft 365 в большом масштабе с подробным согласием на данные и поддерживает все возможности службы на основе Azure, такие как шифрование, гео-ограждение, аудит и принудительное применение политик.
- Фабрика данных Azure (ADF), что позволяет легко создавать ETL (извлечение, преобразование и загрузка) и ELT (извлечение, загрузка и преобразование) процессов без кода в интуитивно понятной среде или написание кода.
- Azure Data Lake, который позволяет сохранять большие объемы структурированных и неструктурированных данных в разных форматах.
- Microsoft Entra ID, которая необходима для управления проверкой подлинности для API Microsoft Graph и поддерживает делегированные разрешения и разрешения приложений для включения потока OAuth.
Рекомендации
Использование этого шаблона интеграции поддерживается следующими рекомендациями.
Доступность. Клиент ADF может извлекать данные в массовом порядке по расписанию или на нерегламентированной основе.
Задержка. Задержка данных в этом сценарии может отличаться в зависимости от извлечения исторических данных или доставки более поздних данных в хранилище Microsoft Graph Data Connect асинхронными процессами, выполняемыми в качестве запланированных задач. Производительность извлечения больших данных ADF быстрее, чем детализированные API HTTP, так как ADF использует пакетную обработку и передачу файлов.
Масштабируемость. Эта архитектура позволяет разрабатывать конвейеры, которые обеспечивают максимальную пропускную способность перемещения данных для вашей среды. Эти конвейеры могут в полной мере использовать следующие ресурсы:
- Пропускная способность сети между исходным и целевым хранилищами данных.
- Операции ввода-вывода исходного или целевого хранилища данных в секунду и пропускная способность.
Сложность решения. Это решение для исходящего трафика данных отличается низкой сложностью с точки зрения интеграции, так как оно не требует пользовательского кода, имеет несколько компонентов и терпимо к задержке данных.