Современный оценщик потока данных 2-го поколения с CI/CD

Модуль современной оценки запросов (также известный как "Современный вычислитель") предоставляет новый механизм выполнения запросов, работающий в .NET Core версии 8, что может значительно повысить производительность потоков данных в некоторых сценариях.

Потоки данных, работающие под управлением современной системы оценки, могут воспользоваться некоторыми из следующих ключевых преимуществ:

  • Быстрое выполнение потока данных: современный модуль может значительно сократить время оценки запросов. Многие потоки данных выполняются заметно быстрее, что позволяет обновлять данные чаще или соответствовать жестким окнам обновления.

  • Более эффективная обработка: подсистема оптимизирована для повышения эффективности, используя улучшенные алгоритмы и современную среду выполнения. Это означает, что это может обрабатывать сложные преобразования с меньшими затратами, что помогает поддерживать производительность по мере роста объема данных.

  • Масштабируемость и надежность. Ускоряя выполнение и уменьшая узкие места, современный средство оценки позволяет масштабировать потоки данных до больших объемов с большей стабильностью. Клиенты могут ожидать более согласованной длительности обновления и меньше проблем с таймаутом при использовании нового движка.

Включение или отключение Modern Evaluator

Замечание

Современный вычислитель включен по умолчанию в новых элементах потока данных 2-го поколения (CI/CD). При возникновении проблем можно отключить параметр, чтобы вернуться к стандартной подсистеме оценки.

Выполните следующие действия, чтобы включить современную подсистему оценки запросов для потока данных:

  1. Откройте поток данных для редактирования. В Фабрике данных Fabric перейдите к элементу dataflow 2-го поколения (CI/CD) и откройте его в редакторе Power Query.

  2. Перейдите к параметрам (параметры масштабирования): в редакторе потоков данных выберите меню "Параметры". В диалоговом окне "Параметры" выберите вкладку "Масштаб".

  3. Включите современный вычислитель: найдите параметр для современной подсистемы оценки запросов. Убедитесь, что этот параметр включен.

    Снимок экрана: диалоговое окно параметров в потоке данных 2-го поколения с CI/CD, отображающее современный параметр оценки запросов.

  4. Сохранение и запуск: сохранение параметров потока данных. При следующем запуске потока данных будет использоваться модернизированный оценщик для поддерживаемых коннекторов.

Вопросы, связанные с производительностью

При использовании современного механизма оценки, вы заметите увеличение скорости обновления, особенно для потоков с большим объемом данных. Например, преобразования данных, которые ранее заняли час, могут завершиться примерно в половину времени с включенным современным вычислителем (фактические результаты зависят от ваших сценариев). Это повышение производительности помогает в таких сценариях, как:

  • Большие объемы данных. При работе с миллионами строк или большими файлами оптимизация нового модуля может сократить время обработки и уменьшить использование памяти.

  • Сложные преобразования: потоки данных с большим количеством шагов преобразования или тяжелых операций (например, соединения между большими таблицами) получают преимущество от улучшенного плана выполнения подсистемы, что приводит к более плавному и быстрому завершению.

  • Частые расписания выполнения: если потоки данных запускаются несколько раз в день, экономия времени на обновление данных накапливается, что позволяет быстрее доставлять актуальные данные пользователям.

Benchmarks

В этом разделе используется большой реальный набор данных для иллюстрации того, как изменения архитектуры в поколениях потоков данных и введение в современную подсистему оценки запросов влияют на время выполнения.

Замечание

Результаты предоставляются только для сравнения и могут отличаться в зависимости от источника данных, преобразований и среды выполнения.

Сравнение между продуктами

Этот тест сравнивает Dataflow Gen1, Dataflow Gen2 и Dataflow Gen2 (CI/CD) при помощи идентичного сценария загрузки и преобразования данных.

Сценарий

  • Источник: набор данных такси Нью-Йорка, хранящийся в хранилище BLOB-объектов Azure
  • Объем данных: около 110 миллионов строк
  • Преобразование: преобразование "По строкам" во время приема
  • Назначение:
    • Gen1: CSV
    • Gen2 / Gen2 (CI/CD): Lakehouse (выходные данные по умолчанию)

Results

Продукт Выходные данные по умолчанию Время выполнения
Поток данных 1-го поколения CSV ~60 минут
Поток данных 2-го поколения Lakehouse ~57 минут
Поток данных 2-го поколения (CI/CD) с современным вычислителем Lakehouse ~33 минуты

Наблюдения

  • Поток данных 1-го поколения и поток данных 2-го поколения показывают сравнимое время выполнения для этого сценария преобразования строк по строкам.
  • Поток данных 2-го поколения (CI/CD) завершает ту же рабочую нагрузку примерно за половину времени.
  • Улучшение производительности обусловлено Современным механизмом оценки запросов, который снижает накладные расходы на обработку каждой строки и оптимизирует выполнение для больших объемов данных.

Устаревший и современный оценщик

Этот тест сравнивает устаревшую подсистему оценки и современную подсистему оценки запросов в dataflow 2-го поколения (CI/CD) в двух распространенных шаблонах запросов.

Сценарий

  • Источник данных: набор данных такси Нью-Йорка, хранящийся в SQL
  • Объем данных: около 110 миллионов строк
  • Назначение: Fabric Lakehouse

Results

Сценарий Оценщик устаревших систем Современный оценщик
Преобразование запросов в SQL ~20 минут ~13 минут
Запрос не преобразуется в SQL (разделение по разделителю) ~28 минут ~16 минут

Наблюдения

Современная подсистема оценки запросов обеспечивает значительные улучшения производительности из-за более эффективной среды выполнения и снижения затрат на выполнение независимо от того, сворачивать запросы или нет.

Поддерживаемые соединители

Современная подсистема оценки запросов поддерживает различные соединители данных. Убедитесь, что источники данных потока данных являются одними из поддерживаемых типов, чтобы воспользоваться преимуществами нового модуля. В настоящее время поддерживаются следующие соединители.

Показать список соединителей
  • Acterys
  • Аналитика Adobe
  • Аналитика ADP
  • Анаплан
  • Aptix Insights
  • Asana
  • Сборка представлений
  • Autodesk Construction Cloud
  • Автоматизация в любом месте
  • Автоматическая аналитика данных
  • Хранилище BLOB-объектов Azure
  • Управление затратами Azure
  • Azure Data Explorer (Kusto)
  • Azure Data Lake Storage 2-го поколения
  • база данных Azure SQL
  • Azure Synapse Analytics
  • Рабочая область Azure Synapse Analytics
  • Azure Resource Graph (Граф ресурсов Azure)
  • AzureTables
  • BI 360
  • BitSightSecurityRatings
  • Bloomberg
  • BQE Core
  • Создание подключенной системы
  • CCH Tagetik
  • CData Connect Cloud
  • Келонис
  • Червелл
  • CloudBluePSA
  • Cognite
  • CogniteDataSource
  • Аналитика клиентов
  • Dataverse
  • DCWInsights
  • DeltaSharing
  • Dynamics 365 Business Central
  • DynatraceGrail
  • Эдуфрейм
  • Эмиго
  • EntersoftBusinessSuite
  • EQuIS
  • eWayCRM
  • Функции искусственного интеллекта Fabric
  • Fabric Lakehouse
  • База данных SQL Fabric
  • Склад Fabric
  • Аналитика FactSet
  • FactSet RMS
  • Воронка
  • Google Analytics
  • Google Sheets (Гугл Таблицы)
  • HexagonSmartApi
  • IndustrialAppStore
  • InformationGrid
  • Intune
  • inwink
  • JamfPro
  • Kognitwin
  • kxkdbinsightsenterprise
  • СКАЧОК
  • Компоновщик
  • LinkedIn Learning
  • Набор данных микростратегии
  • OData
  • OneStream
  • Paxata
  • PlanviewOKR
  • PlanviewProjectplace
  • Потоки данных Power Platform
  • Профиси
  • Quickbase
  • Roamler
  • Salesforce
  • Самсара
  • SDMX
  • Папка SharePoint
  • Список SharePoint Online
  • ShortcutsBI
  • SiteImprove
  • SmartsheetGlobal
  • SoftOneBI
  • SolarwindsServiceDesk
  • Spigit
  • SumTotal
  • Суперметрики
  • База данных SQL Server
  • SurveyMonkey
  • TeamDesk
  • Tenforce
  • Usercube
  • Vena
  • VesselInsight
  • VivaInsights
  • Паутина
  • WebtrendsAnalytics
  • Виндзор
  • Witivio
  • Wrike
  • Данные Zendesk
  • Зохо Создатель
  • Цукчетти

Если поток данных использует соединители, не в этом списке, эти запросы продолжают работать со стандартным (устаревшим) модулем.