терминология Microsoft Fabric

Узнайте определения терминов, используемых в Microsoft Fabric, включая термины для Fabric Data Engineering, Fabric Data Factory, Fabric Data Science, Fabric Data Warehouse, Fabric IQ, Real-Time Intelligence и Power BI.

Общие термины

  • Вместимость: Вместимость означает выделенный набор ресурсов, доступных в определенное время для использования. Емкость определяет способность ресурса выполнять действие или производить выходные данные. Разные элементы используют другую емкость в определенное время. Fabric предоставляет емкость через SKU и пробные версии Fabric. Дополнительные сведения см. в разделе Что такое емкость?

  • Элемента: Элемент — это набор возможностей в рабочей нагрузке. Пользователи могут создавать, изменять и удалять их. Каждый тип элемента предоставляет различные возможности. Например, рабочая нагрузка "Проектирование данных" включает элементы определения заданий Lakehouse, notebook и Spark.

  • Tenant: Тенант — это единичный экземпляр Fabric для организации, связанный с Microsoft Entra ID.

  • Рабочая нагрузка и интерфейс: Коллекция возможностей, предназначенных для определенной функциональности. Рабочие нагрузки Fabric включают Fabric проектирование данных, фабрику данных, Fabric обработку и анализ данных, Fabric Data Warehouse, базы данных, Industry Solutions, аналитику Real-Time, Fabric IQ и Power BI. Рабочие нагрузки Fabric иногда называются Fabric experiences.

  • Рабочая область: рабочая область — это коллекция элементов, объединяющих различные функциональные возможности в одной среде, предназначенной для совместной работы. Он выступает в качестве контейнера, использующего емкость для выполняемой работы, и предоставляет элементы управления для доступа к элементам в нем. Например, в рабочей области пользователи создают отчеты, записные книжки, семантические модели и т. д. Для получения дополнительной информации см. статью рабочие области.

инженерия данных Fabric

  • Lakehouse: Lakehouse — это база данных, созданная на основе озера данных, содержащая файлы, папки и таблицы. Он используется подсистемой Apache Spark и подсистемой SQL для обработки больших данных. Lakehouses поддерживают ACID транзакции при использовании таблиц Delta с открытым исходным кодом. Элемент Lakehouse размещается в уникальной папке рабочей области в Microsoft OneLake. Он содержит файлы в различных форматах (структурированных и неструктурированных) в папках и вложенных папках. Дополнительные сведения см. в разделе Что такое хранилище озера?

  • Notebook: Записная книжка Fabric — это многоязычное интерактивное средство программирования с расширенными функциями. К ним относятся разработка кода и markdown, выполнение и мониторинг задания Spark, просмотр и визуализация результатов, а также совместная работа с командой. Это помогает инженерам по обработке данных и специалистам по анализу данных изучать и обрабатывать данные, а также создавать эксперименты машинного обучения как с использованием кода, так и с применением интерфейсов без кода. Его можно легко преобразовать в действие конвейера для оркестрации.

  • Spark application: Приложение Apache Spark — это программа, написанная пользователем с помощью одного из языков API Spark (Scala, Python, Spark SQL или Java) или Microsoft добавленных языков (.NET c# или F#). При запуске приложения оно делится на одно или несколько заданий Spark, которые выполняются параллельно для обработки данных быстрее. Для получения дополнительной информации см. раздел Мониторинг приложений Spark.

  • Apache Spark: задача Spark является частью приложения Spark, которое запускается параллельно с сопутствующими задачами в этом приложении. Задание состоит из нескольких задач. Дополнительные сведения см. раздел по мониторингу заданий Spark.

  • определение задания Apache Spark: Определение задания Spark — это набор параметров, заданных пользователем, указывающий, как должно выполняться приложение Spark. Он позволяет отправлять пакетные или потоковые задания в кластер Spark. Дополнительные сведения см. в разделе Что такое определение задания Apache Spark?

  • V-order: Оптимизация записи в формате файла Parquet, которая позволяет более быстрое считывание, обеспечивает экономичность и более высокую производительность. Все движки Fabric по умолчанию записывают v-упорядоченные файлы в формате Parquet.

Фабрика данных

  • соединитель : фабрика данных предлагает широкий набор соединителей, которые позволяют подключаться к различным типам хранилищ данных. После подключения можно преобразовать данные. Более подробную информацию см. в разделе о соединителях.

  • Трубопровод: В фабрике данных конвейер используется для оркестрации перемещения и преобразования данных. Эти конвейеры отличаются от конвейеров развертывания в Fabric. Дополнительные сведения см. в разделе "Конвейеры".

  • Dataflow Gen2: потоки данных предоставляют интерфейс с низким уровнем кода для приема данных из сотен источников данных и преобразования ваших данных. Потоки данных в Fabric называются потоками данных 2-го поколения. Поток данных 1-го поколения существует в Power BI. Поток данных 2-го поколения предоставляет дополнительные возможности по сравнению с потоками данных в Azure Data Factory или Power BI. Невозможно обновить с 1-го поколения до 2-го поколения. Дополнительные сведения см. в потоках данных в обзоре Фабрики данных.

  • триггер : возможность автоматизации в фабрике данных, которая инициирует конвейеры на основе определенных условий, таких как расписания или доступность данных.

Fabric обработки и анализа данных

  • Data Wrangler: Data Wrangler — это средство на основе записных книжек, которое предоставляет пользователям иммерсивный интерфейс для проведения анализа аналитических данных. Эта функция объединяет отображение данных, например сетки, с динамической сводной статистикой и набором общих операций очистки данных, доступных с несколькими выбранными значками. Каждая операция создает код, который можно сохранить обратно в записную книжку в качестве многократно используемых скриптов.

  • Эксперимент: эксперимент машинного обучения является основной единицей организации и контроля для всех связанных запусков машинного обучения. Дополнительные сведения см. в статье Эксперименты машинного обучения в Microsoft Fabric.

  • модель: модель машинного обучения — это файл, обученный распознавать определенные типы шаблонов. Вы обучаете модель на наборе данных и предоставляете ей алгоритм, который она использует для анализа и обучения на основе этого набора данных. Дополнительные сведения см. в модели машинного обучения.

  • Запуск: Запуск соответствует однократному выполнению кода модели. В MLflowотслеживание основано на экспериментах и прогонах.

Хранилище данных Fabric

  • конечная точка аналитики SQL: Каждый Lakehouse имеет конечную точку аналитики SQL, которая позволяет пользователю запрашивать данные delta-таблицы с помощью TSQL через TDS. Дополнительные сведения см. в конечной точке аналитики SQL.

  • Fabric Data Warehouse: Fabric Data Warehouse функционирует как традиционное хранилище данных и поддерживает все возможности транзакционной T-SQL, которые вы ожидаете от корпоративного хранилища данных. Дополнительные сведения см. в разделе Fabric Data Warehouse.

Fabric IQ

  • Ontology: Ontology (preview) — это элемент, в котором можно определить типы сущностей, связи, свойства и другие ограничения для упорядочивания данных в соответствии с бизнес-словарем. Дополнительные сведения см. в разделе "Что такое онтология (предварительная версия)"?
  • План: план (предварительная версия) — это единая платформа без кода для совместной работы, создания отчетов, аналитики, интеграции данных и управления. Дополнительные сведения см. в разделе "Что такое план (предварительная версия)"?

Интеллект Real-Time

  • Активатор: Активатор — это инструмент для разработки без кода и с небольшим количеством кода, позволяющий создавать оповещения, триггеры и действия в ваших данных. Активатор используется для создания оповещений в потоках данных. Для получения дополнительной информации см. раздел Активатор.

  • Построитель цифровых двойников: Построитель цифровых двойников (предварительная версия) — это элемент, который создает цифровые представления реальных сред для оптимизации физических операций с помощью данных. Дополнительные сведения см. в разделе «Что такое конструктор цифровых двойников (предварительная версия)?».

  • Eventhouse: Eventhouses предоставляет решение для обработки и анализа больших объемов данных, особенно в сценариях, требующих аналитики и изучения в режиме реального времени. Они предназначены для эффективной обработки потоков данных в режиме реального времени, что позволяет организациям выполнять прием, обработку и анализ данных в режиме реального времени. Одна рабочая область может содержать несколько центров событий, хранилище событий может содержать несколько баз данных KQL, и каждая база данных может содержать несколько таблиц. Дополнительные сведения см. в обзоре Eventhouse.

  • Eventstream: Функция eventstreams в Microsoft Fabric предоставляет централизованное место на платформе Fabric для захвата, преобразования и маршрутизации событий в режиме реального времени в пункты назначения без программирования. Поток событий состоит из различных источников данных потоковой передачи, назначений приема и обработчика событий при необходимости преобразования. Дополнительные сведения см. в разделе Microsoft Fabric потоки событий.

  • KQL Database: База данных KQL содержит данные в формате, по которому можно делать запросы KQL. Базы данных KQL — это элементы в Eventhouse. Дополнительные сведения см. в разделе базы данных KQL.

  • KQL Queryset: Набор запросов KQL — это элемент, используемый для выполнения запросов, просмотра результатов и управления результатами запросов на данные из базы данных Data Explorer. Набор запросов включает базы данных и таблицы, запросы и результаты. Набор запросов KQL позволяет сохранять запросы для дальнейшего использования или экспортировать и совместно использовать запросы с другими пользователями. Дополнительную информацию см. в разделе Запрос данных в наборе запросов KQL

центр Real-Time

  • Real-Time хаб: Real-Time хаб — это единое место для всех данных в движении во всей вашей организации. Каждый клиент Microsoft Fabric автоматически подготавливается к работе с центром. Дополнительные сведения см. в обзоре концентратора Real-Time.

OneLake

  • OneLake: OneLake — это единое, межоблачное хранилище данных в Fabric, которое обеспечивает единый логический слой данных для всех элементов Fabric, управления и хранения. OneLake основан на Azure Data Lake Storage Gen2 и включает такие функции, как сочетания клавиш для доступа к данным нулевого копирования и совместного доступа к данным между клиентами для управляемой совместной работы по границам организации. Дополнительные сведения см. в разделе Что такое OneLake?

  • ярлык: ярлыки — это внедренные ссылки в OneLake, указывающие на другие расположения хранилища файлов. Они обеспечивают доступ к внешним операционным источникам данных, не копируя данные или создавая конвейеры ETL. Сочетания клавиш можно комбинировать с общим доступом к данным OneLake для контролируемого межтенантного доступа к общим наборам данных. Для получения дополнительной информации см. ярлыки OneLake.

  • Совместное использование данных (межарендный): Совместное использование данных OneLake позволяет делиться актуальными управляемыми наборами данных между клиентами Microsoft Entra без необходимости копирования данных. Внешние получатели получают доступ к общим данным на месте, и все политики управления остаются в силе в источнике. Дополнительные сведения см. в разделе о совместном доступе к внешним данным.