Поделиться через


Параметры администрирования рабочей области "Проектирование данных" в Microsoft Fabric

Применимо к:✅ Проектирование данных и наука о данных в Fabric

При создании рабочей области в Microsoft Fabric создается пул starter, связанный с этой рабочей областью. При упрощенной настройке в Microsoft Fabric вам не нужно выбирать размеры узла или компьютера, так как эти параметры обрабатываются за кулисами. Эта конфигурация обеспечивает более быстрый запуск сеанса Apache Spark (5–10 секунд) для пользователей, чтобы приступить к работе и запустить задания Apache Spark во многих распространенных сценариях, не беспокоясь о настройке вычислений. Для расширенных сценариев с определенными требованиями к вычислительным ресурсам пользователи могут создавать настраиваемый пул Apache Spark и размер узлов в зависимости от их потребностей в производительности.

Чтобы внести изменения в параметры Apache Spark в рабочей области, необходимо иметь роль администратора для этой рабочей области. Дополнительные сведения см. в статье "Роли" в рабочих областях.

Чтобы управлять параметрами Spark для пула, связанного с рабочей областью, выполните следующие действия.

  1. Перейдите к параметрам рабочей области и выберите параметр Инжиниринг данных/Science, чтобы развернуть меню:

    Снимок экрана, показывающий, где выбрать параметр 'Инжиниринг данных' в меню настроек рабочей области.

  2. Вы видите параметр Spark Compute в меню слева.

    GIF-файл, показывающий различные разделы вычислений Apache Spark в параметрах рабочей области.

    Примечание.

    При изменении пула по умолчанию с начального пула на настраиваемый пул Spark может отображаться более длительный запуск сеанса (около 3 минут).

Пул

Пул по умолчанию для рабочей области

Вы можете использовать автоматически созданный начальный пул или создать настраиваемые пулы для рабочей области.

  • Начальный пул: предварительно увлажненные живые пулы автоматически создаются для вашего более быстрого взаимодействия. Эти кластеры имеют средний размер. Начальный пул настраивается по умолчанию на основе приобретенного SKU производительности Fabric. Администраторы могут настраивать максимальные узлы и исполнителей на основе требований к масштабированию рабочей нагрузки Spark. Дополнительные сведения см. в разделе "Настройка начальных пулов"

  • Настраиваемый пул Spark: Вы можете изменять размер узлов, включать автоматическое масштабирование и динамически выделять исполнители в соответствии с требованиями задания Spark. Чтобы создать настраиваемый пул Spark, администратор емкости должен включить опцию "Настраиваемые пулы рабочих областей" в разделе "Вычислительные ресурсы Spark" настроек администратора емкости.

Примечание.

Управление уровнем емкости для настраиваемых пулов рабочих пространств включено по умолчанию. Дополнительные сведения см. в статье «Настройка и управление параметрами инженерии данных и науки о данных для емкостей Fabric».

Администраторы могут создавать настраиваемые пулы Spark на основе требований к вычислительным ресурсам, выбрав параметр "Создать пул ".

Снимок экрана: параметры создания настраиваемого пула.

Apache Spark для Microsoft Fabric поддерживает кластеры с одним узлом, что позволяет пользователям выбирать минимальную конфигурацию узла 1, в этом случае драйвер и исполнитель выполняются на одном узле. Эти кластеры с одним узлом обеспечивают восстановление высокой доступности во время сбоев узлов и более высокую надежность заданий для рабочих нагрузок с меньшими требованиями к вычислительным ресурсам. Вы также можете включить или отключить параметр автомасштабирования для пользовательских пулов Spark. При включении автомасштабирования пул получит новые узлы в пределах максимального предела узла, указанного пользователем, и отключает их после выполнения задания для повышения производительности.

Вы также можете выбрать параметр динамического выделения исполнителей в пул, автоматически рассчитывая оптимальное количество исполнителей в пределах максимальной границы, указанный в зависимости от объема данных с целью повышения производительности.

Снимок экрана: параметры создания настраиваемого пула для автомасштабирования и динамического выделения.

Дополнительные сведения о вычислениях Apache Spark для Fabric.

  • Настройка конфигурации вычислений для элементов: администратор рабочей области позволяет пользователям настраивать конфигурации вычислений (свойства уровня сеанса, которые включают Driver/Executor Core, Driver/Executor Memory) для отдельных элементов, таких как записные книжки, определения заданий Spark с помощью среды.

Снимок экрана: переключение на настройку вычислений для элементов.

Если параметр отключен администратором рабочей области, пул по умолчанию и его конфигурации вычислений используются для всех сред в рабочей области.

Программная среда

Среда предоставляет гибкие конфигурации для выполнения заданий Spark (записных книжек, определений заданий Spark). В среде выполнения можно настроить свойства вычислений, выбрать разное время выполнения, настроить зависимости библиотечных пакетов в соответствии с требованиями рабочей нагрузки.

На вкладке "Среда" можно задать среду по умолчанию. Вы можете выбрать версию Spark, которую вы хотите использовать для рабочей области.

Администратор рабочей области Fabric может выбрать среду в качестве среды по умолчанию для рабочей области.

Вы также можете создать новый с помощью раскрывающегося списка "Среда ".

Снимок экрана: создание среды с помощью раскрывающегося списка вложений в параметре WS.

Если вы отключите параметр по умолчанию для среды, у вас будет возможность выбрать версию среды выполнения Fabric из доступных версий, перечисленных в раскрывающемся списке.

Снимок экрана: выбор версии среды выполнения.

Дополнительные сведения о средах выполнения Apache Spark.

Работы

Параметры заданий позволяют администраторам управлять логикой допуска для всех Spark-задач в рабочем пространстве.

Снимок экрана: параметры заданий.

По умолчанию во всех рабочих областях включена оптимистичная приёмка заданий. Дополнительные сведения о приеме Job для Spark см. в Microsoft Fabric.

Вы можете включить Резервировать максимальное количество ядер для активных заданий Spark, чтобы отключить оптимистичный подход к приёму заданий и зарезервировать максимальное количество ядер для своих заданий Spark.

Вы также можете задать время ожидания для сеанса Spark, чтобы настроить срок действия для всех интерактивных сеансов в записной книжке.

Примечание.

Срок действия сеанса по умолчанию составляет 20 минут для интерактивных сеансов Spark.

Высокая степень параллелизма

Режим высокой параллелизма позволяет пользователям совместно использовать одни и те же сеансы Spark в Apache Spark для рабочих нагрузок в области инженерии данных и научных данных. Элемент, такой как записная книжка, использует сеанс Spark для его выполнения, а при включении позволяет пользователям совместно использовать один сеанс Spark в нескольких записных книжках.

Снимок экрана: страница настроек высокой параллельности.

Дополнительные сведения о высокой параллелизме в Apache Spark для Fabric.

Автоматическое ведение журнала для моделей и экспериментов Machine Learning

Теперь администраторы могут включить автологирование для моделей машинного обучения и экспериментов. Этот параметр автоматически фиксирует значения входных параметров, выходных метрик и выходных элементов модели машинного обучения по мере обучения. Узнайте больше об автологе.

Снимок экрана: страница параметров автолога.