Ограничения параллелизма и очередь в Apache Spark для Microsoft Fabric

Применимо к:✅ Проектирование данных и наука о данных в Fabric

Microsoft Fabric выделяет вычислительные ресурсы через емкость. Емкость — это выделенный набор ресурсов, доступных в определенный момент времени, и разные элементы используют их по-разному. Fabric предоставляет емкость с помощью номеров SKU Fabric и пробной емкости. Дополнительные сведения см. в разделе "Что такое емкость?".

При создании емкости Fabric вы выбираете размер в зависимости от потребностей рабочей нагрузки. Для Apache Spark каждая единица ресурса сопоставляется с двумя виртуальными ядрами (VCore) Spark.

Одна единица емкости = два виртуальных ядра Spark

После того как емкость выделена, администраторы создают рабочие области в заданной емкости. Виртуальные процессоры Spark распределяются между Spark-элементами в этих рабочих областях, включая блокноты, определения заданий Spark и задания для хранилища данных Lakehouse.

Ограничение одновременных процессов и управление очередями

Spark в Fabric использует регулирование на основе ядра и очереди. Распределение заданий основано на доступных виртуальных ядрах Spark в приобретенной емкости. Очереди функционируют по принципу первый пришел, первый вышел (FIFO) и автоматически повторяют выполнение заданий, когда появляется доступная емкость.

Когда записная книжка или задание lakehouse (например загрузка в таблицу) отправляется при полном использовании емкости, Fabric возвращает эту ошибку:

[TooManyRequestsForCapacity] HTTP Response code 430: This Spark job can't be run because you have hit a Spark compute or API rate limit. To run this Spark job, cancel an active Spark job through the Monitoring hub, or choose a larger capacity SKU or try again later.

При включенной очереди задания, активируемые из конвейеров, планировщика и определений заданий Spark, автоматически помещаются в очередь и повторяются.

Очередь не применяется к интерактивным заданиям записной книжки или заданиям записной книжки, отправленным через общедоступный API записной книжки.

Примечание.

Срок действия очереди составляет 24 часа с момента отправки задания. По истечении этого периода задания удаляются из очереди и должны быть повторно отправлены вручную.

Если мощность Fabric находится в состоянии ограничения, новые задания Spark отклоняются, а не ставятся в очередь.

Регулирование Spark в Fabric основано на доступных ядрах, а не на произвольном ограничении количества заданий. По умолчанию Spark использует оптимистичный контроль допуска, где задания допускаются с помощью минимальных основных требований. Дополнительные сведения см. в разделе «Прием заданий и управление».

Конфигурация всплеска и пула

Емкости Fabric поддерживают всплеск, что позволяет использовать до 3× приобретенных виртуальных процессорных ядер Spark. Ускорение может увеличить параллелизм, позволяя более параллельное выполнение при наличии емкости.

Примечание.

Коэффициент увеличения нагрузки повышает общий объем виртуальных ядер Spark для обеспечения параллельной обработки и может также использоваться одним заданием, если пул Spark настроен на достаточное количество ядер. Иными словами, конфигурация пула определяет максимальное количество ядер, которые может использовать задание, а не только базовое выделение SKU.

Пример: F64 с режимом «бурст»

Если вы используете номер SKU F64 , максимальное количество всплесков составляет 384 виртуальных ядер Spark:

Вы можете настроить начальный или пользовательский пул до 384 виртуальных ядер Spark.
Если пул настроен на это ограничение, одно задание Spark может использовать все 384 виртуальные ядра.
Пример: Medium узлы (8 виртуальных центральных процессоров каждый) × 48 максимальных узлов = 384 виртуальных центральных процессоров.

Подсказка

Чтобы повысить производительность задания, настройте пул рабочих областей с соответствующим размером узла и максимальным числом узлов.

Управление всплесками нагрузки на уровне задачи

Администраторы вместительности могут включить или отключить бёрстинг на уровне заданий в портале администратора.

Перейдите к порталу администрирования>настройкам емкости>Fabric.
Выберите емкость, которую вы хотите управлять.
Откройте параметры инженерии данных/науки о данных>компьютер Open Spark.
Используйте Отключить всплеск на уровне задания.

При отключении всплеска на уровне заданий Spark не позволяет ни одному заданию использовать всю доступную емкость (включая ускоренные ядра). Это поведение помогает обеспечить доступность ресурсов для других параллельных заданий.

Этот параметр полезен для многопользовательских или сред высокой конкурентности, где справедливость и пропускная способность между командами важнее, чем максимизация времени выполнения одной задачи.

Пример сценариев

Включение ускорения (по умолчанию)

Большое задание пакетной записной книжки может использовать все 384 виртуальных ядра Spark в емкости F64, если другие задания не выполняются.

Bursting отключен

Задание может быть ограничено базовым ограничением на ядра (например, 128 виртуальных ядер Spark для F64), оставляя запас мощности для запуска других заданий.

Подсказка

Для смешанных рабочих нагрузок (например, ETL, ML и нерегламентированного анализа), отключение ускорения выполнения заданий может снизить монополизацию ресурсов и задержки обработки в очереди.

Ограничения SKU емкости Spark

Номер SKU емкости Fabric	Эквивалентный номер SKU Power BI	Виртуальные процессоры Spark	Максимальное количество виртуальных ядер Spark с коэффициентом ускорения	Ограничение очереди
F2	-	4	20	4
F4	-	8	двадцать четыре	4
F8	-	16	48	8
F16	-	32	96	16
F32	-	64	192	32
F64	П1	128	384	64
F128	P2	256	768	128
F256	П3	512	1536	256
F512	P4	1024	3072	512
F1024	-	2048	6144	1024
F2048	-	4096	12288	2048
F4096	-	8192	24576	4096
F8192	-	16384	49152	8192
Испытательная мощность	П1	128	128	Недоступно
FTL4	-	8	16	16

Подсказка

Для рабочих нагрузок, использующих небольшую пробную вычислительную емкость, например FTL4, рекомендуется использовать пул вычислительных ресурсов малого размера и подход к совместному использованию сеансов с высокой степенью параллелизма для оптимизации параллельной обработки.

Это важно

Эта таблица применяется только к заданиям Spark, работающим на производственных мощностях Fabric. При включенном биллинге автомасштабирования задания Spark выполняются отдельно от емкости Fabric и не используют всплеск мощности или плавное регулирование. Общее количество виртуальных ядер Spark в два раза превышает максимальную емкость, установленную в параметрах автомасштабирования.

Пример вычисления

Номер SKU F64 предоставляет 128 виртуальных ядер Spark.
С 3× коэффициентом ускорения он поддерживает до 384 виртуальных ядер Spark.
Если пул настроен для всех 384 виртуальных процессоров, одно задание может использовать все 384, если на данный момент есть свободная емкость.
Пример: три задания 128-VCore выполняются одновременно, или одно задание 384-VCore выполняется.

Примечание.

Задания истекают в очереди через 24 часа и должны быть повторно отправлены.

Дополнительные сведения о начальных пулах и конфигурации см. в разделе "Настройка начальных пулов" в Fabric.

Начало работы с параметрами администрирования рабочей области Apache Spark в Microsoft Fabric
Узнайте о Apache Spark для Fabric в рабочих нагрузках в сфере инженерии данных и науки о данных

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-06-15

Ограничения параллелизма и очередь в Apache Spark для Microsoft Fabric

Ограничение одновременных процессов и управление очередями

Конфигурация всплеска и пула

Пример: F64 с режимом «бурст»

Управление всплесками нагрузки на уровне задачи

Пример сценариев

Ограничения SKU емкости Spark

Пример вычисления

Связанный контент

Обратная связь

Дополнительные ресурсы