Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Применимо к:✅ Проектирование данных и наука о данных в Fabric
Microsoft Fabric выделяет вычислительные ресурсы через емкость. Емкость — это выделенный набор ресурсов, доступных в определенный момент времени, и разные элементы используют их по-разному. Fabric предоставляет емкость с помощью номеров SKU Fabric и пробной емкости. Дополнительные сведения см. в разделе "Что такое емкость?".
При создании емкости Fabric вы выбираете размер в зависимости от потребностей рабочей нагрузки. Для Apache Spark каждая единица ресурса сопоставляется с двумя виртуальными ядрами (VCore) Spark.
Одна единица емкости = два виртуальных ядра Spark
После того как емкость выделена, администраторы создают рабочие области в заданной емкости. Виртуальные процессоры Spark распределяются между Spark-элементами в этих рабочих областях, включая блокноты, определения заданий Spark и задания для хранилища данных Lakehouse.
Ограничение одновременных процессов и управление очередями
Spark в Fabric использует регулирование на основе ядра и очереди. Распределение заданий основано на доступных виртуальных ядрах Spark в приобретенной емкости. Очереди функционируют по принципу первый пришел, первый вышел (FIFO) и автоматически повторяют выполнение заданий, когда появляется доступная емкость.
Когда записная книжка или задание lakehouse (например загрузка в таблицу) отправляется при полном использовании емкости, Fabric возвращает эту ошибку:
[TooManyRequestsForCapacity] HTTP Response code 430: This Spark job can't be run because you have hit a Spark compute or API rate limit. To run this Spark job, cancel an active Spark job through the Monitoring hub, or choose a larger capacity SKU or try again later.
При включенной очереди задания, активируемые из конвейеров, планировщика и определений заданий Spark, автоматически помещаются в очередь и повторяются.
Очередь не применяется к интерактивным заданиям записной книжки или заданиям записной книжки, отправленным через общедоступный API записной книжки.
Примечание.
Срок действия очереди составляет 24 часа с момента отправки задания. По истечении этого периода задания удаляются из очереди и должны быть повторно отправлены вручную.
Если мощность Fabric находится в состоянии ограничения, новые задания Spark отклоняются, а не ставятся в очередь.
Регулирование Spark в Fabric основано на доступных ядрах, а не на произвольном ограничении количества заданий. По умолчанию Spark использует оптимистичный контроль допуска, где задания допускаются с помощью минимальных основных требований. Дополнительные сведения см. в разделе «Прием заданий и управление».
Конфигурация всплеска и пула
Емкости Fabric поддерживают всплеск, что позволяет использовать до 3× приобретенных виртуальных процессорных ядер Spark. Ускорение может увеличить параллелизм, позволяя более параллельное выполнение при наличии емкости.
Примечание.
Коэффициент увеличения нагрузки повышает общий объем виртуальных ядер Spark для обеспечения параллельной обработки и может также использоваться одним заданием, если пул Spark настроен на достаточное количество ядер. Иными словами, конфигурация пула определяет максимальное количество ядер, которые может использовать задание, а не только базовое выделение SKU.
Пример: F64 с режимом «бурст»
Если вы используете номер SKU F64 , максимальное количество всплесков составляет 384 виртуальных ядер Spark:
- Вы можете настроить начальный или пользовательский пул до 384 виртуальных ядер Spark.
- Если пул настроен на это ограничение, одно задание Spark может использовать все 384 виртуальные ядра.
- Пример:
Mediumузлы (8 виртуальных центральных процессоров каждый) × 48 максимальных узлов = 384 виртуальных центральных процессоров.
Подсказка
Чтобы повысить производительность задания, настройте пул рабочих областей с соответствующим размером узла и максимальным числом узлов.
Управление всплесками нагрузки на уровне задачи
Администраторы вместительности могут включить или отключить бёрстинг на уровне заданий в портале администратора.
- Перейдите к порталу администрирования>настройкам емкости>Fabric.
- Выберите емкость, которую вы хотите управлять.
- Откройте параметры инженерии данных/науки о данных>компьютер Open Spark.
- Используйте Отключить всплеск на уровне задания.
При отключении всплеска на уровне заданий Spark не позволяет ни одному заданию использовать всю доступную емкость (включая ускоренные ядра). Это поведение помогает обеспечить доступность ресурсов для других параллельных заданий.
Этот параметр полезен для многопользовательских или сред высокой конкурентности, где справедливость и пропускная способность между командами важнее, чем максимизация времени выполнения одной задачи.
Пример сценариев
Включение ускорения (по умолчанию)
Большое задание пакетной записной книжки может использовать все 384 виртуальных ядра Spark в емкости F64, если другие задания не выполняются.
Bursting отключен
Задание может быть ограничено базовым ограничением на ядра (например, 128 виртуальных ядер Spark для F64), оставляя запас мощности для запуска других заданий.
Подсказка
Для смешанных рабочих нагрузок (например, ETL, ML и нерегламентированного анализа), отключение ускорения выполнения заданий может снизить монополизацию ресурсов и задержки обработки в очереди.
Ограничения SKU емкости Spark
| Номер SKU емкости Fabric | Эквивалентный номер SKU Power BI | Виртуальные процессоры Spark | Максимальное количество виртуальных ядер Spark с коэффициентом ускорения | Ограничение очереди |
|---|---|---|---|---|
| F2 | - | 4 | 20 | 4 |
| F4 | - | 8 | двадцать четыре | 4 |
| F8 | - | 16 | 48 | 8 |
| F16 | - | 32 | 96 | 16 |
| F32 | - | 64 | 192 | 32 |
| F64 | П1 | 128 | 384 | 64 |
| F128 | P2 | 256 | 768 | 128 |
| F256 | П3 | 512 | 1536 | 256 |
| F512 | P4 | 1024 | 3072 | 512 |
| F1024 | - | 2048 | 6144 | 1024 |
| F2048 | - | 4096 | 12288 | 2048 |
| Испытательная мощность | П1 | 128 | 128 | Недоступно |
Это важно
Эта таблица применяется только к заданиям Spark, работающим на производственных мощностях Fabric. При включенном биллинге автомасштабирования задания Spark выполняются отдельно от емкости Fabric и не используют всплеск мощности или плавное регулирование. Общее количество виртуальных ядер Spark в два раза превышает максимальную емкость, установленную в параметрах автомасштабирования.
Пример вычисления
- Номер SKU F64 предоставляет 128 виртуальных ядер Spark.
- С 3× коэффициентом ускорения он поддерживает до 384 виртуальных ядер Spark.
- Если пул настроен для всех 384 виртуальных процессоров, одно задание может использовать все 384, если на данный момент есть свободная емкость.
- Пример: три задания 128-VCore выполняются одновременно, или одно задание 384-VCore выполняется.
Примечание.
Задания истекают в очереди через 24 часа и должны быть повторно отправлены.
Дополнительные сведения о начальных пулах и конфигурации см. в разделе "Настройка начальных пулов" в Fabric.
Связанный контент
- Начало работы с параметрами администрирования рабочей области Apache Spark в Microsoft Fabric
- Узнайте о Apache Spark для Fabric в рабочих нагрузках в сфере инженерии данных и науки о данных