Azure CycleCloud версии 8.8.0

В этом выпуске представлены высоко запрошенные новые функции, устранены несколько ключевых проблем и улучшена общая производительность.

Новые возможности

  • Azure CycleCloud предлагает значительно улучшенный мониторинг работоспособности узлов и отчеты с помощью нового HealthAgent (см. проект Azure CycleCloud HealthAgent).

  • Вы можете отключить Azure CycleCloud HealthAgent, задав свойство cyclecloud.healthagent.disable=trueконфигурации узла.

  • Azure CycleCloud теперь предлагает метрики узлов, GPU и планировщика Slurm для мониторинга и оповещений. Мониторинг осуществляется через рабочую область Azure Monitor и Managed Grafana. Дополнительные сведения см. в проекте мониторинга Azure CycleCloud .

  • Изменения кластера Azure CycleCloud Slurm:

    • Кластеры Azure CycleCloud Slurm поддерживают Slurm версии 25.05.2.
    • Кластеры Azure CycleCloud Slurm поддерживают образы Ubuntu 22/24, Alma 8/9 и RedHat 8/9.
    • Кластеры Azure CycleCloud Slurm поддерживают образы ARM64 и типы компьютеров.
    • Кластеры Azure CycleCloud Slurm предлагают встроенные, непрерывные проверки работоспособности, отчеты и восстановление узлов кластера, автоматически настраивая скрипты Slurm HealthCheckProgram, Prolog и Epilog для использования Azure CycleCloud HealthAgent.
    • Кластеры Azure CycleCloud Slurm предлагают встроенную коллекцию метрик и мониторинг в рабочей области Azure Monitor.
    • Пользовательский интерфейс создания кластера Slurm в Azure CycleCloud предоставляет новый Monitoring раздел для поддержки включения и настройки новых возможностей сбора метрик и мониторинга (отключен по умолчанию).
    • Azure CycleCloud Slurm настраивает и запускает службу slurmrestd автоматически для поддержки мониторинга.
    • Кластеры Azure CycleCloud Slurm предлагают встроенную автоматическую конфигурацию топологии для плагинов как дерева, так и блоков топологии с помощью интерфейса командной строки azslurm topology. Автоматическая конфигурация топологии поддерживается для кластеров с топологией масштабируемых наборов виртуальных машин, SHARP или доменом NVLink для планирования топологии Slurm.
    • Кластеры Azure CycleCloud Slurm включают новую azslurmd системную службу, которая синхронизирует общее состояние Slurm и Azure CycleCloud. Например, azslurmd синхронизирует настройку поддержания активности узла Azure CycleCloud с собственной функцией поддержания активности Slurm.
    • Кластеры Cyclecloud Slurm теперь включают прологовые и эпилоговые сценарии для автоматической конфигурации службы Nvidia IMEX для каждого задания в кластерах GPU Nvidia.
    • Кластеры Azure CycleCloud Slurm с помощью cyclecloud-slurm проекта версии 4.x и более поздних версий больше не требуют Chef для настройки узлов.
  • Изменения интерфейса командной строки Jetpack

    • Интерфейс командной строки Jetpack включает новую jetpack props команду для поддержки чтения и записи данных узла (свойств) в узлах кластера для использования в скриптах инициализации кластера. Свойства хранятся обратно в Azure CycleCloud в качестве NodeProperties типа в хранилище данных Azure CycleCloud.
    • Интерфейс командной строки Jetpack включает новую jetpack condition команду, используемую для отчета о состоянии работоспособности узла в Azure CycleCloud.
  • Изменения пользовательского интерфейса Azure CycleCloud

    • Кнопка уровня Issues кластера теперь открывается в виде полной страницы и агрегирует вопросы распределения ресурсов и состояния системы для упрощения просмотра.
    • Вкладка уровня Activity Log в пользовательском интерфейсе кластера была перемещена рядом с областью Event Log.
    • Вкладка диалогового окна Show Details уровня Overview узла была изменена и обновлена с прямыми ссылками на портал Azure и кнопками копирования для всех полей.
    • Диалоговое окно уровня узла Show Details включает новую панель действий, которая предоставляет операции, связанные с узлом, включая Restart и Reimage для исправления работоспособности узлов.
    • Диалоговое окно уровня Show Details узла теперь отображает только состояние работоспособности первого узла и предоставляет ссылку на новую Issues вкладку для отображения всех текущих условий узла.
  • Поддержка устройств NVMe

    • Azure CycleCloud автоматически подключает и форматирует устройства хранилища NVMe на узлах Linux на типах компьютеров с временными дисками NVMe.
    • Узлы Linux подключают временные диски NVMe в /nvme.
    • Теперь поддерживаются типы компьютеров с дисками загрузки NVMe, такие как версии 6, HBv5 и HBv6.
  • Поддержка ARM64

    • Azure CycleCloud и Jetpack поддерживают узлы ARM64 и образы ARM64, если тип кластера обеспечивает поддержку ARM64. В настоящее время только тип кластера Slurm обеспечивает встроенную поддержку ARM64.
    • Пакеты ARM64 для Jetpack доступны для установки в пользовательских образах.
  • Azure CycleCloud теперь предоставляет Reimage и Restart действия на узлах масштабируемого набора виртуальных машин для восстановления и ремонта узлов.

  • Новые Restart и Reimage действия доступны с помощью новых REST API Azure CycleCloud: /clusters/{cluster}/nodes/restart и /clusters/{cluster}/nodes/reimage.

  • Теперь массивы узлов Azure CycleCloud поддерживают присоединение готовых масштабируемых наборов виртуальных машин (также известных как перенос собственных масштабируемых наборов виртуальных машин), задав новый PredefinedScaleSetId атрибут узла.

  • Узлы Linux можно настроить для запуска без устаревшей платформы Chef для узлов, для которых не требуется Chef.

  • Chef по умолчанию отключен для новых кластеров Slurm, если не требуется для определенных конфигураций узлов.

  • Все подключения файловой системы для узлов кластера теперь фиксируются в /etc/fstab. Это изменение гарантирует правильное подключение файловых систем при перезагрузке.

  • Теперь узлы Linux привязывают временный каталог (/tmp) к каталогу, созданному на эфемерном диске (если тип компьютера предоставляет временный диск) для уменьшения использования диска ОС.

  • Azure CycleCloud поддерживает Blobfuse2 в качестве типа подключения в шаблонах кластеров.

  • При изменении параметров конфигурации узла в запущенных кластерах можно применить изменения к запущенным узлам, выполнив команду рековержирования на узлах.

  • Azure CycleCloud теперь использует API вычислений Azure RP версии 2024-11-01.

Устраненные проблемы

  • Форматирование пользовательского интерфейса Azure CycleCloud затрудняло интерпретацию ошибок.
  • /c/{cluster_name} URL-адрес для прямой ссылки на кластеры в интерфейсе перенаправлял на пустую страницу для неавторизованных пользователей.
  • Ошибки Cloud-init сообщались правильно.
  • Сбои cloud-init не отличали ошибки пользовательского скрипта от ошибок на уровне образа.
  • Команда azslurm nodes CLI иногда завершалась ошибкой и показывала сообщение: "отсутствующий параметр 'buckets'."
  • При использовании пользователей, не являющихся корневыми пользователями, смена журналов для azslurm интерфейса командной строки завершилась ошибкой из-за владения файлами журнала и разрешений пользователей.
  • Кластеры Azure CycleCloud Slurm хранят частные IP-адреса в данных узла Slurm. Эта проблема привела к тому, что Slurm отклоняет узлы в определенных условиях.
  • Пользовательский интерфейс Azure CycleCloud потерял активный выбор кластера при обновлении Issues панели.
  • Переключатель Keep Alive в отчете о состоянии узла не работал.
  • Нажатие клавиши Enter на странице входа не привело к отправке формы аутентификации.
  • Выбор оболочки по умолчанию в Linux был несогласован для различных образов ОС.
  • Команда jetpack users CLI не предоставляет выходных данных для некоторых типов кластеров.
  • Сбой установки Интерфейса командной строки Azure CycleCloud в macOS.
  • Команда jetpack report_issue CLI не смогла отправить созданный пакет журналов.
  • Использование Azure CLI az vm run-command на узле Azure CycleCloud привело к тому, что Azure CycleCloud помечает узел как неисправный с сообщением :"Произошла непредвиденная ошибка".
  • Обновление кластера может завершиться неудачей и сообщить о "несоответствии атрибутов" для атрибутов массива узлов TerminateNotificationTimeout и MaxPrice, даже если значение не изменено.
  • Azure сообщила о неправильном количестве GPU и размере памяти для GB200, и эти неверные данные были отражены в данных системы Azure CycleCloud для планирования.
  • Azure CycleCloud вызвал исключение при создании узла, если атрибут StartTime не был задан в записи узла.
  • Иногда узлы кластера не удавалось повторно конвергировать после выполнения Reimage операции, потому что файлы маркеров инициализации кластера, хранящиеся на эфемерном диске узла, не удалялись этой операцией.

Кардинальные изменения

  • Пакет Jetpack теперь устанавливается по умолчанию для пользовательских образов.
    • Чтобы вернуться к старому поведению, установите InstallJetpack=false на узле в шаблоне кластера.
  • Кластер Azure CycleCloud Slurm теперь по умолчанию ReturnProxy=false.
    • Чтобы вернуться к исходному поведению, задайте ReturnProxy параметр во true время создания кластера.
  • Для повышения безопасности по умолчанию кластеры Azure CycleCloud Slurm теперь отключают общедоступные IP-адреса по умолчанию.
    • Чтобы вернуться к исходному поведению, задайте параметр UsePublicNetwork при создании кластера true.

Известные проблемы

  • Новые Restart и Reimage действия доступны только для узлов в массивах узлов (экземпляры масштабируемого набора виртуальных машин). Отдельные узлы (индивидуальные виртуальные машины) пока не поддерживают Restart или Reimage. Для отдельных узлов используйте портал Azure или Azure CLI для перезапуска или повторного создания виртуальной машины.
  • Не удается достичь сходимости типа кластера HPC Pack в Azure CycleCloud.