Справочник по настройке кластера Kubernetes для Машинного обучения Azure
В этой статье содержатся справочные сведения о настройке Kubernetes с помощью Машинное обучение Azure.
Поддерживаемая версия и регион Kubernetes
Кластеры Kubernetes, устанавливающие расширение Машинное обучение Azure, имеют окно поддержки версий N-2, которое соответствует политике поддержки версий Служба Azure Kubernetes (AKS), где N является последней дополнительной версией общедоступной версии Служба Azure Kubernetes.
Например, если AKS сегодня вводит значение 1,20.a, это значит, что поддерживаются версии 1,20.a, 1,20.b, 1.19.c, 1.19.d, 1.18.e и 1.18.f.
Если клиенты выполняют неподдерживаемую версию Kubernetes, им предлагается обновиться при запросе поддержки кластера. Кластеры под управлением неподдерживаемых выпусков Kubernetes не охватываются политиками поддержки расширений Машинное обучение Azure.
доступность региона расширения Машинное обучение Azure:
- расширение Машинное обучение Azure можно развернуть в AKS или Kubernetes с поддержкой Azure Arc в поддерживаемых регионах, перечисленных в Поддержка региона Kubernetes с поддержкой Azure Arc.
Рекомендуемое планирование ресурсов
При развертывании расширения Машинное обучение Azure некоторые связанные службы развертываются в кластере Kubernetes для Машинное обучение Azure. В следующей таблице перечислены связанные службы и их использование ресурсов в кластере:
Deploy/Daemonset | Копия # | Обучение | Вывод | Запрос ЦП(m) | Ограничение ЦП(m) | Запрос памяти (Mi) | Ограничение памяти (Mi) |
---|---|---|---|---|---|---|---|
metrics-controller-manager | 1 | ✓ | ✓ | 10 | 100 | 20 | 300 |
prometheus-operator | 1 | ✓ | ✓ | 100 | 400 | 128 | 512 |
Прометей | 1 | ✓ | ✓ | 100 | 1000 | 512 | 4096 |
метрики kube-state-metrics | 1 | ✓ | ✓ | 10 | 100 | 32 | 256 |
шлюз | 1 | ✓ | ✓ | 50 | 500 | 256 | 2048 |
fluent-bit | 1 на узел | ✓ | ✓ | 10 | 200 | 100 | 300 |
inference-operator-controller-manager | 1 | ✓ | Н/П | 100 | 1000 | 128 | 1024 |
amlarc-identity-controller | 1 | ✓ | Н/П | 200 | 1000 | 200 | 1024 |
amlarc-identity-proxy | 1 | ✓ | Н/П | 200 | 1000 | 200 | 1024 |
azureml-ingress-nginx-controller | 1 | ✓ | Н/П | 100 | 1000 | 64 | 512 |
azureml-fe-v2 | 1 (для тестирования) или 3 (для рабочей цели) |
✓ | Н/П | 900 | 2000 | 800 | 1200 |
онлайн-развертывание | 1 на развертывание | Создано пользователем | Н/П | <определяемые пользователем> | <определяемые пользователем> | <определяемые пользователем> | <определяемые пользователем> |
онлайн-развертывание/удостоверений | 1 на развертывание | ✓ | Н/П | 10 | 50 | 100 | 100 |
AML-оператор | 1 | Н/П | ✓ | 20 | 1020 | 124 | 2168 |
volcano-admission | 1 | Н/П | ✓ | 10 | 100 | 64 | 256 |
контроллер вулкана | 1 | Н/П | ✓ | 50 | 500 | 128 | 512 |
вулкан-шedular | 1 | Н/П | ✓ | 50 | 500 | 128 | 512 |
Кроме собственных развертываний и модулей pod, общие минимальные требования к системным ресурсам приведены следующим образом:
Сценарий | Включенная вывод | Обучение с поддержкой | Запрос ЦП(m) | Ограничение ЦП(m) | Запрос памяти (Mi) | Ограничение памяти (Mi) | Число узлов | Рекомендуемый минимальный размер виртуальной машины | Соответствующий номер SKU виртуальной машины AKS |
---|---|---|---|---|---|---|---|---|---|
Тестирование | ✓ | Н/П | 1780 | 8300 | 2440 | 12296 | 1 узел | 2 виртуальных ЦП, 7 ГиБ памяти, 6400 операций ввода-вывода в секунду, 1500 Мбит/с BW | DS2v2 |
Тестирование | Н/П | ✓ | 410 | 4420 | 1492 | 10960 | 1 узел | 2 виртуальных ЦП, 7 ГиБ памяти, 6400 операций ввода-вывода в секунду, 1500 Мбит/с BW | DS2v2 |
Тестирование | ✓ | ✓ | 1910 | 10420 | 2884 | 15744 | 1 узел | 4 виртуальных ЦП, 14 ГиБ памяти, 12800 операций ввода-вывода в секунду, 1500 Мб в секунду BW | DS3v2 |
Рабочая среда | ✓ | Н/П | 3600 | 12700 | 4240 | 15296 | 3 узла | 4 виртуальных ЦП, 14 ГиБ памяти, 12800 операций ввода-вывода в секунду, 1500 Мб в секунду BW | DS3v2 |
Рабочая среда | Н/П | ✓ | 410 | 4420 | 1492 | 10960 | 1 Узлы | 8 виртуальных ЦП, 28GiB Memroy, 25600 операций ввода-вывода в секунду, 6000 Мбит/с BW | DS4v2 |
Рабочая среда | ✓ | ✓ | 3730 | 14820 | 4684 | 18744 | 3 узла | 4 виртуальных ЦП, 14 ГиБ памяти, 12800 операций ввода-вывода в секунду, 1500 Мб в секунду BW | DS4v2 |
Примечание.
- Для тестирования следует ссылаться на запрос ресурса tp.
- Для рабочей цели следует ссылаться на ограничение ресурсов.
Внимание
Ниже приведены некоторые другие рекомендации по использованию:
- Для повышения пропускной способности сети и повышения производительности операций ввода-вывода диска рекомендуется более крупный номер SKU.
- Возьмите DV2/DSv2 в качестве примера, используя большой номер SKU, может сократить время извлечения изображения для повышения производительности сети или хранилища.
- Дополнительные сведения о резервировании AKS можно найти в резервировании AKS.
- Если вы используете кластер AKS, вам может потребоваться рассмотреть вопрос об ограничении размера образа контейнера в AKS, дополнительные сведения можно найти в ограничении размера образа контейнера AKS.
Предварительные требования для кластеров ARO или OCP
Отключение расширенной системы безопасности Linux (SELinux)
Машинное обучение Azure набор данных (компонент SDK версии 1, используемый в заданиях обучения Машинное обучение Azure), не поддерживается на компьютерах с поддержкой SELinux. Поэтому для использования Машинное обучение Azure набора данных необходимо отключить selinux
все рабочие роли.
Привилегированная настройка для ARO и OCP
Для развертывания расширений Машинное обучение Azure в кластере ARO или OCP предоставьте привилегированный доступ к учетным записям службы Машинное обучение Azure, выполните oc edit scc privileged
команду и добавьте следующие учетные записи службы в разделе "пользователи:":
system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
system:serviceaccount:azureml:prom-admission
system:serviceaccount:azureml:default
system:serviceaccount:azureml:prom-operator
system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
system:serviceaccount:azureml:azureml-fe-v2
system:serviceaccount:azureml:prom-prometheus
system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
system:serviceaccount:azureml:azureml-ingress-nginx
system:serviceaccount:azureml:azureml-ingress-nginx-admission
Примечание.
{EXTENSION-NAME}
: имя расширения, указанное в команде CLIaz k8s-extension create --name
.{KUBERNETES-COMPUTE-NAMESPACE}
: пространство имен вычислений Kubernetes, указанное при присоединении вычислений к рабочей области Машинного обучения Azure. Пропустите настройкуsystem:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
, если дляKUBERNETES-COMPUTE-NAMESPACE
задано значениеdefault
.
Собранные сведения о журнале
Некоторые журналы о Машинное обучение Azure рабочих нагрузок в кластере будут собираться с помощью компонентов расширения, таких как состояние, метрики, жизненный цикл и т. д. В следующем списке показаны все собранные сведения о журнале, включая тип собранных журналов и место их отправки или хранения.
Объект pod | Описание ресурса | Подробные сведения о ведении журнала |
---|---|---|
amlarc-identity-controller | Запрос и продление токена BLOB-объекта Azure/Реестра контейнеров Azure с помощью управляемого удостоверения. | Используется enableInference=true только при установке расширения. Он содержит журналы трассировки для получения удостоверения конечных точек для проверки подлинности с помощью службы Машинное обучение Azure. |
amlarc-identity-proxy | Запрос и продление токена BLOB-объекта Azure/Реестра контейнеров Azure с помощью управляемого удостоверения. | Используется enableInference=true только при установке расширения. В нем есть журналы трассировки для получения удостоверения для кластера для проверки подлинности с помощью службы Машинное обучение Azure. |
AML-оператор | Управление жизненным циклом учебных заданий. | Журналы содержат Машинное обучение Azure состояние pod задания обучения в кластере. |
azureml-fe-v2 | Интерфейсный компонент, который направляет входящие запросы вывода в развернутые службы. | Доступ к журналам на уровне запроса, включая идентификатор запроса, время начала, код ответа, сведения об ошибке и длительность задержки запроса. Журналы трассировки для изменений метаданных службы, работоспособности службы и т. д. для целей отладки. |
шлюз | Шлюз используется для взаимодействия и обмена данными. | Журналы трассировки запросов из служб Машинное обучение Azure в кластеры. |
Проверка работоспособности | -- | Журналы содержат azureml состояние ресурса пространства имен (Машинное обучение Azure расширения) для диагностики того, что расширение не работает. |
inference-operator-controller-manager | Управление жизненным циклом конечных точек вывода. | Журналы содержат Машинное обучение Azure конечную точку вывода и состояние модуля pod развертывания в кластере. |
metrics-controller-manager | Управление конфигурацией для Prometheus. | Журналы трассировки для отправки заданий обучения и метрик развертывания вывода по использованию ЦП и использованию памяти. |
сервер ретранслятора | Сервер ретранслятора необходим только в кластере, подключенном к arc, и не будет установлен в кластере AKS. | Сервер ретрансляции работает с Azure Relay для взаимодействия с облачными службами. Журналы содержат сведения о уровне запроса из ретранслятора Azure. |
Машинное обучение Azure задания подключаются к пользовательскому хранилищу данных
Постоянный том (PV) и утверждение постоянного тома (PVC) — это концепция Kubernetes, позволяющая пользователю предоставлять и применять различные ресурсы хранилища.
- Создайте PV, взяв NFS в качестве примера
apiVersion: v1
kind: PersistentVolume
metadata:
name: nfs-pv
spec:
capacity:
storage: 1Gi
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
storageClassName: ""
nfs:
path: /share/nfs
server: 20.98.110.84
readOnly: false
- Создайте PVC в том же пространстве имен Kubernetes с рабочими нагрузками Машинного обучения. В
metadata
этом случае необходимо добавить меткуml.azure.com/pvc: "true"
для распознавания Машинное обучение Azure и добавить заметкуml.azure.com/mountpath: <mount path>
, чтобы задать путь подключения.
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: nfs-pvc
namespace: default
labels:
ml.azure.com/pvc: "true"
annotations:
ml.azure.com/mountpath: "/mnt/nfs"
spec:
storageClassName: ""
accessModes:
- ReadWriteMany
resources:
requests:
storage: 1Gi
Внимание
- Только задание или компонент команды, задание или компонент hyperdrive и пакетное развертывание поддерживают пользовательское хранилище данных из ПВХ. > * Конечная точка в режиме реального времени, задание AutoML и PRS не поддерживают пользовательское хранилище данных из ПВХ.
- Кроме того, только модули pod в том же пространстве имен Kubernetes с ПВХ будут подключены. Специалист по обработке и анализу данных может получить доступ к
mount path
, указанному в заметке PVC в задании. Задание AutoML и задание Prs не будут иметь доступа к ПВХ.
Поддерживаемые ограничения и разрешения Машинного обучения Azure
Tint и Toleration — это основные понятия Kubernetes, которые работают вместе, чтобы гарантировать, что модули pod не запланированы на неуместные узлы.
Кластеры Kubernetes, интегрированные с Машинное обучение Azure (включая кластеры AKS и Arc Kubernetes), теперь поддерживают определенные Машинное обучение Azure тонации и терпимости, что позволяет пользователям добавлять определенные Машинное обучение Azure тоны на них. Машинное обучение Azure выделенные узлы, чтобы предотвратить планирование рабочих нагрузок без Машинное обучение Azure на эти выделенные узлы.
Мы поддерживаем размещение на узлах только определенных идентификаторов amlarc, которые определяются следующим образом:
Душок | Ключ | Значение | Действие | Description |
---|---|---|---|---|
Amlarc в целом | ml.azure.com/amlarc | true | NoSchedule , NoExecute или PreferNoSchedule |
Все Машинное обучение Azure рабочие нагрузки, включая модули pod службы расширений и модули pod рабочей нагрузки машинного обучения, будут терпеть этот amlarc overall оттенок. |
система amlarc | ml.azure.com/amlarc-system | true | NoSchedule , NoExecute или PreferNoSchedule |
Только Машинное обучение Azure модули pod систем расширения будут терпеть этот amlarc system оттенок. |
Рабочая нагрузка amlarc | ml.azure.com/amlarc-workload | true | NoSchedule , NoExecute или PreferNoSchedule |
Только модули pod рабочей нагрузки машинного обучения будут терпеть этот amlarc workload оттенок. |
Группа ресурсов amlarc | ml.azure.com/resource-group | <Имя группы ресурсов> | NoSchedule , NoExecute или PreferNoSchedule |
Только модули pod рабочей нагрузки машинного обучения, созданные из конкретной группы ресурсов, будут терпеть этот amlarc resource group оттенок. |
Рабочая область amlarc | ml.azure.com/workspace | <Имя рабочей области> | NoSchedule , NoExecute или PreferNoSchedule |
Только модули pod рабочей нагрузки машинного обучения, созданные из конкретной рабочей области, будут допускать этот amlarc workspace оттенок. |
вычисление amlarc | ml.azure.com/compute | <имя вычислений> | NoSchedule , NoExecute или PreferNoSchedule |
Только модули pod рабочей нагрузки машинного обучения, созданные с определенным целевым целевым объектом вычислений, будут допускать этот amlarc compute оттенок. |
Совет
- Для Служба Azure Kubernetes(AKS) можно выполнить пример в статье "Рекомендации по расширенным функциям планировщика" в Служба Azure Kubernetes (AKS), чтобы применить фрагменты к пулам узлов.
- Для кластеров Arc Kubernetes, таких как локальные кластеры Kubernetes, можно использовать
kubectl taint
команду для добавления запятых к узлам. Дополнительные примеры см. в документации Kubernetes.
Рекомендации
В соответствии с требованиями к планированию выделенных Машинное обучение Azure узлов можно добавить несколько тонов, относящихся к amlarc, чтобы ограничить то, что Машинное обучение Azure рабочие нагрузки могут выполняться на узлах. Мы перечислим рекомендации по использованию амларковых оттенков:
- Чтобы не Машинное обучение Azure рабочие нагрузки выполнялись на выделенных Машинное обучение Azure узлах или пулах узлов, можно просто добавить их в
aml overall
эти узлы. - Чтобы предотвратить запуск модулей pod, не относящихся к системе, на Машинное обучение Azure выделенных узлах или пулах узлов, необходимо добавить следующие фрагменты:
amlarc overall
душокamlarc system
душок
- Чтобы предотвратить выполнение рабочих нагрузок, отличных от машинного обучения, на выделенных Машинное обучение Azure узлах или пулах узлов, необходимо добавить следующие фрагменты:
amlarc overall
душокamlarc workloads
душок
- Чтобы предотвратить работу рабочих нагрузок, не созданных из рабочей области X, на Машинное обучение Azure выделенных узлах или пулах узлов необходимо добавить следующие фрагменты:
amlarc overall
душокamlarc resource group (has this <workspace X>)
душокamlarc <workspace X>
душок
- Чтобы предотвратить работу рабочих нагрузок, не созданных целевым объектом вычислений X, на выделенных Машинное обучение Azure узлах или пулах узлов необходимо добавить следующие фрагменты:
amlarc overall
душокamlarc resource group (has this <workspace X>)
душокamlarc workspace (has this <compute X>)
душокamlarc <compute X>
душок
Интеграция другого контроллера входящего трафика с расширением Машинное обучение Azure по протоколу HTTP или HTTPS
Помимо Машинное обучение Azure по умолчанию подсистема балансировки нагрузки azureml-fe по умолчанию, можно также интегрировать другие подсистемы балансировки нагрузки с расширением Машинное обучение Azure по протоколу HTTP или HTTPS.
В этом руководстве показано, как интегрировать контроллер входящего трафика Nginx или Шлюз приложений Azure.
Необходимые компоненты
- Разверните расширение Машинное обучение Azure с
inferenceRouterServiceType=ClusterIP
помощью иallowInsecureConnections=True
, чтобы контроллер Ingress Nginx сам может обрабатывать завершение TLS, а не передавать его в azureml-fe, когда служба предоставляется по протоколу HTTPS. - Для интеграции с контроллером Ingress Nginx требуется настройка кластера Kubernetes с контроллером Ingress Nginx.
- Создайте базовый контроллер: если вы начинаете с нуля, ознакомьтесь с этими инструкциями.
- Для интеграции с Шлюз приложений Azure требуется настройка кластера Kubernetes с Шлюз приложений Azure контроллером входящего трафика.
- Развертывание Greenfield: если вы начинаете с нуля, ознакомьтесь с этими инструкциями.
- Развертывание Brownfield: если у вас есть существующий кластер AKS и Шлюз приложений, ознакомьтесь с этими инструкциями.
- Если вы хотите использовать HTTPS в этом приложении, вам нужен сертификат x509 и его закрытый ключ.
Предоставление служб по протоколу HTTP
Чтобы предоставить azureml-fe, мы будем использовать следующий ресурс входящего трафика:
# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
name: azureml-fe
namespace: azureml
spec:
ingressClassName: nginx
rules:
- http:
paths:
- path: /
backend:
service:
name: azureml-fe
port:
number: 80
pathType: Prefix
Эта входящий трафик предоставляет azureml-fe
службу и выбранное развертывание в качестве серверной части контроллера входящего трафика Nginx по умолчанию.
# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
name: azureml-fe
namespace: azureml
spec:
ingressClassName: azure-application-gateway
rules:
- http:
paths:
- path: /
backend:
service:
name: azureml-fe
port:
number: 80
pathType: Prefix
Эта входящий трафик предоставляет azureml-fe
службу и выбранное развертывание в качестве серверной части Шлюз приложений по умолчанию.
Сохраните указанный выше ресурс входящего трафика как ing-azureml-fe.yaml
.
Разверните
ing-azureml-fe.yaml
, выполнив следующую команду:kubectl apply -f ing-azureml-fe.yaml
Проверьте состояние развертывания в журнале контроллера объекта ingress.
Теперь приложение
azureml-fe
должно быть доступно. Вы можете проверить, посетите:- Контроллер входящего трафика Nginx: общедоступный адрес LoadBalancer контроллера Ingress Nginx
- Шлюз приложений Azure: общедоступный адрес Шлюз приложений.
Создайте задание вывода и вызов.
Примечание.
Замените IP-адрес в scoring_uri общедоступным адресом LoadBalancer контроллера Ingress Nginx перед вызовом.
Предоставление служб по протоколу HTTPS
Прежде чем развертывать объект ingress, необходимо создать секрет Kubernetes для размещения сертификата и закрытого ключа. Чтобы создать секрет Kubernetes, выполните следующую команду:
kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
Задайте указанные ниже параметры входящего трафика. В параметрах входящего трафика укажите имя секрета в разделе
secretName
.# Nginx Ingress Controller example apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: azureml-fe namespace: azureml spec: ingressClassName: nginx tls: - hosts: - <domain> secretName: <ingress-secret-name> rules: - host: <domain> http: paths: - path: / backend: service: name: azureml-fe port: number: 80 pathType: Prefix
# Azure Application Gateway example apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: azureml-fe namespace: azureml spec: ingressClassName: azure-application-gateway tls: - hosts: - <domain> secretName: <ingress-secret-name> rules: - host: <domain> http: paths: - path: / backend: service: name: azureml-fe port: number: 80 pathType: Prefix
Примечание.
Замените
<domain>
и<ingress-secret-name>
в приведенном выше ресурсе входящего трафика доменом, указывающим на LoadBalancer контроллера входящего трафика Nginx/Шлюз приложений и имя секрета. Сохраните указанный выше ресурс входящего трафика в файла под названиемing-azureml-fe-tls.yaml
.Развертывание ing-azureml-fe-tls.yaml путем выполнения
kubectl apply -f ing-azureml-fe-tls.yaml
Проверьте состояние развертывания в журнале контроллера объекта ingress.
Теперь приложение доступно по протоколу
azureml-fe
HTTPS. Это можно проверить, перейдя по общедоступному адресу LoadBalancer контроллера Ingress Nginx.Создайте задание вывода и вызов.
Примечание.
Замените протокол и IP-адрес в scoring_uri https и доменом, указывающим на LoadBalancer контроллера входящего трафика Nginx или Шлюз приложений перед вызовом.
Использование шаблона ARM для развертывания расширения
Расширение в управляемом кластере можно развернуть с помощью шаблона ARM. Пример шаблона можно найти из deployextension.json с помощью демонстрационного файла параметров deployextension.parameters.json
Чтобы использовать пример шаблона развертывания, измените файл параметров с правильным значением, а затем выполните следующую команду:
az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json
Дополнительные сведения об использовании шаблона ARM см. в документации по шаблону ARM.
Примечание о выпуске расширения AzuremML
Примечание.
Новые возможности выпускаются в календаре двухнедельного календаря.
Дата | Версия | Описание версии |
---|---|---|
26 сентября 2024 г. | 1.1.64 | Исправлены уязвимости. |
21 ноября 2023 г. | 1.1.39 | Исправлены уязвимости. Уточненное сообщение об ошибке. Повышенная стабильность для API ретранслятора. |
1 ноября 2023 г. | 1.1.37 | Обновите версию посланника плоскости данных. |
11 октября 2023 г. | 1.1.35 | Исправлено уязвимое изображение. Исправления ошибок. |
25 августа 2023 г. | 1.1.34 | Исправлено уязвимое изображение. Возвращает более подробную ошибку удостоверения. Исправления ошибок. |
18 июля 2023 г. | 1.1.29 | Добавьте новые ошибки оператора удостоверений. Исправления ошибок. |
4 июня 2023 г. | 1.1.28 | Улучшение автоматического масштабирования для обработки нескольких пулов узлов. Исправления ошибок. |
18 апреля 2023 г. | 1.1.26 | Исправление ошибок и исправление уязвимостей. |
27 марта 2023 г. | 1.1.25 | Добавьте Машинное обучение Azure регулирование задания. Быстрый сбой для задания обучения при сбое установки SSH. Уменьшите интервал слома Prometheus до 30-х. Улучшение сообщений об ошибках для вывода. Исправлено уязвимое изображение. |
7 марта 2023 г. | 1.1.23 | Измените тип экземпляра по умолчанию, чтобы использовать память 2Gi. Обновите конфигурации метрик для оценки fe, которые добавляют 15s scrape_interval. Добавьте спецификацию ресурсов для бокового автомобиля mdc. Исправлено уязвимое изображение. Исправления ошибок. |
14 февраля 2023 г. | 1.1.21 | Исправления ошибок. |
7 февраля 2023 г. | 1.1.19 | Улучшение сообщения об ошибке для вывода. Обновите тип экземпляра по умолчанию, чтобы использовать ограничение памяти 2Gi. Проверьте работоспособность кластера, квоту ресурсов, версию Kubernetes и версию расширения. Исправления ошибок |
27 декабря 2022 г. | 1.1.17 | Переместите бит Fluent из DaemonSet в боковики. Добавьте поддержку MDC. Уточнение сообщений об ошибках. Поддержка заданий в режиме кластера (windows, linux). Исправления ошибок |
29 ноября 2022 г. | 1.1.16 | Добавьте проверку типа экземпляра новым CRD. Поддержка допустимости. Сокращено имя SVC. Основной час рабочей нагрузки. Несколько исправлений ошибок и улучшений. |
13 сентября 2022 г. | 1.1.10 | Исправления ошибок. |
29 августа 2022 г. | 1.1.9 | Улучшена логика проверки работоспособности. Исправления ошибок. |
23 июня 2022 г. | 1.1.6 | Исправления ошибок. |
15 июня 2022 г. | 1.1.5 | Обновлено обучение, чтобы использовать новую общую среду выполнения для выполнения заданий. Удалено использование Azure Relay для расширения AKS. Удалено использование служебной шины из расширения. Обновлено использование контекста безопасности. Обновлено определение azureml-fe до версии 2. Обновлено, чтобы использовать вулкан в качестве планировщика заданий обучения. Исправления ошибок. |
14 октября 2021 г. | 1.0.37 | Поддержка подключения томов PV/PVC в задании обучения AMLArc. |
16 сентября 2021 г. | 1.0.29 | Новые регионы доступны, WestUS, CentralUS, NorthCentralUS, KoreaCentralral. Расширяемость очереди заданий. Дополнительные сведения о очереди заданий см. в Машинное обучение Azure Workspace Studio. Политика автоматического убийства. Поддержка max_run_duration_seconds в ScriptRunConfig. Система пытается автоматически отменить выполнение, если оно заняло больше времени, чем значение параметра. Повышение производительности для поддержки автоматического масштабирования кластера. Развертывание агента Arc и расширения машинного обучения из локального реестра контейнеров. |
24 августа 2021 г. | 1.0.28 | Тип вычислительного экземпляра поддерживается в задании YAML. Назначьте управляемое удостоверение вычислению AMLArc. |
10 августа 2021 г. | 1.0.20 | Новая поддержка распространения Kubernetes, K3S — упрощенная версия Kubernetes. Разверните расширение Машинное обучение Azure в кластере AKS без подключения через Azure Arc. Автоматическая Машинное обучение (AutoML) с помощью пакета SDK для Python. Используйте интерфейс командной строки 2.0, чтобы подключить кластер Kubernetes к Машинное обучение Azure рабочей области. Оптимизируйте использование ресурсов ЦП и памяти Машинное обучение Azure компонентов расширения. |
2 июля 2021 г. | 1.0.13 | Новые дистрибутивы Kubernetes, OpenShift Kubernetes и GKE (Google Kubernetes Engine). Поддержка автомасштабирования. Если управляемый пользователем кластер Kubernetes включает автоматическое масштабирование, кластер автоматически масштабируется или масштабируется в соответствии с объемом активных запусков и развертываний. Улучшение производительности средства запуска заданий, что сокращает время выполнения задания на большое количество. |