Поделиться через


Создание хранилищ данных

ОБЛАСТЬ ПРИМЕНЕНИЯ:ML-расширение Azure CLI версии 2 (текущая версия)Python SDK azure-ai-ml версии 2 (текущая версия)

Из этой статьи вы узнаете, как подключиться к службам хранилища данных Azure с помощью хранилищ данных Машинного обучения Azure.

Предварительные требования

Подсказка

Примеры кода SDK для Python в этой статье используют MLClient.from_config(), для которого необходим файл config.json в вашем текущем каталоге или родительском каталоге. Скачайте этот файл на портале Azure: зайдите в рабочую область, а затем выберите Обзор>Загрузить config.json. Кроме того, можно создать MLClient вручную:

ml_client = MLClient(
    credential=DefaultAzureCredential(),
    subscription_id="<your-subscription-id>",
    resource_group_name="<your-resource-group>",
    workspace_name="<your-workspace-name>",
)

Примечание.

Хранилища данных машинного обучения не создают базовые ресурсы учетной записи хранения. Вместо этого они связывают существующую учетную запись хранения для использования машинного обучения. Каждый тип хранилища данных (BLOB-объект Azure, ADLS 2-го поколения, Файлы Azure, OneLake) создается независимо. Порядок разделов в этой статье не представляет собой необходимую последовательность шагов.

Создайте хранилище Blob Azure

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

Создание хранилища данных Azure Data Lake Storage 2-го поколения

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Создание хранилища данных Файлов Azure

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "aaaaaaaa-0b0b-1c1c-2d2d-333333333333"
    ),
)

ml_client.create_or_update(store)

Создание хранилища данных azure Data Lake Storage 1-го поколения

Это важно

Azure Data Lake Storage Gen1 был выведен из эксплуатации 29 февраля 2024 года. Вы не можете создать новые учетные записи 1-го поколения, а существующие ресурсы 1-го поколения больше не доступны. Следующее содержимое предоставляется только для справки. Для новых хранилищ данных используйте Azure Data Lake Storage 2-го поколения . Дополнительные сведения о переносе существующих данных см. в статье "Миграция Azure Data Lake Storage из 1-го поколения в 2-го поколения".

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

Создание хранилища данных OneLake (Microsoft Fabric) (предварительная версия)

В этом разделе описаны различные параметры создания хранилища данных OneLake. Хранилище данных OneLake является частью Microsoft Fabric. В настоящее время Машинное обучение поддерживает подключение к артефактам Microsoft Fabric lakehouse в папке "Файлы", которая включает папки или файлы и сочетания клавиш Amazon S3. Дополнительные сведения о озерах см. в статье "Что такое озеро в Microsoft Fabric?".

Для создания хранилища данных OneLake требуются следующие сведения из экземпляра Microsoft Fabric:

  • Конечная точка
  • GUID рабочей области
  • GUID артефакта

На следующих снимках экрана описано, как получить эти необходимые информационные ресурсы из экземпляра Microsoft Fabric.

Снимок экрана, на котором показано, как зайти в свойства артефакта рабочей области Microsoft Fabric в пользовательском интерфейсе Microsoft Fabric.

На странице "Свойства" можно найти "Endpoint", "Workspace GUID" и "Artifact GUID" в "URL" и "ABFS path".

  • Формат URL-адреса: https://{your_one_lake_endpoint}///Files
  • Формат пути ABFS: abfss://{your_one_lake_workspace_guid}@//Files

Снимок экрана: URL-адрес и путь ABFS артефакта OneLake в пользовательском интерфейсе Microsoft Fabric.

Создание хранилища данных OneLake

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to a Microsoft fabric artifact.",
    one_lake_workspace_name="bbbbbbbb-7777-8888-9999-cccccccccccc", #{your_one_lake_workspace_guid}
    endpoint="msit-onelake.dfs.fabric.microsoft.com", #{your_one_lake_endpoint}
    artifact=OneLakeArtifact(
        name="cccccccc-8888-9999-0000-dddddddddddd/Files", #{your_one_lake_artifact_guid}/Files
        type="lake_house"
    )
)

ml_client.create_or_update(store)

Следующие шаги