Поделиться через


Datastore Класс

Представляет абстракцию хранилища для учетной записи хранения Машинного обучения Azure.

Хранилища данных подключаются к рабочим областям и используются для хранения сведений о подключении к службам хранилища Azure, чтобы можно было ссылаться на них по имени, не запоминая сведения о подключении и секреты, используемые для подключения к службам хранилища.

Примеры поддерживаемых служб хранилища Azure, которые можно зарегистрировать в качестве хранилищ данных:

  • контейнер BLOB-объектов Azure;

  • Общая папка Azure

  • Azure Data Lake

  • Azure Data Lake 2-го поколения

  • База данных SQL Azure

  • База данных Azure для PostgreSQL

  • Файловая система Databricks

  • База данных Azure для MySQL

Этот класс используется для выполнения операций управления, включая регистрацию, вывод списка, получение и удаление хранилищ данных. Хранилища данных для каждой службы создаются с помощью методов register* этого класса. Для доступа к данным с использованием хранилища необходимо иметь соответствующее разрешение, которое зависит от учетных данных, зарегистрированных в этом хранилище.

Дополнительные сведения о хранилищах данных и способах их использования в машинном обучении см. в следующих статьях:

Возвращает хранилище данных по имени. Этот вызов выполнит запрос к службе хранилища данных.

Наследование
builtins.object
Datastore

Конструктор

Datastore(workspace, name=None)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

name
str, <xref:optional>

Имя хранилища данных по умолчанию имеет значение None, которое получает хранилище данных по умолчанию.

Default value: None

Комментарии

Для взаимодействия с данными в хранилищах данных для задач машинного обучения, таких как обучение, создайте набор данных Машинного обучения Azure. Наборы данных предоставляют функции, которые загружают табличные данные в таблицу данных Pandas или Spark. Кроме того, наборы данных позволяют скачивать или подключать файлы любого формата из хранилища BLOB-объектов Azure, Файлов Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, базы данных SQL Azure и базы данных Azure для PostgreSQL. Узнайте больше об обучении с наборами данных.

В следующем примере показано, как создавать хранилище данных, подключенное к контейнеру BLOB-объектов Azure.


   # from azureml.exceptions import UserErrorException
   #
   # blob_datastore_name='MyBlobDatastore'
   # account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   # container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   # account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
   #
   # try:
   #     blob_datastore = Datastore.get(ws, blob_datastore_name)
   #     print("Found Blob Datastore with name: %s" % blob_datastore_name)
   # except UserErrorException:
   #     blob_datastore = Datastore.register_azure_blob_container(
   #         workspace=ws,
   #         datastore_name=blob_datastore_name,
   #         account_name=account_name, # Storage account name
   #         container_name=container_name, # Name of Azure blob container
   #         account_key=account_key) # Storage account key
   #     print("Registered blob datastore with name: %s" % blob_datastore_name)
   #
   # blob_data_ref = DataReference(
   #     datastore=blob_datastore,
   #     data_reference_name="blob_test_data",
   #     path_on_datastore="testdata")

Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Методы

get

Возвращает хранилище данных по имени. Данное действие аналогично вызову конструктора.

get_default

Возвращает хранилище данных по умолчанию для рабочей области.

register_azure_blob_container

Регистрирует контейнер BLOB-объектов Azure в хранилище данных.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать маркер SAS или ключ учетной записи службы хранилища. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

register_azure_data_lake

Инициализирует новое хранилище данных озера данных Azure.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации озера данных Azure Gen1 в качестве хранилища данных.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Инициализирует новое хранилище данных озера данных Azure Gen2.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

register_azure_file_share

Регистрация общей папки Azure в качестве хранилища данных.

Можно выбрать использование маркера SAS или ключа учетной записи службы хранилища

register_azure_my_sql

Инициализирует новое хранилище данных Azure MySQL.

Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных для DataTransferStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.

register_azure_postgre_sql

Инициализирует новое хранилище данных Azure PostgreSQL.

Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.

register_azure_sql_database

Инициализирует новое хранилище данных Azure SQL.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать субъект-службу или имя пользователя + пароль. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных Azure SQL в качестве хранилища данных.

register_dbfs

Инициализирует новое хранилище данных Файловой системы Databricks (DBFS).

Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных для DatabricksStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

register_hdfs

Примечание

Это экспериментальный метод, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Инициализировать новое хранилище данных HDFS.

set_as_default

Устанавливает хранилище данных по умолчанию.

unregister

Отменяет регистрацию хранилища данных. базовая служба хранилища не будет удалена.

get

Возвращает хранилище данных по имени. Данное действие аналогично вызову конструктора.

static get(workspace, datastore_name)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

datastore_name
Обязательно
str, <xref:optional>

Имя хранилища данных по умолчанию имеет значение None, которое получает хранилище данных по умолчанию.

Возвращаемое значение

Тип Описание

Соответствующее хранилище данных для этого имени.

get_default

Возвращает хранилище данных по умолчанию для рабочей области.

static get_default(workspace)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

Возвращаемое значение

Тип Описание

Хранилище данных по умолчанию для рабочей области

register_azure_blob_container

Регистрирует контейнер BLOB-объектов Azure в хранилище данных.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать маркер SAS или ключ учетной записи службы хранилища. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

datastore_name
Обязательно
str

Имя хранилища данных может содержать только буквенно-цифровые символы и _ без учета регистра.

container_name
Обязательно
str

Имя контейнера BLOB-объектов Azure.

account_name
Обязательно
str

имя учетной записи хранения.

sas_token
str, <xref:optional>

Значение маркера SAS учетной записи по умолчанию — None. Для чтения данных требуются как минимум разрешения List & Чтение для контейнеров & объектов, а для записи данных — разрешения на запись & добавить.

Default value: None
account_key
str, <xref:optional>

Ключам доступа учетной записи хранения по умолчанию задано значение None.

Default value: None
protocol
str, <xref:optional>

Протокол, используемый для подключения к контейнеру BLOB-объектов. При значении None по умолчанию используется HTTPS.

Default value: None
endpoint
str, <xref:optional>

Конечная точка учетной записи хранения. При значении None по умолчанию используется core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

перезаписывает существующее хранилище данных. Если хранилище данных не существует, оно будет создано, значение по умолчанию — False

Default value: False
create_if_not_exists
bool, <xref:optional>

создает контейнер BLOB-объектов, если он не существует, значение по умолчанию — False

Default value: False
skip_validation
bool, <xref:optional>

пропускает проверку ключей хранилища, значение по умолчанию — False

Default value: False
blob_cache_timeout
int, <xref:optional>

При подключении этого BLOB-объекта установите время ожидания кэша на заданное количество секунд. При значении None по умолчанию используется значение без времени ожидания (т.е. BLOB-объекты будут кэшироваться на время выполнения задания при чтении).

Default value: None
grant_workspace_access
bool, <xref:optional>

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Default value: False
subscription_id
str, <xref:optional>

Идентификатор подписки учетной записи хранения, значение по умолчанию None.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов учетной записи хранения, значение по умолчанию — None.

Default value: None

Возвращаемое значение

Тип Описание

Хранилище данных BLOB-объектов.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_azure_data_lake

Инициализирует новое хранилище данных озера данных Azure.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации озера данных Azure Gen1 в качестве хранилища данных.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

store_name
Обязательно
str

Имя хранилища ADLS.

tenant_id
str, <xref:optional>

Идентификатор каталога/идентификатор клиента субъекта-службы, используемой для доступа к данным.

Default value: None
client_id
str, <xref:optional>

Идентификатор клиента/идентификатор приложения субъекта-службы, используемой для доступа к данным.

Default value: None
client_secret
str, <xref:optional>

Секрет клиента субъекта-службы, используемой для доступа к данным.

Default value: None
resource_url
str, <xref:optional>

URL-адрес ресурса, который определяет, какие операции будут выполняться в хранилище данных озера данных Azure (при значении None, по умолчанию используется https://datalake.azure.net/), что позволяет выполнять операции файловой системы.

Default value: None
authority_url
str, <xref:optional>

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию имеет значение https://login.microsoftonline.com.

Default value: None
subscription_id
str, <xref:optional>

Идентификатор подписки, к которой принадлежит хранилище ADLS.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов, к которой принадлежит хранилище ADLS.

Default value: None
overwrite
bool, <xref:optional>

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Default value: False
grant_workspace_access
bool, <xref:optional>

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных озера данных Azure.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

Примечание

Хранилище данных Azure Data Lake поддерживает перенос и выполнение заданий U-Sql с помощью конвейеров Машинного обучения Azure.

Его также можно использовать в качестве источника данных для набора данных Машинного обучения Azure, который можно скачать или подключить в любом поддерживаемом вычислении.

register_azure_data_lake_gen2

Инициализирует новое хранилище данных озера данных Azure Gen2.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных с субъектом-службой для доступа к данным на основе учетных данных. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

filesystem
Обязательно
str

Имя файловой системы Azure Data Lake 2-го поколения.

account_name
Обязательно
str

имя учетной записи хранения.

tenant_id
str, <xref:optional>

Идентификатор каталога/идентификатор клиента субъекта-службы.

Default value: None
client_id
str, <xref:optional>

Идентификатор клиента или идентификатор приложения субъекта-службы.

Default value: None
client_secret
str, <xref:optional>

Секрет субъекта-службы.

Default value: None
resource_url
str, <xref:optional>

URL-адрес ресурса, который определяет, какие операции будут выполняться в хранилище данных озера данных (по умолчанию используется https://storage.azure.com/), что позволяет выполнять операции файловой системы.

Default value: None
authority_url
str, <xref:optional>

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию имеет значение https://login.microsoftonline.com.

Default value: None
protocol
str, <xref:optional>

Протокол, используемый для подключения к контейнеру BLOB-объектов. При значении None по умолчанию используется HTTPS.

Default value: None
endpoint
str, <xref:optional>

Конечная точка учетной записи хранения. При значении None по умолчанию используется core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Default value: False
subscription_id
str, <xref:optional>

Идентификатор подписки, к которой принадлежит хранилище ADLS.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов, к которой принадлежит хранилище ADLS.

Default value: None
grant_workspace_access
bool, <xref:optional>

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных Azure Data Lake 2-го поколения.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_azure_file_share

Регистрация общей папки Azure в качестве хранилища данных.

Можно выбрать использование маркера SAS или ключа учетной записи службы хранилища

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных может содержать только буквенно-цифровые символы и _ без учета регистра.

file_share_name
Обязательно
str

Имя контейнера файлов Azure.

account_name
Обязательно
str

имя учетной записи хранения.

sas_token
str, <xref:optional>

Значение маркера SAS учетной записи по умолчанию — None. Для чтения данных требуются как минимум разрешения List & Чтение для контейнеров & объектов, а для записи данных — разрешения на запись & добавить.

Default value: None
account_key
str, <xref:optional>

Ключам доступа учетной записи хранения по умолчанию задано значение None.

Default value: None
protocol
str, <xref:optional>

Протокол, используемый для подключения к общей папке. При значении None по умолчанию используется HTTPS.

Default value: None
endpoint
str, <xref:optional>

Конечная точка общей папки. При значении None по умолчанию используется core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Default value: False
create_if_not_exists
bool, <xref:optional>

Следует ли создать общую папку, если она не существует. Значение по умолчанию — False.

Default value: False
skip_validation
bool, <xref:optional>

Следует ли пропустить проверку ключей хранилища. Значение по умолчанию — False.

Default value: False

Возвращаемое значение

Тип Описание

Файловое хранилище данных.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_azure_my_sql

Инициализирует новое хранилище данных Azure MySQL.

Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных для DataTransferStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

server_name
Обязательно
str

Имя сервера MySQL.

database_name
Обязательно
str

Имя базы данных MySQL.

user_id
Обязательно
str

Идентификатор пользователя сервера MySQL.

user_password
Обязательно
str

Пароль пользователя сервера MySQL.

port_number
str

Номер порта пользователя сервера MySQL.

Default value: None
endpoint
str, <xref:optional>

Конечная точка сервера MySQL. При значении None по умолчанию используется mysql.database.azure.com.

Default value: None
overwrite
bool, <xref:optional>

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных базы данных MySQL.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Инициализирует новое хранилище данных Azure PostgreSQL.

Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

server_name
Обязательно
str

Имя сервера PostgreSQL.

database_name
Обязательно
str

Имя базы данных PostgreSQL.

user_id
Обязательно
str

Идентификатор пользователя сервера PostgreSQL.

user_password
Обязательно
str

Пароль пользователя сервера PostgreSQL.

port_number
str

Номер порта сервера PostgreSQL

Default value: None
endpoint
str, <xref:optional>

Конечная точка сервера PostgreSQL. При значении None по умолчанию используется postgres.database.azure.com.

Default value: None
overwrite
bool, <xref:optional>

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Default value: False
enforce_ssl

Указывает требование SSL для сервера PostgreSQL. Значение по умолчанию — True.

Default value: True

Возвращаемое значение

Тип Описание

Возвращает хранилище данных базы данных PostgreSQL.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Инициализирует новое хранилище данных Azure SQL.

Доступ к данным на основе учетных данных (GA) и на основе удостоверения (предварительная версия) поддерживается, можно использовать субъект-службу или имя пользователя + пароль. Если учетные данные не сохранены вместе с хранилищем данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе python, если она напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files В заданиях, отправленных с помощью Experiment.submit, будет использоваться удостоверение целевого объекта вычислений для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных Azure SQL в качестве хранилища данных.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

server_name
Обязательно
str

Имя сервера SQL. Для полного доменного имени, например "sample.database.windows.net", значение server_name должно быть "sample", а значение конечной точки должно быть "database.windows.net".

database_name
Обязательно
str

Имя базы данных SQL.

tenant_id
str

Идентификатор каталога/идентификатор клиента субъекта-службы.

Default value: None
client_id
str

Идентификатор клиента или идентификатор приложения субъекта-службы.

Default value: None
client_secret
str

Секрет субъекта-службы.

Default value: None
resource_url
str, <xref:optional>

URL-адрес ресурса, который определяет, какие операции будут выполняться в хранилище базы данных SQL, при значении None будет по умолчанию иметь значение https://database.windows.net/.

Default value: None
authority_url
str, <xref:optional>

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию имеет значение https://login.microsoftonline.com.

Default value: None
endpoint
str, <xref:optional>

Конечная точка сервера SQL. При значении None по умолчанию используется database.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Указывает, следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

Default value: False
username
str

Имя пользователя базы данных для доступа к базе данных.

Default value: None
password
str

Пароль пользователя базы данных для доступа к базе данных.

Default value: None
skip_validation
Обязательно
bool, <xref:optional>

Следует ли пропустить проверку подключения к базе данных SQL. Значение по умолчанию — False.

subscription_id
str, <xref:optional>

Идентификатор подписки, к которой принадлежит хранилище ADLS.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов, к которой принадлежит хранилище ADLS.

Default value: None
grant_workspace_access
bool, <xref:optional>

Значение по умолчанию — False. Задайте для него значение True, чтобы получить доступ к данным из виртуальной сети из Машинного обучения Studio. В результате доступ к данным из Машинного обучения Studio будет использовать управляемое удостоверение рабочей области для проверки подлинности, а управляемое удостоверение рабочей области будет добавлено в качестве читателя хранилища. Необходимо быть владельцем или администратором доступа пользователей хранилища для согласия. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Более подробная информация приведена в https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных базы данных SQL.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Инициализирует новое хранилище данных Файловой системы Databricks (DBFS).

Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных для DatabricksStep в конвейерах Машинного обучения Azure. Дополнительные сведения приведены здесь.

static register_dbfs(workspace, datastore_name)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит это хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

Возвращаемое значение

Тип Описание

Возвращает хранилище данных DBFS.

Комментарии

Подключение хранилища не из региона рабочей области может увеличить задержки и затраты на использование сети.

register_hdfs

Примечание

Это экспериментальный метод, который может быть изменен в любое время. Дополнительные сведения см. по адресу https://aka.ms/azuremlexperimental.

Инициализировать новое хранилище данных HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Параметры

Имя Описание
workspace
Обязательно

рабочая область, к которой принадлежит это хранилище данных

datastore_name
Обязательно
str

имя хранилища данных

protocol
Обязательно
str или <xref:_restclient.models.enum>

протокол, используемый при взаимодействии с кластером HDFS. http или https. Возможные значения: "http", "https"

namenode_address
Обязательно
str

IP-адрес или имя узла DNS узла имен HDFS. При необходимости включает порт.

hdfs_server_certificate
Обязательно
str, <xref:optional>

Путь к сертификату для подписи TLS узла имен HDFS при использовании TLS с самозаверяющим сертификатом.

kerberos_realm
Обязательно
str

Область определения приложения Kerberos.

kerberos_kdc_address
Обязательно
str

IP-адрес или имя узла DNS центра распространения ключей Kerberos.

kerberos_principal
Обязательно
str

Субъект Kerberos, используемый для проверки подлинности и авторизации.

kerberos_keytab
Обязательно
str, <xref:optional>

Путь к файлу keytab, содержащему ключи, соответствующие субъекту Kerberos. Укажите либо путь к файлу keytab, либо пароль.

kerberos_password
Обязательно
str, <xref:optional>

Пароль, соответствующий субъекту Kerberos. Укажите либо пароль, либо путь к файлу keytab.

overwrite
Обязательно
bool, <xref:optional>

перезаписывает существующее хранилище данных. Если хранилище данных не существует, оно будет создано. Значение по умолчанию — False.

set_as_default

Устанавливает хранилище данных по умолчанию.

set_as_default()

Параметры

Имя Описание
datastore_name
Обязательно
str

Имя хранилища данных.

unregister

Отменяет регистрацию хранилища данных. базовая служба хранилища не будет удалена.

unregister()