Поделиться через


Datastore Класс

Представляет абстракцию хранилища по учетной записи хранения Машинного обучения Azure.

Хранилища данных присоединяются к рабочим областям и используются для хранения сведений о подключении к службам хранилища Azure, чтобы вы могли ссылаться на них по имени и не должны запоминать сведения о подключении и секрете, используемые для подключения к службам хранилища.

Примерами поддерживаемых служб хранилища Azure, которые можно зарегистрировать в качестве хранилищ данных, являются:

  • контейнер Blob Azure

  • Файловое хранилище Azure

  • Azure Data Lake

  • Azure Data Lake 2-го поколения

  • База данных SQL Azure

  • База данных Azure для PostgreSQL

  • Файловая система Databricks

  • База данных Azure для MySQL

Используйте этот класс для выполнения операций управления, включая регистрацию, список, получение и удаление хранилищ данных. Хранилища данных для каждой службы создаются с register* помощью методов этого класса. При использовании хранилища данных для доступа к данным необходимо иметь разрешение на доступ к этим данным, которые зависят от учетных данных, зарегистрированных в хранилище данных.

Дополнительные сведения о хранилищах данных и их использовании в машинном обучении см. в следующих статьях:

Получение хранилища данных по имени. Этот вызов выполнит запрос к службе хранилища данных.

Конструктор

Datastore(workspace, name=None)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

name
str, <xref:optional>

Имя хранилища данных по умолчанию — None, которое получает хранилище данных по умолчанию.

Default value: None

Комментарии

Чтобы взаимодействовать с данными в хранилищах данных для задач машинного обучения, таких как обучение, создайте набор данных Машинного обучения Azure. Наборы данных предоставляют функции, которые загружают табличные данные в pandas или Spark DataFrame. Наборы данных также предоставляют возможность загружать или подключать файлы любого формата из хранилища BLOB-объектов Azure, Файлов Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Базы данных SQL Azure и Базы данных Azure для PostgreSQL. Узнайте больше об обучении с наборами данных.

В следующем примере показано, как создать хранилище данных, подключенное к контейнеру BLOB-объектов Azure.


   # from azureml.exceptions import UserErrorException
   #
   # blob_datastore_name='MyBlobDatastore'
   # account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   # container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   # account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
   #
   # try:
   #     blob_datastore = Datastore.get(ws, blob_datastore_name)
   #     print("Found Blob Datastore with name: %s" % blob_datastore_name)
   # except UserErrorException:
   #     blob_datastore = Datastore.register_azure_blob_container(
   #         workspace=ws,
   #         datastore_name=blob_datastore_name,
   #         account_name=account_name, # Storage account name
   #         container_name=container_name, # Name of Azure blob container
   #         account_key=account_key) # Storage account key
   #     print("Registered blob datastore with name: %s" % blob_datastore_name)
   #
   # blob_data_ref = DataReference(
   #     datastore=blob_datastore,
   #     data_reference_name="blob_test_data",
   #     path_on_datastore="testdata")

Полный пример доступен из https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Методы

get

Получение хранилища данных по имени. Это то же самое, что вызов конструктора.

get_default

Получите хранилище данных по умолчанию для рабочей области.

register_azure_blob_container

Зарегистрируйте контейнер BLOB-объектов Azure в хранилище данных.

Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), можно выбрать использование маркера SAS или ключа учетной записи хранения. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

register_azure_data_lake

Инициализация нового хранилища данных Озера данных Azure.

Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации Azure Data Lake 1-го поколения в качестве хранилища данных.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Инициализация нового хранилища данных Azure Data Lake 2-го поколения.

Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

register_azure_file_share

Зарегистрируйте общую папку Azure в хранилище данных.

Вы можете использовать маркер SAS или ключ учетной записи хранения.

register_azure_my_sql

Инициализация нового хранилища данных Azure MySQL.

Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных в DataTransferStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.

register_azure_postgre_sql

Инициализировать новое хранилище данных Azure PostgreSQL.

Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.

register_azure_sql_database

Инициализировать новое хранилище данных базы данных SQL Azure.

Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), вы можете использовать субъект-службу или имя пользователя и пароль. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных SQL Azure в качестве хранилища данных.

register_dbfs

Инициализация нового хранилища данных Databricks File System (DBFS).

Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных в DatabricksStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь.

register_hdfs

Замечание

Это экспериментальный метод и может измениться в любое время. Дополнительные сведения см. по адресу https://aka.ms/acr/connected-registry.

Инициализация нового хранилища данных HDFS.

set_as_default

Задайте хранилище данных по умолчанию.

unregister

Отменяет регистрацию хранилища данных. Базовая служба хранилища не будет удалена.

get

Получение хранилища данных по имени. Это то же самое, что вызов конструктора.

static get(workspace, datastore_name)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

datastore_name
Обязательно
str, <xref:optional>

Имя хранилища данных по умолчанию — None, которое получает хранилище данных по умолчанию.

Возвращаемое значение

Тип Описание

Соответствующее хранилище данных для этого имени.

get_default

Получите хранилище данных по умолчанию для рабочей области.

static get_default(workspace)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

Возвращаемое значение

Тип Описание

Хранилище данных по умолчанию для рабочей области

register_azure_blob_container

Зарегистрируйте контейнер BLOB-объектов Azure в хранилище данных.

Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), можно выбрать использование маркера SAS или ключа учетной записи хранения. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область.

datastore_name
Обязательно
str

Имя хранилища данных, без учета регистра, может содержать только буквенно-цифровые символы и _.

container_name
Обязательно
str

Имя контейнера BLOB-объектов Azure.

account_name
Обязательно
str

Имя учетной записи хранения.

sas_token
str, <xref:optional>

Маркер SAS учетной записи по умолчанию — None. Для чтения данных требуются минимальные разрешения на чтение списка и чтения для контейнеров и объектов, а для записи данных требуются разрешения на запись и добавление.

Default value: None
account_key
str, <xref:optional>

Ключи доступа учетной записи хранения по умолчанию — None.

Default value: None
protocol
str, <xref:optional>

Протокол, используемый для подключения к контейнеру BLOB-объектов. Если значение None, по умолчанию используется https.

Default value: None
endpoint
str, <xref:optional>

Конечная точка учетной записи хранения. Если нет, по умолчанию core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

перезаписывает существующее хранилище данных. Если хранилище данных не существует, он создаст его, по умолчанию — False.

Default value: False
create_if_not_exists
bool, <xref:optional>

создайте контейнер BLOB-объектов, если он не существует, по умолчанию используется значение False.

Default value: False
skip_validation
bool, <xref:optional>

пропускает проверку ключей хранилища, по умолчанию — false.

Default value: False
blob_cache_timeout
int, <xref:optional>

При подключении этого большого двоичного объекта задайте время ожидания кэша в течение нескольких секунд. Если нет, по умолчанию не истекает время ожидания (т. е. большие двоичные объекты будут кэшироваться в течение длительности задания при чтении).

Default value: None
grant_workspace_access
bool, <xref:optional>

По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Вы должны быть владельцем или администратором доступа пользователей к хранилищу, чтобы принять участие. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"

Default value: False
subscription_id
str, <xref:optional>

Идентификатор подписки учетной записи хранения по умолчанию — None.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов учетной записи хранения по умолчанию — None.

Default value: None

Возвращаемое значение

Тип Описание

Хранилище данных BLOB-объектов.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.

register_azure_data_lake

Инициализация нового хранилища данных Озера данных Azure.

Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации Azure Data Lake 1-го поколения в качестве хранилища данных.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

store_name
Обязательно
str

Имя хранилища ADLS.

tenant_id
str, <xref:optional>

Идентификатор каталога или клиента субъекта-службы, используемый для доступа к данным.

Default value: None
client_id
str, <xref:optional>

Идентификатор клиента или идентификатор приложения субъекта-службы, используемый для доступа к данным.

Default value: None
client_secret
str, <xref:optional>

Секрет клиента субъекта-службы, используемый для доступа к данным.

Default value: None
resource_url
str, <xref:optional>

URL-адрес ресурса, определяющий, какие операции будут выполняться в хранилище Data Lake, если нет, по умолчанию https://datalake.azure.net/ позволяет выполнять операции файловой системы.

Default value: None
authority_url
str, <xref:optional>

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию используется https://login.microsoftonline.com.

Default value: None
subscription_id
str, <xref:optional>

Идентификатор подписки, к которой принадлежит хранилище ADLS.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов, к которой принадлежит хранилище ADLS.

Default value: None
overwrite
bool, <xref:optional>

Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False.

Default value: False
grant_workspace_access
bool, <xref:optional>

По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Чтобы войти в систему, необходимо быть владельцем или администратором доступа пользователей к хранилищу. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных Озера данных Azure.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.

Замечание

Azure Data Lake Datastore поддерживает передачу данных и выполнение заданий U-Sql с помощью конвейеров машинного обучения Azure.

Вы также можете использовать его в качестве источника данных для набора данных Машинного обучения Azure, который можно скачать или подключить к любым поддерживаемым вычислительным ресурсам.

register_azure_data_lake_gen2

Инициализация нового хранилища данных Azure Data Lake 2-го поколения.

Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

filesystem
Обязательно
str

Имя файловой системы Data Lake 2-го поколения.

account_name
Обязательно
str

Имя учетной записи хранения.

tenant_id
str, <xref:optional>

Идентификатор каталога или клиента субъекта-службы.

Default value: None
client_id
str, <xref:optional>

Идентификатор клиента или идентификатор приложения субъекта-службы.

Default value: None
client_secret
str, <xref:optional>

Секрет субъекта-службы.

Default value: None
resource_url
str, <xref:optional>

URL-адрес ресурса, определяющий, какие операции будут выполняться в хранилище озера данных, по умолчанию https://storage.azure.com/ позволяет выполнять операции файловой системы.

Default value: None
authority_url
str, <xref:optional>

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию используется https://login.microsoftonline.com.

Default value: None
protocol
str, <xref:optional>

Протокол, используемый для подключения к контейнеру BLOB-объектов. Если значение None, по умолчанию используется https.

Default value: None
endpoint
str, <xref:optional>

Конечная точка учетной записи хранения. Если нет, по умолчанию core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False.

Default value: False
subscription_id
str, <xref:optional>

Идентификатор подписки, к которой принадлежит хранилище ADLS.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов, к которой принадлежит хранилище ADLS.

Default value: None
grant_workspace_access
bool, <xref:optional>

По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Вы должны быть владельцем или администратором доступа пользователей к хранилищу, чтобы принять участие. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных Azure Data Lake 2-го поколения.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.

register_azure_file_share

Зарегистрируйте общую папку Azure в хранилище данных.

Вы можете использовать маркер SAS или ключ учетной записи хранения.

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных, без учета регистра, может содержать только буквенно-цифровые символы и _.

file_share_name
Обязательно
str

Имя контейнера файлов Azure.

account_name
Обязательно
str

Имя учетной записи хранения.

sas_token
str, <xref:optional>

Маркер SAS учетной записи по умолчанию — None. Для чтения данных требуются минимальные разрешения на чтение списка и чтения для контейнеров и объектов, а для записи данных требуются разрешения на запись и добавление.

Default value: None
account_key
str, <xref:optional>

Ключи доступа учетной записи хранения по умолчанию — None.

Default value: None
protocol
str, <xref:optional>

Протокол, используемый для подключения к общей папке. Если значение None, по умолчанию используется https.

Default value: None
endpoint
str, <xref:optional>

Конечная точка общей папки. Если нет, по умолчанию core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False.

Default value: False
create_if_not_exists
bool, <xref:optional>

Следует ли создать общую папку, если она не существует. Значение по умолчанию — False.

Default value: False
skip_validation
bool, <xref:optional>

Следует ли пропустить проверку ключей хранения. Значение по умолчанию — False.

Default value: False

Возвращаемое значение

Тип Описание

Хранилище данных файлов.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.

register_azure_my_sql

Инициализация нового хранилища данных Azure MySQL.

Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных в DataTransferStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

server_name
Обязательно
str

Имя сервера MySQL.

database_name
Обязательно
str

Имя базы данных MySQL.

user_id
Обязательно
str

Идентификатор пользователя сервера MySQL.

user_password
Обязательно
str

Пароль пользователя сервера MySQL.

port_number
str

Номер порта сервера MySQL.

Default value: None
endpoint
str, <xref:optional>

Конечная точка сервера MySQL. Если нет, по умолчанию mysql.database.azure.com.

Default value: None
overwrite
bool, <xref:optional>

Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False.

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных базы данных MySQL.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Инициализировать новое хранилище данных Azure PostgreSQL.

Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

server_name
Обязательно
str

Имя сервера PostgreSQL.

database_name
Обязательно
str

Имя базы данных PostgreSQL.

user_id
Обязательно
str

Идентификатор пользователя сервера PostgreSQL.

user_password
Обязательно
str

Пароль пользователя сервера PostgreSQL.

port_number
str

Номер порта сервера PostgreSQL

Default value: None
endpoint
str, <xref:optional>

Конечная точка сервера PostgreSQL. Если нет, по умолчанию postgres.database.azure.com.

Default value: None
overwrite
bool, <xref:optional>

Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False.

Default value: False
enforce_ssl

Указывает требование SSL сервера PostgreSQL. Значение по умолчанию — True.

Default value: True

Возвращаемое значение

Тип Описание

Возвращает хранилище данных базы данных PostgreSQL.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Инициализировать новое хранилище данных базы данных SQL Azure.

Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), вы можете использовать субъект-службу или имя пользователя и пароль. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.

Ниже приведен пример регистрации базы данных SQL Azure в качестве хранилища данных.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

server_name
Обязательно
str

Имя СЕРВЕРА SQL. Для полного доменного имени, например "sample.database.windows.net", значение server_name должно быть "примером", а значение конечной точки должно быть "database.windows.net".

database_name
Обязательно
str

Имя базы данных SQL.

tenant_id
str

Идентификатор каталога или клиента субъекта-службы.

Default value: None
client_id
str

Идентификатор клиента или идентификатор приложения субъекта-службы.

Default value: None
client_secret
str

Секрет субъекта-службы.

Default value: None
resource_url
str, <xref:optional>

URL-адрес ресурса, определяющий, какие операции будут выполняться в хранилище баз данных SQL, если значение None, по умолчанию https://database.windows.net/.

Default value: None
authority_url
str, <xref:optional>

URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию используется https://login.microsoftonline.com.

Default value: None
endpoint
str, <xref:optional>

Конечная точка SQL Server. Если нет, по умолчанию database.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False.

Default value: False
username
str

Имя пользователя базы данных для доступа к базе данных.

Default value: None
password
str

Пароль пользователя базы данных для доступа к базе данных.

Default value: None
skip_validation
Обязательно
bool, <xref:optional>

Следует ли пропустить проверку подключения к базе данных SQL. По умолчанию False.

subscription_id
str, <xref:optional>

Идентификатор подписки, к которой принадлежит хранилище ADLS.

Default value: None
resource_group
str, <xref:optional>

Группа ресурсов, к которой принадлежит хранилище ADLS.

Default value: None
grant_workspace_access
bool, <xref:optional>

По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Вы должны быть владельцем или администратором доступа пользователей к хранилищу, чтобы принять участие. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"

Default value: False

Возвращаемое значение

Тип Описание

Возвращает хранилище данных базы данных SQL.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Инициализация нового хранилища данных Databricks File System (DBFS).

Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных в DatabricksStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь.

static register_dbfs(workspace, datastore_name)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, к которой принадлежит хранилище данных.

datastore_name
Обязательно
str

Имя хранилища данных.

Возвращаемое значение

Тип Описание

Возвращает хранилище данных DBFS.

Комментарии

Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.

register_hdfs

Замечание

Это экспериментальный метод и может измениться в любое время. Дополнительные сведения см. по адресу https://aka.ms/acr/connected-registry.

Инициализация нового хранилища данных HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Параметры

Имя Описание
workspace
Обязательно

рабочая область, к которой принадлежит хранилище данных

datastore_name
Обязательно
str

имя хранилища данных

protocol
Обязательно
str или <xref:_restclient.models.enum>

Протокол, используемый при взаимодействии с кластером HDFS. http или https. Возможные значения: "http", "https"

namenode_address
Обязательно
str

IP-адрес или dns-имя узла имени HDFS. При необходимости включает порт.

hdfs_server_certificate
Обязательно
str, <xref:optional>

Путь к сертификату подписи TLS имени HDFS при использовании TLS с самозаверяющий сертификатом.

kerberos_realm
Обязательно
str

Область Kerberos.

kerberos_kdc_address
Обязательно
str

IP-адрес или DNS-имя узла KDC Kerberos.

kerberos_principal
Обязательно
str

Субъект Kerberos, используемый для проверки подлинности и авторизации.

kerberos_keytab
Обязательно
str, <xref:optional>

Путь к файлу keytab, содержащего ключи, соответствующие субъекту Kerberos. Укажите это или пароль.

kerberos_password
Обязательно
str, <xref:optional>

Пароль, соответствующий субъекту Kerberos. Укажите это или путь к файлу keytab.

overwrite
Обязательно
bool, <xref:optional>

перезаписывает существующее хранилище данных. Если хранилище данных не существует, он создаст его. По умолчанию False.

set_as_default

Задайте хранилище данных по умолчанию.

set_as_default()

Параметры

Имя Описание
datastore_name
Обязательно
str

Имя хранилища данных.

unregister

Отменяет регистрацию хранилища данных. Базовая служба хранилища не будет удалена.

unregister()