Datastore Класс
Представляет абстракцию хранилища по учетной записи хранения Машинного обучения Azure.
Хранилища данных присоединяются к рабочим областям и используются для хранения сведений о подключении к службам хранилища Azure, чтобы вы могли ссылаться на них по имени и не должны запоминать сведения о подключении и секрете, используемые для подключения к службам хранилища.
Примерами поддерживаемых служб хранилища Azure, которые можно зарегистрировать в качестве хранилищ данных, являются:
контейнер Blob Azure
Файловое хранилище Azure
Azure Data Lake
Azure Data Lake 2-го поколения
База данных SQL Azure
База данных Azure для PostgreSQL
Файловая система Databricks
База данных Azure для MySQL
Используйте этот класс для выполнения операций управления, включая регистрацию, список, получение и удаление хранилищ данных.
Хранилища данных для каждой службы создаются с register* помощью методов этого класса. При использовании хранилища данных для доступа к данным необходимо иметь разрешение на доступ к этим данным, которые зависят от учетных данных, зарегистрированных в хранилище данных.
Дополнительные сведения о хранилищах данных и их использовании в машинном обучении см. в следующих статьях:
Получение хранилища данных по имени. Этот вызов выполнит запрос к службе хранилища данных.
Конструктор
Datastore(workspace, name=None)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область. |
|
name
|
str, <xref:optional>
Имя хранилища данных по умолчанию — None, которое получает хранилище данных по умолчанию. Default value: None
|
Комментарии
Чтобы взаимодействовать с данными в хранилищах данных для задач машинного обучения, таких как обучение, создайте набор данных Машинного обучения Azure. Наборы данных предоставляют функции, которые загружают табличные данные в pandas или Spark DataFrame. Наборы данных также предоставляют возможность загружать или подключать файлы любого формата из хранилища BLOB-объектов Azure, Файлов Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Базы данных SQL Azure и Базы данных Azure для PostgreSQL. Узнайте больше об обучении с наборами данных.
В следующем примере показано, как создать хранилище данных, подключенное к контейнеру BLOB-объектов Azure.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
Полный пример доступен из https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Методы
| get |
Получение хранилища данных по имени. Это то же самое, что вызов конструктора. |
| get_default |
Получите хранилище данных по умолчанию для рабочей области. |
| register_azure_blob_container |
Зарегистрируйте контейнер BLOB-объектов Azure в хранилище данных. Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), можно выбрать использование маркера SAS или ключа учетной записи хранения. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь. |
| register_azure_data_lake |
Инициализация нового хранилища данных Озера данных Azure. Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь. Ниже приведен пример регистрации Azure Data Lake 1-го поколения в качестве хранилища данных.
|
| register_azure_data_lake_gen2 |
Инициализация нового хранилища данных Azure Data Lake 2-го поколения. Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь. |
| register_azure_file_share |
Зарегистрируйте общую папку Azure в хранилище данных. Вы можете использовать маркер SAS или ключ учетной записи хранения. |
| register_azure_my_sql |
Инициализация нового хранилища данных Azure MySQL. Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных в DataTransferStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь. Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных. |
| register_azure_postgre_sql |
Инициализировать новое хранилище данных Azure PostgreSQL. Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных. |
| register_azure_sql_database |
Инициализировать новое хранилище данных базы данных SQL Azure. Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), вы можете использовать субъект-службу или имя пользователя и пароль. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь. Ниже приведен пример регистрации базы данных SQL Azure в качестве хранилища данных. |
| register_dbfs |
Инициализация нового хранилища данных Databricks File System (DBFS). Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных в DatabricksStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь. |
| register_hdfs |
Замечание Это экспериментальный метод и может измениться в любое время. Дополнительные сведения см. по адресу https://aka.ms/acr/connected-registry. Инициализация нового хранилища данных HDFS. |
| set_as_default |
Задайте хранилище данных по умолчанию. |
| unregister |
Отменяет регистрацию хранилища данных. Базовая служба хранилища не будет удалена. |
get
Получение хранилища данных по имени. Это то же самое, что вызов конструктора.
static get(workspace, datastore_name)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область. |
|
datastore_name
Обязательно
|
str, <xref:optional>
Имя хранилища данных по умолчанию — None, которое получает хранилище данных по умолчанию. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Соответствующее хранилище данных для этого имени. |
get_default
Получите хранилище данных по умолчанию для рабочей области.
static get_default(workspace)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Хранилище данных по умолчанию для рабочей области |
register_azure_blob_container
Зарегистрируйте контейнер BLOB-объектов Azure в хранилище данных.
Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), можно выбрать использование маркера SAS или ключа учетной записи хранения. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область. |
|
datastore_name
Обязательно
|
Имя хранилища данных, без учета регистра, может содержать только буквенно-цифровые символы и _. |
|
container_name
Обязательно
|
Имя контейнера BLOB-объектов Azure. |
|
account_name
Обязательно
|
Имя учетной записи хранения. |
|
sas_token
|
str, <xref:optional>
Маркер SAS учетной записи по умолчанию — None. Для чтения данных требуются минимальные разрешения на чтение списка и чтения для контейнеров и объектов, а для записи данных требуются разрешения на запись и добавление. Default value: None
|
|
account_key
|
str, <xref:optional>
Ключи доступа учетной записи хранения по умолчанию — None. Default value: None
|
|
protocol
|
str, <xref:optional>
Протокол, используемый для подключения к контейнеру BLOB-объектов. Если значение None, по умолчанию используется https. Default value: None
|
|
endpoint
|
str, <xref:optional>
Конечная точка учетной записи хранения. Если нет, по умолчанию core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
перезаписывает существующее хранилище данных. Если хранилище данных не существует, он создаст его, по умолчанию — False. Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
создайте контейнер BLOB-объектов, если он не существует, по умолчанию используется значение False. Default value: False
|
|
skip_validation
|
bool, <xref:optional>
пропускает проверку ключей хранилища, по умолчанию — false. Default value: False
|
|
blob_cache_timeout
|
int, <xref:optional>
При подключении этого большого двоичного объекта задайте время ожидания кэша в течение нескольких секунд. Если нет, по умолчанию не истекает время ожидания (т. е. большие двоичные объекты будут кэшироваться в течение длительности задания при чтении). Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Вы должны быть владельцем или администратором доступа пользователей к хранилищу, чтобы принять участие. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Default value: False
|
|
subscription_id
|
str, <xref:optional>
Идентификатор подписки учетной записи хранения по умолчанию — None. Default value: None
|
|
resource_group
|
str, <xref:optional>
Группа ресурсов учетной записи хранения по умолчанию — None. Default value: None
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Хранилище данных BLOB-объектов. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
register_azure_data_lake
Инициализация нового хранилища данных Озера данных Azure.
Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.
Ниже приведен пример регистрации Azure Data Lake 1-го поколения в качестве хранилища данных.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных. |
|
store_name
Обязательно
|
Имя хранилища ADLS. |
|
tenant_id
|
str, <xref:optional>
Идентификатор каталога или клиента субъекта-службы, используемый для доступа к данным. Default value: None
|
|
client_id
|
str, <xref:optional>
Идентификатор клиента или идентификатор приложения субъекта-службы, используемый для доступа к данным. Default value: None
|
|
client_secret
|
str, <xref:optional>
Секрет клиента субъекта-службы, используемый для доступа к данным. Default value: None
|
|
resource_url
|
str, <xref:optional>
URL-адрес ресурса, определяющий, какие операции будут выполняться в хранилище Data Lake, если нет, по умолчанию Default value: None
|
|
authority_url
|
str, <xref:optional>
URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию используется Default value: None
|
|
subscription_id
|
str, <xref:optional>
Идентификатор подписки, к которой принадлежит хранилище ADLS. Default value: None
|
|
resource_group
|
str, <xref:optional>
Группа ресурсов, к которой принадлежит хранилище ADLS. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False. Default value: False
|
|
grant_workspace_access
|
bool, <xref:optional>
По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Чтобы войти в систему, необходимо быть владельцем или администратором доступа пользователей к хранилищу. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Default value: False
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Возвращает хранилище данных Озера данных Azure. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
Замечание
Azure Data Lake Datastore поддерживает передачу данных и выполнение заданий U-Sql с помощью конвейеров машинного обучения Azure.
Вы также можете использовать его в качестве источника данных для набора данных Машинного обучения Azure, который можно скачать или подключить к любым поддерживаемым вычислительным ресурсам.
register_azure_data_lake_gen2
Инициализация нового хранилища данных Azure Data Lake 2-го поколения.
Доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия) поддерживается. Вы можете зарегистрировать хранилище данных в субъекте-службе для доступа к данным на основе учетных данных. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных. |
|
filesystem
Обязательно
|
Имя файловой системы Data Lake 2-го поколения. |
|
account_name
Обязательно
|
Имя учетной записи хранения. |
|
tenant_id
|
str, <xref:optional>
Идентификатор каталога или клиента субъекта-службы. Default value: None
|
|
client_id
|
str, <xref:optional>
Идентификатор клиента или идентификатор приложения субъекта-службы. Default value: None
|
|
client_secret
|
str, <xref:optional>
Секрет субъекта-службы. Default value: None
|
|
resource_url
|
str, <xref:optional>
URL-адрес ресурса, определяющий, какие операции будут выполняться в хранилище озера данных, по умолчанию Default value: None
|
|
authority_url
|
str, <xref:optional>
URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию используется Default value: None
|
|
protocol
|
str, <xref:optional>
Протокол, используемый для подключения к контейнеру BLOB-объектов. Если значение None, по умолчанию используется https. Default value: None
|
|
endpoint
|
str, <xref:optional>
Конечная точка учетной записи хранения. Если нет, по умолчанию core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False. Default value: False
|
|
subscription_id
|
str, <xref:optional>
Идентификатор подписки, к которой принадлежит хранилище ADLS. Default value: None
|
|
resource_group
|
str, <xref:optional>
Группа ресурсов, к которой принадлежит хранилище ADLS. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Вы должны быть владельцем или администратором доступа пользователей к хранилищу, чтобы принять участие. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Default value: False
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Возвращает хранилище данных Azure Data Lake 2-го поколения. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
register_azure_file_share
Зарегистрируйте общую папку Azure в хранилище данных.
Вы можете использовать маркер SAS или ключ учетной записи хранения.
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных, без учета регистра, может содержать только буквенно-цифровые символы и _. |
|
file_share_name
Обязательно
|
Имя контейнера файлов Azure. |
|
account_name
Обязательно
|
Имя учетной записи хранения. |
|
sas_token
|
str, <xref:optional>
Маркер SAS учетной записи по умолчанию — None. Для чтения данных требуются минимальные разрешения на чтение списка и чтения для контейнеров и объектов, а для записи данных требуются разрешения на запись и добавление. Default value: None
|
|
account_key
|
str, <xref:optional>
Ключи доступа учетной записи хранения по умолчанию — None. Default value: None
|
|
protocol
|
str, <xref:optional>
Протокол, используемый для подключения к общей папке. Если значение None, по умолчанию используется https. Default value: None
|
|
endpoint
|
str, <xref:optional>
Конечная точка общей папки. Если нет, по умолчанию core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False. Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Следует ли создать общую папку, если она не существует. Значение по умолчанию — False. Default value: False
|
|
skip_validation
|
bool, <xref:optional>
Следует ли пропустить проверку ключей хранения. Значение по умолчанию — False. Default value: False
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Хранилище данных файлов. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
register_azure_my_sql
Инициализация нового хранилища данных Azure MySQL.
Хранилище данных MySQL можно использовать только для создания DataReference в качестве входных и выходных данных в DataTransferStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь.
Ниже приведен пример регистрации базы данных Azure MySQL в качестве хранилища данных.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных. |
|
server_name
Обязательно
|
Имя сервера MySQL. |
|
database_name
Обязательно
|
Имя базы данных MySQL. |
|
user_id
Обязательно
|
Идентификатор пользователя сервера MySQL. |
|
user_password
Обязательно
|
Пароль пользователя сервера MySQL. |
|
port_number
|
Номер порта сервера MySQL. Default value: None
|
|
endpoint
|
str, <xref:optional>
Конечная точка сервера MySQL. Если нет, по умолчанию mysql.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False. Default value: False
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Возвращает хранилище данных базы данных MySQL. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Инициализировать новое хранилище данных Azure PostgreSQL.
Ниже приведен пример регистрации базы данных Azure PostgreSQL в качестве хранилища данных.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных. |
|
server_name
Обязательно
|
Имя сервера PostgreSQL. |
|
database_name
Обязательно
|
Имя базы данных PostgreSQL. |
|
user_id
Обязательно
|
Идентификатор пользователя сервера PostgreSQL. |
|
user_password
Обязательно
|
Пароль пользователя сервера PostgreSQL. |
|
port_number
|
Номер порта сервера PostgreSQL Default value: None
|
|
endpoint
|
str, <xref:optional>
Конечная точка сервера PostgreSQL. Если нет, по умолчанию postgres.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False. Default value: False
|
|
enforce_ssl
|
Указывает требование SSL сервера PostgreSQL. Значение по умолчанию — True. Default value: True
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Возвращает хранилище данных базы данных PostgreSQL. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Инициализировать новое хранилище данных базы данных SQL Azure.
Поддерживаются доступ к данным на основе учетных данных (GA) и на основе удостоверений (предварительная версия), вы можете использовать субъект-службу или имя пользователя и пароль. Если учетные данные не сохраняются в хранилище данных, маркер AAD пользователей будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из этих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Дополнительные сведения см. здесь.
Ниже приведен пример регистрации базы данных SQL Azure в качестве хранилища данных.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных. |
|
server_name
Обязательно
|
Имя СЕРВЕРА SQL. Для полного доменного имени, например "sample.database.windows.net", значение server_name должно быть "примером", а значение конечной точки должно быть "database.windows.net". |
|
database_name
Обязательно
|
Имя базы данных SQL. |
|
tenant_id
|
Идентификатор каталога или клиента субъекта-службы. Default value: None
|
|
client_id
|
Идентификатор клиента или идентификатор приложения субъекта-службы. Default value: None
|
|
client_secret
|
Секрет субъекта-службы. Default value: None
|
|
resource_url
|
str, <xref:optional>
URL-адрес ресурса, определяющий, какие операции будут выполняться в хранилище баз данных SQL, если значение None, по умолчанию https://database.windows.net/. Default value: None
|
|
authority_url
|
str, <xref:optional>
URL-адрес центра, используемый для проверки подлинности пользователя, по умолчанию используется https://login.microsoftonline.com. Default value: None
|
|
endpoint
|
str, <xref:optional>
Конечная точка SQL Server. Если нет, по умолчанию database.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Следует ли перезаписать существующее хранилище данных. Если хранилище данных не существует, он создаст его. Значение по умолчанию — False. Default value: False
|
|
username
|
Имя пользователя базы данных для доступа к базе данных. Default value: None
|
|
password
|
Пароль пользователя базы данных для доступа к базе данных. Default value: None
|
|
skip_validation
Обязательно
|
bool, <xref:optional>
Следует ли пропустить проверку подключения к базе данных SQL. По умолчанию False. |
|
subscription_id
|
str, <xref:optional>
Идентификатор подписки, к которой принадлежит хранилище ADLS. Default value: None
|
|
resource_group
|
str, <xref:optional>
Группа ресурсов, к которой принадлежит хранилище ADLS. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
По умолчанию False. Задайте значение True для доступа к данным за виртуальной сетью из Студии машинного обучения. Это делает доступ к данным из Студии машинного обучения использовать управляемое удостоверение рабочей области для проверки подлинности и добавляет управляемое удостоверение рабочей области в качестве читателя хранилища. Вы должны быть владельцем или администратором доступа пользователей к хранилищу, чтобы принять участие. Попросите администратора настроить его для вас, если у вас нет необходимых разрешений. Дополнительные сведения "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Default value: False
|
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Возвращает хранилище данных базы данных SQL. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Инициализация нового хранилища данных Databricks File System (DBFS).
Хранилище данных DBFS можно использовать только для создания DataReference в качестве входных данных и PipelineData в качестве выходных данных в DatabricksStep в конвейерах машинного обучения Azure. Дополнительные сведения см. здесь.
static register_dbfs(workspace, datastore_name)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
Рабочая область, к которой принадлежит хранилище данных. |
|
datastore_name
Обязательно
|
Имя хранилища данных. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Возвращает хранилище данных DBFS. |
Комментарии
Если вы подключаете хранилище из другого региона, чем регион рабочей области, это может привести к увеличению задержки и дополнительным затратам на использование сети.
register_hdfs
Замечание
Это экспериментальный метод и может измениться в любое время. Дополнительные сведения см. по адресу https://aka.ms/acr/connected-registry.
Инициализация нового хранилища данных HDFS.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Параметры
| Имя | Описание |
|---|---|
|
workspace
Обязательно
|
рабочая область, к которой принадлежит хранилище данных |
|
datastore_name
Обязательно
|
имя хранилища данных |
|
protocol
Обязательно
|
str или
<xref:_restclient.models.enum>
Протокол, используемый при взаимодействии с кластером HDFS. http или https. Возможные значения: "http", "https" |
|
namenode_address
Обязательно
|
IP-адрес или dns-имя узла имени HDFS. При необходимости включает порт. |
|
hdfs_server_certificate
Обязательно
|
str, <xref:optional>
Путь к сертификату подписи TLS имени HDFS при использовании TLS с самозаверяющий сертификатом. |
|
kerberos_realm
Обязательно
|
Область Kerberos. |
|
kerberos_kdc_address
Обязательно
|
IP-адрес или DNS-имя узла KDC Kerberos. |
|
kerberos_principal
Обязательно
|
Субъект Kerberos, используемый для проверки подлинности и авторизации. |
|
kerberos_keytab
Обязательно
|
str, <xref:optional>
Путь к файлу keytab, содержащего ключи, соответствующие субъекту Kerberos. Укажите это или пароль. |
|
kerberos_password
Обязательно
|
str, <xref:optional>
Пароль, соответствующий субъекту Kerberos. Укажите это или путь к файлу keytab. |
|
overwrite
Обязательно
|
bool, <xref:optional>
перезаписывает существующее хранилище данных. Если хранилище данных не существует, он создаст его. По умолчанию False. |
set_as_default
Задайте хранилище данных по умолчанию.
set_as_default()
Параметры
| Имя | Описание |
|---|---|
|
datastore_name
Обязательно
|
Имя хранилища данных. |
unregister
Отменяет регистрацию хранилища данных. Базовая служба хранилища не будет удалена.
unregister()