Поделиться через


AbstractDataset Класс

Базовый класс наборов данных в Машинном обучении Azure.

Обратитесь к TabularDatasetFactory классу и FileDatasetFactory классу для создания экземпляров набора данных.

Конструктор Класса AbstractDataset.

Этот конструктор не должен вызываться напрямую. Набор данных предназначен для создания с помощью TabularDatasetFactory класса и FileDatasetFactory класса.

Конструктор

AbstractDataset()

Методы

add_tags

Добавьте пары значений ключа в словарь тегов этого набора данных.

as_named_input

Укажите имя этого набора данных, который будет использоваться для получения материализованного набора данных в выполнении.

get_all

Получите все зарегистрированные наборы данных в рабочей области.

get_by_id

Получите набор данных, сохраненный в рабочей области.

get_by_name

Получите зарегистрированный набор данных из рабочей области по его имени регистрации.

get_partition_key_values

Возвращает уникальные значения ключей partition_keys.

Проверьте, является ли partition_keys допустимым подмножеством полного набора ключей секций, возвращать уникальные значения ключей partition_keys, по умолчанию возвращать уникальные сочетания ключей ключей, принимая полный набор ключей секций этого набора данных, если partition_keys значение None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Зарегистрируйте набор данных в предоставленной рабочей области.

remove_tags

Удалите указанные ключи из словаря тегов этого набора данных.

unregister_all_versions

Отмените регистрацию всех версий под именем регистрации этого набора данных из рабочей области.

update

Выполните обновление набора данных на месте.

add_tags

Добавьте пары значений ключа в словарь тегов этого набора данных.

add_tags(tags=None)

Параметры

Имя Описание
tags
Обязательно

Словарь добавляемых тегов.

Возвращаемое значение

Тип Описание

Обновленный объект набора данных.

as_named_input

Укажите имя этого набора данных, который будет использоваться для получения материализованного набора данных в выполнении.

as_named_input(name)

Параметры

Имя Описание
name
Обязательно
str

Имя набора данных для выполнения.

Возвращаемое значение

Тип Описание

Объект конфигурации, описывающий материализацию набора данных в ходе выполнения.

Комментарии

Имя здесь будет применимо только в запуске Машинного обучения Azure. Имя должно содержать только буквенно-цифровые и символы подчеркивания, чтобы его можно было сделать доступным в качестве переменной среды. Это имя можно использовать для получения набора данных в контексте выполнения с помощью двух подходов:

  • Переменная среды:

    Имя будет именем переменной среды, а материализованный набор данных будет доступен в качестве значения переменной среды. Если набор данных скачан или подключен, значение будет скачанным или подключенным путем. Рассмотрим пример.


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Замечание

Если набор данных имеет прямой режим, то значение будет идентификатором набора данных. Вы можете затем

извлеките объект набора данных, выполнив Dataset.get_by_id(os.environ['foo'])

  • Run.input_datasets:

    Это словарь, в котором ключ будет именем набора данных, указанным в этом методе, и значение будет материализованным набором данных. Для скачанных и подключенных наборов данных значение будет скачанным или подключенным путем. В прямом режиме значение будет одинаковым объектом набора данных, указанным в скрипте отправки задания.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Получите все зарегистрированные наборы данных в рабочей области.

static get_all(workspace)

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой зарегистрированы наборы данных.

Возвращаемое значение

Тип Описание

Словарь объектов TabularDataset и FileDataset, ключом по имени регистрации.

get_by_id

Получите набор данных, сохраненный в рабочей области.

static get_by_id(workspace, id, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой сохраняется набор данных.

id
Обязательно
str

Идентификатор набора данных.

Возвращаемое значение

Тип Описание

Объект набора данных. Если набор данных зарегистрирован, его имя регистрации и версия также будут возвращены.

get_by_name

Получите зарегистрированный набор данных из рабочей области по его имени регистрации.

static get_by_name(workspace, name, version='latest', **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой был зарегистрирован набор данных.

name
Обязательно
str

Имя регистрации.

version
Обязательно
int

Версия регистрации. По умолчанию используется значение "latest".

Возвращаемое значение

Тип Описание

Зарегистрированный объект набора данных.

get_partition_key_values

Возвращает уникальные значения ключей partition_keys.

Проверьте, является ли partition_keys допустимым подмножеством полного набора ключей секций, возвращать уникальные значения ключей partition_keys, по умолчанию возвращать уникальные сочетания ключей ключей, принимая полный набор ключей секций этого набора данных, если partition_keys значение None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Параметры

Имя Описание
partition_keys
Обязательно

Ключи секций

register

Зарегистрируйте набор данных в предоставленной рабочей области.

register(workspace, name, description=None, tags=None, create_new_version=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область для регистрации набора данных.

name
Обязательно
str

Имя для регистрации набора данных.

description
Обязательно
str

Текстовое описание набора данных. Значение по умолчанию — None.

tags
Обязательно

Словарь тегов значений ключа для предоставления набора данных. Значение по умолчанию — None.

create_new_version
Обязательно

Логическое значение для регистрации набора данных в качестве новой версии под указанным именем.

Возвращаемое значение

Тип Описание

Зарегистрированный объект набора данных.

remove_tags

Удалите указанные ключи из словаря тегов этого набора данных.

remove_tags(tags=None)

Параметры

Имя Описание
tags
Обязательно

Список ключей для удаления.

Возвращаемое значение

Тип Описание

Обновленный объект набора данных.

unregister_all_versions

Отмените регистрацию всех версий под именем регистрации этого набора данных из рабочей области.

unregister_all_versions()

Комментарии

Операция не изменяет исходные данные.

update

Выполните обновление набора данных на месте.

update(description=None, tags=None)

Параметры

Имя Описание
description
Обязательно
str

Новое описание, используемое для набора данных. Это описание заменяет существующее описание. По умолчанию используется существующее описание. Чтобы очистить описание, введите пустую строку.

tags
Обязательно

Словарь тегов для обновления набора данных. Эти теги заменяют существующие теги для набора данных. По умолчанию для существующих тегов. Чтобы очистить теги, введите пустой словарь.

Возвращаемое значение

Тип Описание

Обновленный объект набора данных.

Атрибуты

data_changed_time

Возвращает время изменения исходных данных.

Возвращаемое значение

Тип Описание

Время, когда последнее изменение произошло с исходными данными.

Комментарии

Время изменения данных доступно для источника данных на основе файлов. Ни один из них не будет возвращен, если источник данных не поддерживается для проверки, когда произошло изменение.

description

Возвращает описание регистрации.

Возвращаемое значение

Тип Описание
str

Описание набора данных.

id

Возвращает идентификатор набора данных.

Возвращаемое значение

Тип Описание
str

Идентификатор набора данных. Если набор данных не сохраняется в какой-либо рабочей области, идентификатор будет иметь значение None.

name

Возвращает имя регистрации.

Возвращаемое значение

Тип Описание
str

Имя набора данных.

partition_keys

Возвращает ключи секции.

Возвращаемое значение

Тип Описание

ключи секций

tags

Возвращает теги регистрации.

Возвращаемое значение

Тип Описание
str

Теги набора данных.

version

Возвращает версию регистрации.

Возвращаемое значение

Тип Описание
int

Версия набора данных.