Dataset Класс

Представляет ресурс для изучения, преобразования и управления данными в Машинном обучении Azure.

Набор данных — это ссылка на данные в Datastore общедоступных веб-URL-адресах или за ним.

Для методов, нерекомендуемых в этом классе, проверьте AbstractDataset класс улучшенных API.

Поддерживаются следующие типы наборов данных:

TabularDataset представляет данные в табличном формате, созданном путем анализа предоставленного файла или списка файлов.
FileDataset ссылается на один или несколько файлов в хранилищах данных или из общедоступных URL-адресов.

Сведения о начале работы с наборами данных см. в статье "Добавление и регистрация наборов данных" или просмотр записных https://aka.ms/tabulardataset-samplenotebook книжек и https://aka.ms/filedataset-samplenotebook.

Инициализация объекта набора данных.

Чтобы получить набор данных, который уже зарегистрирован в рабочей области, используйте метод get.

Конструктор

Dataset(definition, workspace=None, name=None, id=None)

Параметры

Имя	Описание
definition Обязательно	<xref:azureml.data.DatasetDefinition> Определение набора данных.
workspace Обязательно	Workspace Рабочая область, в которой существует набор данных.
name Обязательно	str Имя набора данных.
id Обязательно	str Уникальный идентификатор набора данных.

Класс набора данных предоставляет два атрибута класса удобства (File и Tabular) можно использовать для создания набора данных без работы с соответствующими методами фабрики. Например, чтобы создать набор данных с помощью следующих атрибутов:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Вы также можете создать новый табличный набор данных или FileDataset, непосредственно вызвав соответствующие методы фабрики класса, определенного в TabularDatasetFactory и FileDatasetFactory.

В следующем примере показано, как создать tabularDataset, указывающий на один путь в хранилище данных.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Полный пример доступен из https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Переменные

Имя	Описание
azureml.core.Dataset.File	Атрибут класса, предоставляющий доступ к методам FileDatasetFactory для создания новых объектов FileDataset. Использование: Dataset.File.from_files().
azureml.core.Dataset.Tabular	Атрибут класса, предоставляющий доступ к методам TabularDatasetFactory для создания новых объектов TabularDataset. Использование: Dataset.Tabular.from_delimited_files().

Методы

archive	Архивируйте активный или устаревший набор данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
auto_read_files	Анализирует файлы по указанному пути и возвращает новый набор данных. Замечание Этот метод устарел и больше не будет поддерживаться. Рекомендуется использовать методы Dataset.Tabular.from_* для чтения файлов. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
compare_profiles	Сравните профиль текущего набора данных с другим профилем набора данных. Это показывает различия в сводной статистике между двумя наборами данных. Параметр "rhs_dataset" имеет значение "справа" и является просто вторым набором данных. Первый набор данных (текущий объект набора данных) считается левым. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
create_snapshot	Создайте моментальный снимок зарегистрированного набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
delete_snapshot	Удаление моментального снимка набора данных по имени. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
deprecate	Нерекомендуйте активный набор данных в рабочей области другим набором данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
diff	Диффуйте текущий набор данных с rhs_dataset. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
from_binary_files	Создайте незарегистрированный набор данных в памяти из двоичных файлов. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.File.from_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
from_delimited_files	Создайте незарегистрированный набор данных в памяти из файлов с разделителями. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_delimited_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Создайте незарегистрированный набор данных в памяти из файлов Excel. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
from_json_files	Создайте незарегистрированный набор данных в памяти из JSON-файлов. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_json_lines_files для чтения из файла строк JSON. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Создайте незарегистрированный набор данных в памяти из кадра данных Pandas. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
from_parquet_files	Создайте незарегистрированный набор данных в памяти из файлов parquet. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_parquet_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
from_sql_query	Создайте незарегистрированный набор данных в памяти из SQL-запроса. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_sql_query. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
generate_profile	Создайте новый профиль для набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get	Получите набор данных, который уже существует в рабочей области, указав его имя или идентификатор. Замечание Этот метод устарел и больше не будет поддерживаться. Рекомендуется использовать get_by_name и get_by_id вместо этого. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_all	Получите все зарегистрированные наборы данных в рабочей области.
get_all_snapshots	Получение всех моментальных снимков набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_by_id	Получите набор данных, сохраненный в рабочей области.
get_by_name	Получите зарегистрированный набор данных из рабочей области по его имени регистрации.
get_definition	Получите определенное определение набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_definitions	Получите все определения набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_profile	Получение сводной статистики по набору данных, вычисляемого ранее. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_snapshot	Получение моментального снимка набора данных по имени. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
head	Извлеките указанное количество записей, указанных из этого набора данных, и возвращает их в виде кадра данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
list	Список всех наборов данных в рабочей области, включая те, которые со `is_visible` свойством равны False. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать get_all . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
reactivate	Повторно активируйте архивный или устаревший набор данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
register	Зарегистрируйте набор данных в рабочей области, что делает его доступным для других пользователей рабочей области. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать register . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
sample	Создайте новый образец из исходного набора данных, используя стратегию выборки и предоставленные параметры. Замечание Этот метод устарел и больше не будет поддерживаться. Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот take_sample метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Создайте кадр данных Pandas, выполнив конвейер преобразования, определенный этим определением набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_pandas_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
to_spark_dataframe	Создайте кадр данных Spark, который может выполнить конвейер преобразования, определенный этим определением набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_spark_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
update	Обновите изменяемые атрибуты набора данных в рабочей области и верните обновленный набор данных из рабочей области. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
update_definition	Обновите определение набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

auto_read_files

Анализирует файлы по указанному пути и возвращает новый набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Рекомендуется использовать методы Dataset.Tabular.from_* для чтения файлов. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Параметры

Имя	Описание
path Обязательно	DataReference или str Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP (CSV/TSV).
include_path Обязательно	bool Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Полезно при чтении нескольких файлов и хотите знать, из какого файла была получена определенная запись. Также полезно, если в столбце есть сведения о пути к файлу или имени.
partition_format Обязательно	str Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.csv', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.csv" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime.

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных.

compare_profiles

Сравните профиль текущего набора данных с другим профилем набора данных.

Это показывает различия в сводной статистике между двумя наборами данных. Параметр "rhs_dataset" имеет значение "справа" и является просто вторым набором данных. Первый набор данных (текущий объект набора данных) считается левым.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Параметры

Имя	Описание
rhs_dataset Обязательно	Dataset Второй набор данных, также называемый набором данных правой стороны для сравнения.
profile_arguments Обязательно	dict Аргументы для получения определенного профиля.
include_columns Обязательно	list[str] Список имен столбцов для сравнения.
exclude_columns Обязательно	list[str] Список имен столбцов, которые следует исключить в сравнении.
histogram_compare_method Обязательно	HistogramCompareMethod Перечисление, описывающее метод сравнения, например, Wasserstein или Energy

Возвращаемое значение

Тип	Описание
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Разница между двумя профилями набора данных.

Это только для зарегистрированных наборов данных. Вызывает исключение, если профиль текущего набора данных не существует. Для незарегистрированных наборов данных используется метод profile.compare.

create_snapshot

Создайте моментальный снимок зарегистрированного набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Параметры

Имя	Описание
snapshot_name Обязательно	str Имя моментального снимка. Имена моментальных снимков должны быть уникальными в наборе данных.
compute_target Обязательно	Union[ComputeTarget, str] Необязательный целевой объект вычислений для создания профиля моментального снимка. Если опущено, используется локальное вычисление.
create_data_snapshot Обязательно	bool Если значение True, будет создана материализованная копия данных.
target_datastore Обязательно	Union[AbstractAzureStorageDatastore, str] Целевое хранилище данных для сохранения моментального снимка. Если опущено, моментальный снимок будет создан в хранилище рабочей области по умолчанию.

Возвращаемое значение

Тип	Описание
DatasetSnapshot	Объект моментального снимка набора данных.

Моментальные снимки фиксируют сводную статистику по времени базовых данных и необязательную копию самих данных. Чтобы узнать больше о создании моментальных снимков, перейдите к разделу https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Удаление моментального снимка набора данных по имени.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Параметры

Имя	Описание
snapshot_name Обязательно	str Имя моментального снимка.

Возвращаемое значение

Тип	Описание
None	Нет.

deprecate

Нерекомендуйте активный набор данных в рабочей области другим набором данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Параметры

Имя	Описание
deprecate_by_dataset_id Обязательно	str Идентификатор набора данных, который является предполагаемой заменой этого набора данных.

Возвращаемое значение

Тип	Описание
None	Нет.

diff

Диффуйте текущий набор данных с rhs_dataset.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Параметры

Имя	Описание
rhs_dataset Обязательно	Dataset Другой набор данных также называется правым набором данных для сравнения
compute_target Обязательно	Union[ComputeTarget, str] целевой объект вычислений для выполнения диффа. Если опущено, используется локальное вычисление.
columns Обязательно	list[str] Список имен столбцов для включения в дифф.

Возвращаемое значение

Тип	Описание
DatasetActionRun	Объект выполнения действия набора данных.

from_binary_files

Создайте незарегистрированный набор данных в памяти из двоичных файлов.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.File.from_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Параметры

Имя	Описание
path Обязательно	DataReference или str Путь к данным в зарегистрированном хранилище данных или локальный путь.

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных.

Используйте этот метод для чтения файлов в виде потоков двоичных данных. Возвращает один объект потока файлов на чтение файла. Используйте этот метод при чтении изображений, видео, аудио или других двоичных данных.

get_profile и create_snapshot не будет работать должным образом для набора данных, созданного этим методом.

Возвращаемый набор данных не зарегистрирован в рабочей области.

from_delimited_files

Создайте незарегистрированный набор данных в памяти из файлов с разделителями.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_delimited_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Параметры

Имя	Описание
path Обязательно	DataReference или str Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP.
separator Обязательно	str Разделитель, используемый для разделения столбцов.
header Обязательно	PromoteHeadersBehavior Управляет повышением уровня заголовков столбцов при чтении из файлов.
encoding Обязательно	FileEncoding Кодировка считываемых файлов.
quoting Обязательно	bool Укажите способ обработки новых символов строки в кавычках. Значение по умолчанию (False) — интерпретировать новые символы строк как начальные новые строки независимо от того, находятся ли новые символы строки в кавычках или нет. Если задано значение True, новые символы строки внутри кавычки не будут приводить к новым строкам, а скорость чтения файлов замедлится.
infer_column_types Обязательно	bool Указывает, выводятся ли типы данных столбцов.
skip_rows Обязательно	int Сколько строк, которые нужно пропустить в считываемых файлах.
skip_mode Обязательно	SkipLinesBehavior Определяет, как строки пропускаются при чтении из файлов.
comment Обязательно	str Символ, используемый для указания строк комментариев в считываемых файлах. Строки, начинающие с этой строки, будут пропущены.
include_path Обязательно	bool Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.
archive_options Обязательно	<xref:azureml.dataprep.ArchiveOptions> Параметры архивного файла, включая тип архива и шаблон глобового объекта. В данный момент мы поддерживаем только ZIP-файл в качестве типа архива. Например, указание `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` считывает все файлы с именем, заканчивающимися "10-20.csv" в ZIP-файле.
partition_format Обязательно	str Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.csv', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.csv" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime.

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных.

from_excel_files

Создайте незарегистрированный набор данных в памяти из файлов Excel.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Параметры

Имя	Описание
path Обязательно	DataReference или str Путь к данным в зарегистрированном хранилище данных или локальный путь.
sheet_name Обязательно	str Имя листа Excel для загрузки. По умолчанию мы считываем первый лист из каждого файла Excel.
use_column_headers Обязательно	bool Определяет, следует ли использовать первую строку в качестве заголовков столбцов.
skip_rows Обязательно	int Сколько строк, которые нужно пропустить в считываемых файлах.
include_path Обязательно	bool Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.
infer_column_types Обязательно	bool Если значение true, типы данных столбцов будут выводиться.
partition_format Обязательно	str Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.xlsx', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.xlsx" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime.

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных.

Используйте этот метод для чтения файлов Excel в .xlsx формате. Данные можно считывать на одном листе в каждом файле Excel. После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца. Возвращаемый набор данных не зарегистрирован в рабочей области.

from_json_files

Создайте незарегистрированный набор данных в памяти из JSON-файлов.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_json_lines_files для чтения из файла строк JSON. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Параметры

Имя	Описание
path Обязательно	DataReference или str Путь к файлам или папкам, которые требуется загрузить и проанализировать. Это может быть локальный путь или URL-адрес БОЛЬШОго двоичного объекта Azure. Поддерживается глоббинг. Например, можно использовать путь = "./data*" для чтения всех файлов с именем, начиная с "data".
encoding Обязательно	FileEncoding Кодировка считываемых файлов.
flatten_nested_arrays Обязательно	bool Свойство, управляющее обработкой вложенных массивов программы. Если вы решили сложить вложенные массивы JSON, это может привести к гораздо большему количеству строк.
include_path Обязательно	bool Следует ли включать столбец, содержащий путь, из которого были прочитаны данные. Это полезно при чтении нескольких файлов и может потребоваться знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.
partition_format Обязательно	str Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.json' и данные секционируются по имени и времени отдела, мы можем определить "/{Department}/{PartitionDate:y/MM/dd}/data.json" для создания столбцов "Отдел" типа строк и "PartitionDate" типа datetime.

Возвращаемое значение

Тип	Описание
Dataset	Локальный объект набора данных.

from_pandas_dataframe

Создайте незарегистрированный набор данных в памяти из кадра данных Pandas.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Параметры

Имя	Описание
dataframe Обязательно	DataFrame Кадр данных Pandas.
path Обязательно	Union[DataReference, str] Путь к данным в зарегистрированном хранилище данных или путь к локальной папке.
in_memory Обязательно	bool Следует ли считывать кадр данных из памяти вместо сохранения на диске.

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных.

Используйте этот метод для преобразования кадра данных Pandas в объект набора данных. Набор данных, созданный этим методом, не может быть зарегистрирован, так как данные из памяти.

Если in_memory имеет значение False, кадр данных Pandas преобразуется в CSV-файл локально. Если pat имеет тип DataReference, кадр Pandas будет отправлен в хранилище данных, а набор данных будет основан на DataReference. Если "путь" является локальной папкой, набор данных будет создан из локального файла, который нельзя удалить.

Вызывает исключение, если текущий объект DataReference не является путем к папке.

from_parquet_files

Создайте незарегистрированный набор данных в памяти из файлов parquet.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_parquet_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Параметры

Имя	Описание
path Обязательно	DataReference или str Путь к данным в зарегистрированном хранилище данных или локальный путь.
include_path Обязательно	bool Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.
partition_format Обязательно	str Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.parquet', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.parquet", чтобы создать столбцы "Отдел" типа строк и PartitionDate типа datetime.

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных.

from_sql_query

Создайте незарегистрированный набор данных в памяти из SQL-запроса.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_sql_query. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Параметры

Имя	Описание
data_source Обязательно	AzureSqlDatabaseDatastore Сведения о хранилище данных SQL Azure.
query Обязательно	str Запрос для чтения данных.

Возвращаемое значение

Тип	Описание
Dataset	Локальный объект набора данных.

generate_profile

Создайте новый профиль для набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Параметры

Имя	Описание
compute_target Обязательно	Union[ComputeTarget, str] Необязательный целевой объект вычислений для создания профиля моментального снимка. Если опущено, используется локальное вычисление.
workspace Обязательно	Workspace Рабочая область, необходимая для временных (незарегистрированных) наборов данных.
arguments Обязательно	dict[str, object] Аргументы профиля. Допустимые аргументы: "include_stype_counts" типа bool. Проверьте, выглядят ли значения как некоторые известные семантические типы, такие как адрес электронной почты, IP-адрес (V4/V6), номер телефона США, zipcode США, широта и долгота. Включение этого влияния на производительность. "number_of_histogram_bins" типа int. Представляет количество гистограмм, используемых для числовых данных. Значение по умолчанию — 10.

Возвращаемое значение

Тип	Описание
DatasetActionRun	Объект выполнения действия набора данных.

get

Получите набор данных, который уже существует в рабочей области, указав его имя или идентификатор.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Рекомендуется использовать get_by_name и get_by_id вместо этого. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Параметры

Имя	Описание
workspace Обязательно	Workspace Существующая рабочая область AzureML, в которой был создан набор данных.
name Обязательно	str Имя извлекаемого набора данных.
id Обязательно	str Уникальный идентификатор набора данных в рабочей области.

Возвращаемое значение

Тип	Описание
Dataset	Набор данных с указанным именем или идентификатором.

get_all

Получите все зарегистрированные наборы данных в рабочей области.

get_all()

Параметры

Имя	Описание
workspace Обязательно	Workspace Существующая рабочая область AzureML, в которой зарегистрированы наборы данных.

Возвращаемое значение

Тип	Описание
dict[str, Union[TabularDataset, FileDataset]]	Словарь объектов TabularDataset и FileDataset, ключом по имени регистрации.

get_all_snapshots

Получение всех моментальных снимков набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_all_snapshots()

Возвращаемое значение

Тип	Описание
list[DatasetSnapshot]	Список моментальных снимков набора данных.

get_by_id

Получите набор данных, сохраненный в рабочей области.

get_by_id(id, **kwargs)

Параметры

Имя	Описание
workspace Обязательно	Workspace Существующая рабочая область AzureML, в которой сохраняется набор данных.
id Обязательно	str Идентификатор набора данных.

Возвращаемое значение

Тип	Описание
Union[TabularDataset, FileDataset]	Объект набора данных. Если набор данных зарегистрирован, его имя регистрации и версия также будут возвращены.

get_by_name

Получите зарегистрированный набор данных из рабочей области по его имени регистрации.

get_by_name(name, version='latest', **kwargs)

Параметры

Имя	Описание
workspace Обязательно	Workspace Существующая рабочая область AzureML, в которой был зарегистрирован набор данных.
name Обязательно	str Имя регистрации.
version Обязательно	int Версия регистрации. По умолчанию используется значение "latest".

Возвращаемое значение

Тип	Описание
Union[TabularDataset, FileDataset]	Зарегистрированный объект набора данных.

get_definition

Получите определенное определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Параметры

Имя	Описание
version_id Обязательно	str Идентификатор версии определения набора данных

Возвращаемое значение

Тип	Описание
DatasetDefinition	Определение набора данных.

Если version_id задано, машинное обучение Azure пытается получить определение, соответствующее этой версии. Если эта версия не существует, создается исключение. Если version_id опущено, то извлекается последняя версия.

get_definitions

Получите все определения набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_definitions()

Возвращаемое значение

Тип	Описание
dict[str, DatasetDefinition]	Словарь определений набора данных.

get_profile

Получение сводной статистики по набору данных, вычисляемого ранее.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Параметры

Имя	Описание
arguments Обязательно	dict[str, object] Аргументы профиля.
generate_if_not_exist Обязательно	bool Указывает, следует ли создавать профиль, если он не существует.
workspace Обязательно	Workspace Рабочая область, необходимая для временных (незарегистрированных) наборов данных.
compute_target Обязательно	Union[ComputeTarget, str] Целевой объект вычислений для выполнения действия профиля.

Возвращаемое значение

Тип	Описание
<xref:azureml.dataprep.DataProfile>	DataProfile набора данных.

Для набора данных, зарегистрированного в рабочей области Машинного обучения Azure, этот метод извлекает существующий профиль, созданный ранее путем вызова get_profile , если он по-прежнему действителен. Профили недопустимы при обнаружении измененных данных в наборе данных или аргументах get_profile , которые отличаются от тех, которые используются при создании профиля. Если профиль отсутствует или недействителен, определит, generate_if_not_exist создается ли новый профиль.

Для набора данных, который не зарегистрирован в рабочей области Машинного обучения Azure, этот метод всегда выполняется generate_profile и возвращает результат.

get_snapshot

Получение моментального снимка набора данных по имени.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Параметры

Имя	Описание
snapshot_name Обязательно	str Имя моментального снимка.

Возвращаемое значение

Тип	Описание
DatasetSnapshot	Объект моментального снимка набора данных.

head

Извлеките указанное количество записей, указанных из этого набора данных, и возвращает их в виде кадра данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

head(count)

Параметры

Имя	Описание
count Обязательно	int Количество записей для извлечения.

Возвращаемое значение

Тип	Описание
DataFrame	Кадр данных Pandas.

list

Список всех наборов данных в рабочей области, включая те, которые со is_visible свойством равны False.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать get_all . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static list(workspace)

Параметры

Имя	Описание
workspace Обязательно	Workspace Рабочая область, для которой требуется получить список наборов данных.

Возвращаемое значение

Тип	Описание
list[Dataset]	Список объектов набора данных.

reactivate

Повторно активируйте архивный или устаревший набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

reactivate()

Возвращаемое значение

Тип	Описание
None	Нет.

register

Зарегистрируйте набор данных в рабочей области, что делает его доступным для других пользователей рабочей области.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать register . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Параметры

Имя	Описание
workspace Обязательно	Workspace Рабочая область AzureML, в которой должен быть зарегистрирован набор данных.
name Обязательно	str Имя набора данных в рабочей области.
description Обязательно	str Описание набора данных.
tags Обязательно	dict[str, str] Теги для связывания с набором данных.
visible Обязательно	bool Указывает, отображается ли набор данных в пользовательском интерфейсе. Если значение false, то набор данных скрыт в пользовательском интерфейсе и доступен через пакет SDK.
exist_ok Обязательно	bool Если значение True, метод возвращает набор данных, если он уже существует в данной рабочей области, в противном случае возникает ошибка.
update_if_exist Обязательно	bool Если `exist_ok` задано значение True и `update_if_exist` имеет значение True, этот метод обновит определение и возвращает обновленный набор данных.

Возвращаемое значение

Тип	Описание
Dataset	Зарегистрированный объект набора данных в рабочей области.

sample

Создайте новый образец из исходного набора данных, используя стратегию выборки и предоставленные параметры.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот take_sample метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Параметры

Имя

Описание

sample_strategy

Обязательно

str

Пример стратегии использования. Допустимые значения: "top_n", "simple_random" или "стратифицировано".

arguments

Обязательно

dict[str, object]

Словарь с ключами из столбца "Необязательный аргумент" в списке, показанном выше, и значения из столбца tye "Type". Можно использовать только аргументы из соответствующего метода выборки. Например, для типа примера "simple_random" можно указать только словарь с ключами "вероятность" и "начальное значение".

Возвращаемое значение

Тип	Описание
Dataset	Объект набора данных в качестве образца исходного набора данных.

Примеры создаются путем выполнения конвейера преобразования, определенного этим набором данных, а затем применение стратегии выборки и параметров к выходным данным. Каждый метод выборки поддерживает следующие необязательные аргументы:

top_n
- Необязательные аргументы
  - n, введите целое число. Выберите первые N-строки в качестве примера.
simple_random
- Необязательные аргументы
  - вероятность, тип float. Простая случайная выборка, в которой каждая строка имеет одинаковую вероятность выбора. Вероятность должна быть числом от 0 до 1.
  - seed, type float. Используется генератором случайных чисел. Используется для повторяемости.
Стратифицированной
- Необязательные аргументы
  - столбцы, список типов[str]. Список столбцов слоев в данных.
  - seed, type float. Используется генератором случайных чисел. Используется для повторяемости.
  - дроби, тип дикт[кортеж, float]. Кортеж: значения столбцов, определяющие страт, должны находиться в том же порядке, что и имена столбцов. Float: вес, присоединенный к страту во время выборки.

Приведенные ниже фрагменты кода являются примерами шаблонов проектирования для различных примеров методов.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Создайте кадр данных Pandas, выполнив конвейер преобразования, определенный этим определением набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_pandas_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Возвращаемое значение

Тип	Описание
DataFrame	Кадр данных Pandas.

to_spark_dataframe

Создайте кадр данных Spark, который может выполнить конвейер преобразования, определенный этим определением набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_spark_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Возвращаемое значение

Тип	Описание
DataFrame	Кадр данных Spark.

update

Обновите изменяемые атрибуты набора данных в рабочей области и верните обновленный набор данных из рабочей области.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Параметры

Имя	Описание
name Обязательно	str Имя набора данных в рабочей области.
description Обязательно	str Описание данных.
tags Обязательно	dict[str, str] Теги для связывания набора данных с.
visible Обязательно	bool Указывает, отображается ли набор данных в пользовательском интерфейсе.

Возвращаемое значение

Тип	Описание
Dataset	Обновленный объект набора данных из рабочей области.

update_definition

Обновите определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Параметры

Имя	Описание
definition Обязательно	DatasetDefinition Новое определение этого набора данных.
definition_update_message Обязательно	str Сообщение об обновлении определения.

Возвращаемое значение

Тип	Описание
Dataset	Обновленный объект набора данных из рабочей области.

Атрибуты

definition

Возвращает текущее определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип	Описание
DatasetDefinition	Определение набора данных.

Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Наличие нескольких определений позволяет вносить изменения в существующие наборы данных без критических моделей и конвейеров, которые зависят от старого определения.

Для незарегистрированных наборов данных существует только одно определение.

definition_version

Возвращает версию текущего определения набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип	Описание
str	Версия определения набора данных.

Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным, идентификатор которого возвращается этим.

Для незарегистрированных наборов данных существует только одно определение.

description

Возвращает описание набора данных.

Возвращаемое значение

Тип	Описание
str	Описание набора данных.

id

Если набор данных зарегистрирован в рабочей области, верните идентификатор набора данных. В противном случае верните значение None.

Возвращаемое значение

Тип	Описание
str	Идентификатор набора данных.

is_visible

Управление видимостью зарегистрированного набора данных в пользовательском интерфейсе рабочей области Машинного обучения Azure.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип	Описание
bool	Видимость набора данных.

name

Возвращает имя набора данных.

Возвращаемое значение

Тип	Описание
str	Имя набора данных.

state

Возвращает состояние набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип	Описание
str	Состояние набора данных.

Активный. Активные определения — это то, что они похожи, все действия можно выполнять с активными определениями.
Устарело. Нерекомендуемое определение можно использовать, но приведет к тому, что предупреждение регистрируется в журналах каждый раз, когда доступ к базовым данным осуществляется.
Архив. Архивное определение нельзя использовать для выполнения каких-либо действий. Чтобы выполнить действия в архивном определении, его необходимо повторно активировать.

workspace

Если набор данных зарегистрирован в рабочей области, верните его. В противном случае верните значение None.

Возвращаемое значение

Тип	Описание
Workspace	Рабочая область.

Tabular

Фабрика для создания FileDataset

псевдоним TabularDatasetFactory

Поделиться через

Dataset Класс

Конструктор

Параметры

Комментарии

Переменные

Методы

archive

Возвращаемое значение

Комментарии

auto_read_files

Параметры

Возвращаемое значение

Комментарии

compare_profiles

Параметры

Возвращаемое значение

Комментарии

create_snapshot

Параметры

Возвращаемое значение

Комментарии

delete_snapshot

Параметры

Возвращаемое значение

Комментарии

deprecate

Параметры

Возвращаемое значение

Комментарии

diff

Параметры

Возвращаемое значение

from_binary_files

Параметры

Возвращаемое значение

Комментарии

from_delimited_files

Параметры

Возвращаемое значение

Комментарии

from_excel_files

Параметры

Возвращаемое значение

Комментарии

from_json_files

Параметры

Возвращаемое значение

from_pandas_dataframe

Параметры

Возвращаемое значение

Комментарии

from_parquet_files

Параметры

Возвращаемое значение

Комментарии

from_sql_query

Параметры

Возвращаемое значение

generate_profile

Параметры

Возвращаемое значение

Комментарии

get

Параметры

Возвращаемое значение

Комментарии

get_all

Параметры

Возвращаемое значение

get_all_snapshots

Возвращаемое значение

get_by_id

Параметры

Возвращаемое значение

get_by_name

Параметры

Возвращаемое значение

get_definition

Параметры