Поделиться через


Dataset Класс

Представляет ресурс для изучения, преобразования и управления данными в Машинном обучении Azure.

Набор данных — это ссылка на данные в Datastore общедоступных веб-URL-адресах или за ним.

Для методов, нерекомендуемых в этом классе, проверьте AbstractDataset класс улучшенных API.

Поддерживаются следующие типы наборов данных:

  • TabularDataset представляет данные в табличном формате, созданном путем анализа предоставленного файла или списка файлов.

  • FileDataset ссылается на один или несколько файлов в хранилищах данных или из общедоступных URL-адресов.

Сведения о начале работы с наборами данных см. в статье "Добавление и регистрация наборов данных" или просмотр записных https://aka.ms/tabulardataset-samplenotebook книжек и https://aka.ms/filedataset-samplenotebook.

Инициализация объекта набора данных.

Чтобы получить набор данных, который уже зарегистрирован в рабочей области, используйте метод get.

Конструктор

Dataset(definition, workspace=None, name=None, id=None)

Параметры

Имя Описание
definition
Обязательно
<xref:azureml.data.DatasetDefinition>

Определение набора данных.

workspace
Обязательно

Рабочая область, в которой существует набор данных.

name
Обязательно
str

Имя набора данных.

id
Обязательно
str

Уникальный идентификатор набора данных.

Комментарии

Класс набора данных предоставляет два атрибута класса удобства (File и Tabular) можно использовать для создания набора данных без работы с соответствующими методами фабрики. Например, чтобы создать набор данных с помощью следующих атрибутов:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Вы также можете создать новый табличный набор данных или FileDataset, непосредственно вызвав соответствующие методы фабрики класса, определенного в TabularDatasetFactory и FileDatasetFactory.

В следующем примере показано, как создать tabularDataset, указывающий на один путь в хранилище данных.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Полный пример доступен из https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Переменные

Имя Описание
azureml.core.Dataset.File

Атрибут класса, предоставляющий доступ к методам FileDatasetFactory для создания новых объектов FileDataset. Использование: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Атрибут класса, предоставляющий доступ к методам TabularDatasetFactory для создания новых объектов TabularDataset. Использование: Dataset.Tabular.from_delimited_files().

Методы

archive

Архивируйте активный или устаревший набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

auto_read_files

Анализирует файлы по указанному пути и возвращает новый набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Рекомендуется использовать методы Dataset.Tabular.from_* для чтения файлов. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

compare_profiles

Сравните профиль текущего набора данных с другим профилем набора данных.

Это показывает различия в сводной статистике между двумя наборами данных. Параметр "rhs_dataset" имеет значение "справа" и является просто вторым набором данных. Первый набор данных (текущий объект набора данных) считается левым.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

create_snapshot

Создайте моментальный снимок зарегистрированного набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

delete_snapshot

Удаление моментального снимка набора данных по имени.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

deprecate

Нерекомендуйте активный набор данных в рабочей области другим набором данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

diff

Диффуйте текущий набор данных с rhs_dataset.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

from_binary_files

Создайте незарегистрированный набор данных в памяти из двоичных файлов.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.File.from_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

from_delimited_files

Создайте незарегистрированный набор данных в памяти из файлов с разделителями.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_delimited_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Создайте незарегистрированный набор данных в памяти из файлов Excel.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

from_json_files

Создайте незарегистрированный набор данных в памяти из JSON-файлов.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_json_lines_files для чтения из файла строк JSON. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Создайте незарегистрированный набор данных в памяти из кадра данных Pandas.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

from_parquet_files

Создайте незарегистрированный набор данных в памяти из файлов parquet.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_parquet_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

from_sql_query

Создайте незарегистрированный набор данных в памяти из SQL-запроса.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_sql_query. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

generate_profile

Создайте новый профиль для набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get

Получите набор данных, который уже существует в рабочей области, указав его имя или идентификатор.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Рекомендуется использовать get_by_name и get_by_id вместо этого. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_all

Получите все зарегистрированные наборы данных в рабочей области.

get_all_snapshots

Получение всех моментальных снимков набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_by_id

Получите набор данных, сохраненный в рабочей области.

get_by_name

Получите зарегистрированный набор данных из рабочей области по его имени регистрации.

get_definition

Получите определенное определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_definitions

Получите все определения набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_profile

Получение сводной статистики по набору данных, вычисляемого ранее.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_snapshot

Получение моментального снимка набора данных по имени.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

head

Извлеките указанное количество записей, указанных из этого набора данных, и возвращает их в виде кадра данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

list

Список всех наборов данных в рабочей области, включая те, которые со is_visible свойством равны False.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать get_all . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

reactivate

Повторно активируйте архивный или устаревший набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

register

Зарегистрируйте набор данных в рабочей области, что делает его доступным для других пользователей рабочей области.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать register . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

sample

Создайте новый образец из исходного набора данных, используя стратегию выборки и предоставленные параметры.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот take_sample метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Создайте кадр данных Pandas, выполнив конвейер преобразования, определенный этим определением набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_pandas_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

to_spark_dataframe

Создайте кадр данных Spark, который может выполнить конвейер преобразования, определенный этим определением набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_spark_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

update

Обновите изменяемые атрибуты набора данных в рабочей области и верните обновленный набор данных из рабочей области.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

update_definition

Обновите определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

archive

Архивируйте активный или устаревший набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

archive()

Возвращаемое значение

Тип Описание

Нет.

Комментарии

После архивации любая попытка использования набора данных приведет к ошибке. Если архивирован по случайному случаю, повторная активация активирует его.

auto_read_files

Анализирует файлы по указанному пути и возвращает новый набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Рекомендуется использовать методы Dataset.Tabular.from_* для чтения файлов. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Параметры

Имя Описание
path
Обязательно

Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP (CSV/TSV).

include_path
Обязательно

Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Полезно при чтении нескольких файлов и хотите знать, из какого файла была получена определенная запись. Также полезно, если в столбце есть сведения о пути к файлу или имени.

partition_format
Обязательно
str

Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.csv', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.csv" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime.

Возвращаемое значение

Тип Описание

Объект набора данных.

Комментарии

Этот метод используется при автоматическом обнаружении форматов файлов и разделителей.

После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца.

Возвращаемый набор данных не зарегистрирован в рабочей области.

compare_profiles

Сравните профиль текущего набора данных с другим профилем набора данных.

Это показывает различия в сводной статистике между двумя наборами данных. Параметр "rhs_dataset" имеет значение "справа" и является просто вторым набором данных. Первый набор данных (текущий объект набора данных) считается левым.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Параметры

Имя Описание
rhs_dataset
Обязательно

Второй набор данных, также называемый набором данных правой стороны для сравнения.

profile_arguments
Обязательно

Аргументы для получения определенного профиля.

include_columns
Обязательно

Список имен столбцов для сравнения.

exclude_columns
Обязательно

Список имен столбцов, которые следует исключить в сравнении.

histogram_compare_method
Обязательно

Перечисление, описывающее метод сравнения, например, Wasserstein или Energy

Возвращаемое значение

Тип Описание
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Разница между двумя профилями набора данных.

Комментарии

Это только для зарегистрированных наборов данных. Вызывает исключение, если профиль текущего набора данных не существует. Для незарегистрированных наборов данных используется метод profile.compare.

create_snapshot

Создайте моментальный снимок зарегистрированного набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Параметры

Имя Описание
snapshot_name
Обязательно
str

Имя моментального снимка. Имена моментальных снимков должны быть уникальными в наборе данных.

compute_target
Обязательно

Необязательный целевой объект вычислений для создания профиля моментального снимка. Если опущено, используется локальное вычисление.

create_data_snapshot
Обязательно

Если значение True, будет создана материализованная копия данных.

target_datastore
Обязательно

Целевое хранилище данных для сохранения моментального снимка. Если опущено, моментальный снимок будет создан в хранилище рабочей области по умолчанию.

Возвращаемое значение

Тип Описание

Объект моментального снимка набора данных.

Комментарии

Моментальные снимки фиксируют сводную статистику по времени базовых данных и необязательную копию самих данных. Чтобы узнать больше о создании моментальных снимков, перейдите к разделу https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Удаление моментального снимка набора данных по имени.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Параметры

Имя Описание
snapshot_name
Обязательно
str

Имя моментального снимка.

Возвращаемое значение

Тип Описание

Нет.

Комментарии

Используйте это для освобождения хранилища, потребляемого данными, сохраненными в моментальных снимках, которые больше не нужны.

deprecate

Нерекомендуйте активный набор данных в рабочей области другим набором данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Параметры

Имя Описание
deprecate_by_dataset_id
Обязательно
str

Идентификатор набора данных, который является предполагаемой заменой этого набора данных.

Возвращаемое значение

Тип Описание

Нет.

Комментарии

Устаревшие наборы данных будут записывать предупреждения при их использовании. Не рекомендуется использовать набор данных, нерекомендующий все его определения.

Устаревшие наборы данных по-прежнему могут использоваться. Чтобы полностью заблокировать использование набора данных, заархивируйте его.

Если не рекомендуется в случае аварии, повторно активируйте его.

diff

Диффуйте текущий набор данных с rhs_dataset.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Параметры

Имя Описание
rhs_dataset
Обязательно

Другой набор данных также называется правым набором данных для сравнения

compute_target
Обязательно

целевой объект вычислений для выполнения диффа. Если опущено, используется локальное вычисление.

columns
Обязательно

Список имен столбцов для включения в дифф.

Возвращаемое значение

Тип Описание

Объект выполнения действия набора данных.

from_binary_files

Создайте незарегистрированный набор данных в памяти из двоичных файлов.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.File.from_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Параметры

Имя Описание
path
Обязательно

Путь к данным в зарегистрированном хранилище данных или локальный путь.

Возвращаемое значение

Тип Описание

Объект набора данных.

Комментарии

Используйте этот метод для чтения файлов в виде потоков двоичных данных. Возвращает один объект потока файлов на чтение файла. Используйте этот метод при чтении изображений, видео, аудио или других двоичных данных.

get_profile и create_snapshot не будет работать должным образом для набора данных, созданного этим методом.

Возвращаемый набор данных не зарегистрирован в рабочей области.

from_delimited_files

Создайте незарегистрированный набор данных в памяти из файлов с разделителями.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_delimited_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Параметры

Имя Описание
path
Обязательно

Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP.

separator
Обязательно
str

Разделитель, используемый для разделения столбцов.

header
Обязательно

Управляет повышением уровня заголовков столбцов при чтении из файлов.

encoding
Обязательно

Кодировка считываемых файлов.

quoting
Обязательно

Укажите способ обработки новых символов строки в кавычках. Значение по умолчанию (False) — интерпретировать новые символы строк как начальные новые строки независимо от того, находятся ли новые символы строки в кавычках или нет. Если задано значение True, новые символы строки внутри кавычки не будут приводить к новым строкам, а скорость чтения файлов замедлится.

infer_column_types
Обязательно

Указывает, выводятся ли типы данных столбцов.

skip_rows
Обязательно
int

Сколько строк, которые нужно пропустить в считываемых файлах.

skip_mode
Обязательно

Определяет, как строки пропускаются при чтении из файлов.

comment
Обязательно
str

Символ, используемый для указания строк комментариев в считываемых файлах. Строки, начинающие с этой строки, будут пропущены.

include_path
Обязательно

Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.

archive_options
Обязательно
<xref:azureml.dataprep.ArchiveOptions>

Параметры архивного файла, включая тип архива и шаблон глобового объекта. В данный момент мы поддерживаем только ZIP-файл в качестве типа архива. Например, указание


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

считывает все файлы с именем, заканчивающимися "10-20.csv" в ZIP-файле.

partition_format
Обязательно
str

Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.csv', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.csv" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime.

Возвращаемое значение

Тип Описание

Объект набора данных.

Комментарии

Используйте этот метод для чтения текстовых файлов с разделителями, если вы хотите управлять используемыми параметрами.

После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца.

Возвращаемый набор данных не зарегистрирован в рабочей области.

from_excel_files

Создайте незарегистрированный набор данных в памяти из файлов Excel.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Параметры

Имя Описание
path
Обязательно

Путь к данным в зарегистрированном хранилище данных или локальный путь.

sheet_name
Обязательно
str

Имя листа Excel для загрузки. По умолчанию мы считываем первый лист из каждого файла Excel.

use_column_headers
Обязательно

Определяет, следует ли использовать первую строку в качестве заголовков столбцов.

skip_rows
Обязательно
int

Сколько строк, которые нужно пропустить в считываемых файлах.

include_path
Обязательно

Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.

infer_column_types
Обязательно

Если значение true, типы данных столбцов будут выводиться.

partition_format
Обязательно
str

Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.xlsx', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.xlsx" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime.

Возвращаемое значение

Тип Описание

Объект набора данных.

Комментарии

Используйте этот метод для чтения файлов Excel в .xlsx формате. Данные можно считывать на одном листе в каждом файле Excel. После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца. Возвращаемый набор данных не зарегистрирован в рабочей области.

from_json_files

Создайте незарегистрированный набор данных в памяти из JSON-файлов.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_json_lines_files для чтения из файла строк JSON. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Параметры

Имя Описание
path
Обязательно

Путь к файлам или папкам, которые требуется загрузить и проанализировать. Это может быть локальный путь или URL-адрес БОЛЬШОго двоичного объекта Azure. Поддерживается глоббинг. Например, можно использовать путь = "./data*" для чтения всех файлов с именем, начиная с "data".

encoding
Обязательно

Кодировка считываемых файлов.

flatten_nested_arrays
Обязательно

Свойство, управляющее обработкой вложенных массивов программы. Если вы решили сложить вложенные массивы JSON, это может привести к гораздо большему количеству строк.

include_path
Обязательно

Следует ли включать столбец, содержащий путь, из которого были прочитаны данные. Это полезно при чтении нескольких файлов и может потребоваться знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.

partition_format
Обязательно
str

Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.json' и данные секционируются по имени и времени отдела, мы можем определить "/{Department}/{PartitionDate:y/MM/dd}/data.json" для создания столбцов "Отдел" типа строк и "PartitionDate" типа datetime.

Возвращаемое значение

Тип Описание

Локальный объект набора данных.

from_pandas_dataframe

Создайте незарегистрированный набор данных в памяти из кадра данных Pandas.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Параметры

Имя Описание
dataframe
Обязательно

Кадр данных Pandas.

path
Обязательно

Путь к данным в зарегистрированном хранилище данных или путь к локальной папке.

in_memory
Обязательно

Следует ли считывать кадр данных из памяти вместо сохранения на диске.

Возвращаемое значение

Тип Описание

Объект набора данных.

Комментарии

Используйте этот метод для преобразования кадра данных Pandas в объект набора данных. Набор данных, созданный этим методом, не может быть зарегистрирован, так как данные из памяти.

Если in_memory имеет значение False, кадр данных Pandas преобразуется в CSV-файл локально. Если pat имеет тип DataReference, кадр Pandas будет отправлен в хранилище данных, а набор данных будет основан на DataReference. Если "путь" является локальной папкой, набор данных будет создан из локального файла, который нельзя удалить.

Вызывает исключение, если текущий объект DataReference не является путем к папке.

from_parquet_files

Создайте незарегистрированный набор данных в памяти из файлов parquet.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_parquet_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Параметры

Имя Описание
path
Обязательно

Путь к данным в зарегистрированном хранилище данных или локальный путь.

include_path
Обязательно

Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу.

partition_format
Обязательно
str

Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.parquet', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.parquet", чтобы создать столбцы "Отдел" типа строк и PartitionDate типа datetime.

Возвращаемое значение

Тип Описание

Объект набора данных.

Комментарии

Используйте этот метод для чтения файлов Parquet.

После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца.

Возвращаемый набор данных не зарегистрирован в рабочей области.

from_sql_query

Создайте незарегистрированный набор данных в памяти из SQL-запроса.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать Dataset.Tabular.from_sql_query. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Параметры

Имя Описание
data_source
Обязательно

Сведения о хранилище данных SQL Azure.

query
Обязательно
str

Запрос для чтения данных.

Возвращаемое значение

Тип Описание

Локальный объект набора данных.

generate_profile

Создайте новый профиль для набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Параметры

Имя Описание
compute_target
Обязательно

Необязательный целевой объект вычислений для создания профиля моментального снимка. Если опущено, используется локальное вычисление.

workspace
Обязательно

Рабочая область, необходимая для временных (незарегистрированных) наборов данных.

arguments
Обязательно

Аргументы профиля. Допустимые аргументы:

  • "include_stype_counts" типа bool. Проверьте, выглядят ли значения как некоторые известные семантические типы, такие как адрес электронной почты, IP-адрес (V4/V6), номер телефона США, zipcode США, широта и долгота. Включение этого влияния на производительность.

  • "number_of_histogram_bins" типа int. Представляет количество гистограмм, используемых для числовых данных. Значение по умолчанию — 10.

Возвращаемое значение

Тип Описание

Объект выполнения действия набора данных.

Комментарии

Синхронный вызов блокируется до завершения. Вызов get_result , чтобы получить результат действия.

get

Получите набор данных, который уже существует в рабочей области, указав его имя или идентификатор.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Рекомендуется использовать get_by_name и get_by_id вместо этого. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой был создан набор данных.

name
Обязательно
str

Имя извлекаемого набора данных.

id
Обязательно
str

Уникальный идентификатор набора данных в рабочей области.

Возвращаемое значение

Тип Описание

Набор данных с указанным именем или идентификатором.

Комментарии

Можно указать или nameid. Исключение возникает, если:

  • name оба и указаны, id но не соответствуют.

  • Набор данных с указанным name или id не удается найти в рабочей области.

get_all

Получите все зарегистрированные наборы данных в рабочей области.

get_all()

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой зарегистрированы наборы данных.

Возвращаемое значение

Тип Описание

Словарь объектов TabularDataset и FileDataset, ключом по имени регистрации.

get_all_snapshots

Получение всех моментальных снимков набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_all_snapshots()

Возвращаемое значение

Тип Описание

Список моментальных снимков набора данных.

get_by_id

Получите набор данных, сохраненный в рабочей области.

get_by_id(id, **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой сохраняется набор данных.

id
Обязательно
str

Идентификатор набора данных.

Возвращаемое значение

Тип Описание

Объект набора данных. Если набор данных зарегистрирован, его имя регистрации и версия также будут возвращены.

get_by_name

Получите зарегистрированный набор данных из рабочей области по его имени регистрации.

get_by_name(name, version='latest', **kwargs)

Параметры

Имя Описание
workspace
Обязательно

Существующая рабочая область AzureML, в которой был зарегистрирован набор данных.

name
Обязательно
str

Имя регистрации.

version
Обязательно
int

Версия регистрации. По умолчанию используется значение "latest".

Возвращаемое значение

Тип Описание

Зарегистрированный объект набора данных.

get_definition

Получите определенное определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Параметры

Имя Описание
version_id
Обязательно
str

Идентификатор версии определения набора данных

Возвращаемое значение

Тип Описание

Определение набора данных.

Комментарии

Если version_id задано, машинное обучение Azure пытается получить определение, соответствующее этой версии. Если эта версия не существует, создается исключение. Если version_id опущено, то извлекается последняя версия.

get_definitions

Получите все определения набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_definitions()

Возвращаемое значение

Тип Описание

Словарь определений набора данных.

Комментарии

Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным.

Для незарегистрированных наборов данных существует только одно определение.

get_profile

Получение сводной статистики по набору данных, вычисляемого ранее.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Параметры

Имя Описание
arguments
Обязательно

Аргументы профиля.

generate_if_not_exist
Обязательно

Указывает, следует ли создавать профиль, если он не существует.

workspace
Обязательно

Рабочая область, необходимая для временных (незарегистрированных) наборов данных.

compute_target
Обязательно

Целевой объект вычислений для выполнения действия профиля.

Возвращаемое значение

Тип Описание
<xref:azureml.dataprep.DataProfile>

DataProfile набора данных.

Комментарии

Для набора данных, зарегистрированного в рабочей области Машинного обучения Azure, этот метод извлекает существующий профиль, созданный ранее путем вызова get_profile , если он по-прежнему действителен. Профили недопустимы при обнаружении измененных данных в наборе данных или аргументах get_profile , которые отличаются от тех, которые используются при создании профиля. Если профиль отсутствует или недействителен, определит, generate_if_not_exist создается ли новый профиль.

Для набора данных, который не зарегистрирован в рабочей области Машинного обучения Azure, этот метод всегда выполняется generate_profile и возвращает результат.

get_snapshot

Получение моментального снимка набора данных по имени.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Параметры

Имя Описание
snapshot_name
Обязательно
str

Имя моментального снимка.

Возвращаемое значение

Тип Описание

Объект моментального снимка набора данных.

head

Извлеките указанное количество записей, указанных из этого набора данных, и возвращает их в виде кадра данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

head(count)

Параметры

Имя Описание
count
Обязательно
int

Количество записей для извлечения.

Возвращаемое значение

Тип Описание

Кадр данных Pandas.

list

Список всех наборов данных в рабочей области, включая те, которые со is_visible свойством равны False.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать get_all . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

static list(workspace)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область, для которой требуется получить список наборов данных.

Возвращаемое значение

Тип Описание

Список объектов набора данных.

reactivate

Повторно активируйте архивный или устаревший набор данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

reactivate()

Возвращаемое значение

Тип Описание

Нет.

register

Зарегистрируйте набор данных в рабочей области, что делает его доступным для других пользователей рабочей области.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Вместо этого рекомендуется использовать register . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Параметры

Имя Описание
workspace
Обязательно

Рабочая область AzureML, в которой должен быть зарегистрирован набор данных.

name
Обязательно
str

Имя набора данных в рабочей области.

description
Обязательно
str

Описание набора данных.

tags
Обязательно

Теги для связывания с набором данных.

visible
Обязательно

Указывает, отображается ли набор данных в пользовательском интерфейсе. Если значение false, то набор данных скрыт в пользовательском интерфейсе и доступен через пакет SDK.

exist_ok
Обязательно

Если значение True, метод возвращает набор данных, если он уже существует в данной рабочей области, в противном случае возникает ошибка.

update_if_exist
Обязательно

Если exist_ok задано значение True и update_if_exist имеет значение True, этот метод обновит определение и возвращает обновленный набор данных.

Возвращаемое значение

Тип Описание

Зарегистрированный объект набора данных в рабочей области.

sample

Создайте новый образец из исходного набора данных, используя стратегию выборки и предоставленные параметры.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот take_sample метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Параметры

Имя Описание
sample_strategy
Обязательно
str

Пример стратегии использования. Допустимые значения: "top_n", "simple_random" или "стратифицировано".

arguments
Обязательно

Словарь с ключами из столбца "Необязательный аргумент" в списке, показанном выше, и значения из столбца tye "Type". Можно использовать только аргументы из соответствующего метода выборки. Например, для типа примера "simple_random" можно указать только словарь с ключами "вероятность" и "начальное значение".

Возвращаемое значение

Тип Описание

Объект набора данных в качестве образца исходного набора данных.

Комментарии

Примеры создаются путем выполнения конвейера преобразования, определенного этим набором данных, а затем применение стратегии выборки и параметров к выходным данным. Каждый метод выборки поддерживает следующие необязательные аргументы:

  • top_n

    • Необязательные аргументы

      • n, введите целое число. Выберите первые N-строки в качестве примера.
  • simple_random

    • Необязательные аргументы

      • вероятность, тип float. Простая случайная выборка, в которой каждая строка имеет одинаковую вероятность выбора. Вероятность должна быть числом от 0 до 1.

      • seed, type float. Используется генератором случайных чисел. Используется для повторяемости.

  • Стратифицированной

    • Необязательные аргументы

      • столбцы, список типов[str]. Список столбцов слоев в данных.

      • seed, type float. Используется генератором случайных чисел. Используется для повторяемости.

      • дроби, тип дикт[кортеж, float]. Кортеж: значения столбцов, определяющие страт, должны находиться в том же порядке, что и имена столбцов. Float: вес, присоединенный к страту во время выборки.

Приведенные ниже фрагменты кода являются примерами шаблонов проектирования для различных примеров методов.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Создайте кадр данных Pandas, выполнив конвейер преобразования, определенный этим определением набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_pandas_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Возвращаемое значение

Тип Описание

Кадр данных Pandas.

Комментарии

Возвращает кадр данных Pandas, полностью материализованный в памяти.

to_spark_dataframe

Создайте кадр данных Spark, который может выполнить конвейер преобразования, определенный этим определением набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_spark_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Возвращаемое значение

Тип Описание

Кадр данных Spark.

Комментарии

Возвращаемый кадр данных Spark — это только план выполнения и фактически не содержит никаких данных, так как кадры данных Spark оцениваются безумно.

update

Обновите изменяемые атрибуты набора данных в рабочей области и верните обновленный набор данных из рабочей области.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Параметры

Имя Описание
name
Обязательно
str

Имя набора данных в рабочей области.

description
Обязательно
str

Описание данных.

tags
Обязательно

Теги для связывания набора данных с.

visible
Обязательно

Указывает, отображается ли набор данных в пользовательском интерфейсе.

Возвращаемое значение

Тип Описание

Обновленный объект набора данных из рабочей области.

update_definition

Обновите определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Параметры

Имя Описание
definition
Обязательно

Новое определение этого набора данных.

definition_update_message
Обязательно
str

Сообщение об обновлении определения.

Возвращаемое значение

Тип Описание

Обновленный объект набора данных из рабочей области.

Комментарии

Чтобы использовать обновленный набор данных, используйте объект, возвращаемый этим методом.

Атрибуты

definition

Возвращает текущее определение набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип Описание

Определение набора данных.

Комментарии

Определение набора данных — это ряд шагов, которые указывают, как считывать и преобразовывать данные.

Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Наличие нескольких определений позволяет вносить изменения в существующие наборы данных без критических моделей и конвейеров, которые зависят от старого определения.

Для незарегистрированных наборов данных существует только одно определение.

definition_version

Возвращает версию текущего определения набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип Описание
str

Версия определения набора данных.

Комментарии

Определение набора данных — это ряд шагов, которые указывают, как считывать и преобразовывать данные.

Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным, идентификатор которого возвращается этим.

Для незарегистрированных наборов данных существует только одно определение.

description

Возвращает описание набора данных.

Возвращаемое значение

Тип Описание
str

Описание набора данных.

Комментарии

Указание описания данных в наборе данных позволяет пользователям рабочей области понять, какие данные представляются, и как они могут его использовать.

id

Если набор данных зарегистрирован в рабочей области, верните идентификатор набора данных. В противном случае верните значение None.

Возвращаемое значение

Тип Описание
str

Идентификатор набора данных.

is_visible

Управление видимостью зарегистрированного набора данных в пользовательском интерфейсе рабочей области Машинного обучения Azure.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип Описание

Видимость набора данных.

Комментарии

Возвращаемые значения:

  • True: набор данных отображается в пользовательском интерфейсе рабочей области. По умолчанию.

  • False: набор данных скрыт в пользовательском интерфейсе рабочей области.

Не влияет на незарегистрированные наборы данных.

name

Возвращает имя набора данных.

Возвращаемое значение

Тип Описание
str

Имя набора данных.

state

Возвращает состояние набора данных.

Замечание

Этот метод устарел и больше не будет поддерживаться.

Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.

Возвращаемое значение

Тип Описание
str

Состояние набора данных.

Комментарии

Смысл и эффект состояний приведены следующим образом:

  • Активный. Активные определения — это то, что они похожи, все действия можно выполнять с активными определениями.

  • Устарело. Нерекомендуемое определение можно использовать, но приведет к тому, что предупреждение регистрируется в журналах каждый раз, когда доступ к базовым данным осуществляется.

  • Архив. Архивное определение нельзя использовать для выполнения каких-либо действий. Чтобы выполнить действия в архивном определении, его необходимо повторно активировать.

tags

Возвращает теги, связанные с набором данных.

Возвращаемое значение

Тип Описание

Теги набора данных.

workspace

Если набор данных зарегистрирован в рабочей области, верните его. В противном случае верните значение None.

Возвращаемое значение

Тип Описание

Рабочая область.

Tabular

Фабрика для создания FileDataset

псевдоним TabularDatasetFactory