Dataset Класс
Представляет ресурс для изучения, преобразования и управления данными в Машинном обучении Azure.
Набор данных — это ссылка на данные в Datastore общедоступных веб-URL-адресах или за ним.
Для методов, нерекомендуемых в этом классе, проверьте AbstractDataset класс улучшенных API.
Поддерживаются следующие типы наборов данных:
TabularDataset представляет данные в табличном формате, созданном путем анализа предоставленного файла или списка файлов.
FileDataset ссылается на один или несколько файлов в хранилищах данных или из общедоступных URL-адресов.
Сведения о начале работы с наборами данных см. в статье "Добавление и регистрация наборов данных" или просмотр записных https://aka.ms/tabulardataset-samplenotebook книжек и https://aka.ms/filedataset-samplenotebook.
Инициализация объекта набора данных.
Чтобы получить набор данных, который уже зарегистрирован в рабочей области, используйте метод get.
Конструктор
Dataset(definition, workspace=None, name=None, id=None)
Параметры
Имя | Описание |
---|---|
definition
Обязательно
|
<xref:azureml.data.DatasetDefinition>
Определение набора данных. |
workspace
Обязательно
|
Рабочая область, в которой существует набор данных. |
name
Обязательно
|
Имя набора данных. |
id
Обязательно
|
Уникальный идентификатор набора данных. |
Комментарии
Класс набора данных предоставляет два атрибута класса удобства (File
и Tabular
) можно использовать для создания набора данных без работы с соответствующими методами фабрики. Например, чтобы создать набор данных с помощью следующих атрибутов:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Вы также можете создать новый табличный набор данных или FileDataset, непосредственно вызвав соответствующие методы фабрики класса, определенного в TabularDatasetFactory и FileDatasetFactory.
В следующем примере показано, как создать tabularDataset, указывающий на один путь в хранилище данных.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Полный пример доступен из https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Переменные
Имя | Описание |
---|---|
azureml.core.Dataset.File
|
Атрибут класса, предоставляющий доступ к методам FileDatasetFactory для создания новых объектов FileDataset. Использование: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
Атрибут класса, предоставляющий доступ к методам TabularDatasetFactory для создания новых объектов TabularDataset. Использование: Dataset.Tabular.from_delimited_files(). |
Методы
archive |
Архивируйте активный или устаревший набор данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
auto_read_files |
Анализирует файлы по указанному пути и возвращает новый набор данных. Замечание Этот метод устарел и больше не будет поддерживаться. Рекомендуется использовать методы Dataset.Tabular.from_* для чтения файлов. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
compare_profiles |
Сравните профиль текущего набора данных с другим профилем набора данных. Это показывает различия в сводной статистике между двумя наборами данных. Параметр "rhs_dataset" имеет значение "справа" и является просто вторым набором данных. Первый набор данных (текущий объект набора данных) считается левым. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
create_snapshot |
Создайте моментальный снимок зарегистрированного набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
delete_snapshot |
Удаление моментального снимка набора данных по имени. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
deprecate |
Нерекомендуйте активный набор данных в рабочей области другим набором данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
diff |
Диффуйте текущий набор данных с rhs_dataset. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
from_binary_files |
Создайте незарегистрированный набор данных в памяти из двоичных файлов. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.File.from_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
from_delimited_files |
Создайте незарегистрированный набор данных в памяти из файлов с разделителями. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_delimited_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
|
from_excel_files |
Создайте незарегистрированный набор данных в памяти из файлов Excel. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
from_json_files |
Создайте незарегистрированный набор данных в памяти из JSON-файлов. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_json_lines_files для чтения из файла строк JSON. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Создайте незарегистрированный набор данных в памяти из кадра данных Pandas. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
from_parquet_files |
Создайте незарегистрированный набор данных в памяти из файлов parquet. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_parquet_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
from_sql_query |
Создайте незарегистрированный набор данных в памяти из SQL-запроса. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать Dataset.Tabular.from_sql_query. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
generate_profile |
Создайте новый профиль для набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
get |
Получите набор данных, который уже существует в рабочей области, указав его имя или идентификатор. Замечание Этот метод устарел и больше не будет поддерживаться. Рекомендуется использовать get_by_name и get_by_id вместо этого. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
get_all |
Получите все зарегистрированные наборы данных в рабочей области. |
get_all_snapshots |
Получение всех моментальных снимков набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
get_by_id |
Получите набор данных, сохраненный в рабочей области. |
get_by_name |
Получите зарегистрированный набор данных из рабочей области по его имени регистрации. |
get_definition |
Получите определенное определение набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
get_definitions |
Получите все определения набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
get_profile |
Получение сводной статистики по набору данных, вычисляемого ранее. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
get_snapshot |
Получение моментального снимка набора данных по имени. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
head |
Извлеките указанное количество записей, указанных из этого набора данных, и возвращает их в виде кадра данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
list |
Список всех наборов данных в рабочей области, включая те, которые со Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать get_all . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
reactivate |
Повторно активируйте архивный или устаревший набор данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
register |
Зарегистрируйте набор данных в рабочей области, что делает его доступным для других пользователей рабочей области. Замечание Этот метод устарел и больше не будет поддерживаться. Вместо этого рекомендуется использовать register . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
sample |
Создайте новый образец из исходного набора данных, используя стратегию выборки и предоставленные параметры. Замечание Этот метод устарел и больше не будет поддерживаться. Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот take_sample метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Создайте кадр данных Pandas, выполнив конвейер преобразования, определенный этим определением набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_pandas_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Создайте кадр данных Spark, который может выполнить конвейер преобразования, определенный этим определением набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_spark_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
update |
Обновите изменяемые атрибуты набора данных в рабочей области и верните обновленный набор данных из рабочей области. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
update_definition |
Обновите определение набора данных. Замечание Этот метод устарел и больше не будет поддерживаться. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation. |
archive
Архивируйте активный или устаревший набор данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
archive()
Возвращаемое значение
Тип | Описание |
---|---|
Нет. |
Комментарии
После архивации любая попытка использования набора данных приведет к ошибке. Если архивирован по случайному случаю, повторная активация активирует его.
auto_read_files
Анализирует файлы по указанному пути и возвращает новый набор данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Рекомендуется использовать методы Dataset.Tabular.from_* для чтения файлов. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP (CSV/TSV). |
include_path
Обязательно
|
Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Полезно при чтении нескольких файлов и хотите знать, из какого файла была получена определенная запись. Также полезно, если в столбце есть сведения о пути к файлу или имени. |
partition_format
Обязательно
|
Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.csv', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.csv" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Этот метод используется при автоматическом обнаружении форматов файлов и разделителей.
После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца.
Возвращаемый набор данных не зарегистрирован в рабочей области.
compare_profiles
Сравните профиль текущего набора данных с другим профилем набора данных.
Это показывает различия в сводной статистике между двумя наборами данных. Параметр "rhs_dataset" имеет значение "справа" и является просто вторым набором данных. Первый набор данных (текущий объект набора данных) считается левым.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Параметры
Имя | Описание |
---|---|
rhs_dataset
Обязательно
|
Второй набор данных, также называемый набором данных правой стороны для сравнения. |
profile_arguments
Обязательно
|
Аргументы для получения определенного профиля. |
include_columns
Обязательно
|
Список имен столбцов для сравнения. |
exclude_columns
Обязательно
|
Список имен столбцов, которые следует исключить в сравнении. |
histogram_compare_method
Обязательно
|
Перечисление, описывающее метод сравнения, например, Wasserstein или Energy |
Возвращаемое значение
Тип | Описание |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Разница между двумя профилями набора данных. |
Комментарии
Это только для зарегистрированных наборов данных. Вызывает исключение, если профиль текущего набора данных не существует. Для незарегистрированных наборов данных используется метод profile.compare.
create_snapshot
Создайте моментальный снимок зарегистрированного набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Параметры
Имя | Описание |
---|---|
snapshot_name
Обязательно
|
Имя моментального снимка. Имена моментальных снимков должны быть уникальными в наборе данных. |
compute_target
Обязательно
|
Необязательный целевой объект вычислений для создания профиля моментального снимка. Если опущено, используется локальное вычисление. |
create_data_snapshot
Обязательно
|
Если значение True, будет создана материализованная копия данных. |
target_datastore
Обязательно
|
Целевое хранилище данных для сохранения моментального снимка. Если опущено, моментальный снимок будет создан в хранилище рабочей области по умолчанию. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект моментального снимка набора данных. |
Комментарии
Моментальные снимки фиксируют сводную статистику по времени базовых данных и необязательную копию самих данных. Чтобы узнать больше о создании моментальных снимков, перейдите к разделу https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Удаление моментального снимка набора данных по имени.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Параметры
Имя | Описание |
---|---|
snapshot_name
Обязательно
|
Имя моментального снимка. |
Возвращаемое значение
Тип | Описание |
---|---|
Нет. |
Комментарии
Используйте это для освобождения хранилища, потребляемого данными, сохраненными в моментальных снимках, которые больше не нужны.
deprecate
Нерекомендуйте активный набор данных в рабочей области другим набором данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Параметры
Имя | Описание |
---|---|
deprecate_by_dataset_id
Обязательно
|
Идентификатор набора данных, который является предполагаемой заменой этого набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Нет. |
Комментарии
Устаревшие наборы данных будут записывать предупреждения при их использовании. Не рекомендуется использовать набор данных, нерекомендующий все его определения.
Устаревшие наборы данных по-прежнему могут использоваться. Чтобы полностью заблокировать использование набора данных, заархивируйте его.
Если не рекомендуется в случае аварии, повторно активируйте его.
diff
Диффуйте текущий набор данных с rhs_dataset.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Параметры
Имя | Описание |
---|---|
rhs_dataset
Обязательно
|
Другой набор данных также называется правым набором данных для сравнения |
compute_target
Обязательно
|
целевой объект вычислений для выполнения диффа. Если опущено, используется локальное вычисление. |
columns
Обязательно
|
Список имен столбцов для включения в дифф. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект выполнения действия набора данных. |
from_binary_files
Создайте незарегистрированный набор данных в памяти из двоичных файлов.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать Dataset.File.from_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных или локальный путь. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для чтения файлов в виде потоков двоичных данных. Возвращает один объект потока файлов на чтение файла. Используйте этот метод при чтении изображений, видео, аудио или других двоичных данных.
get_profile и create_snapshot не будет работать должным образом для набора данных, созданного этим методом.
Возвращаемый набор данных не зарегистрирован в рабочей области.
from_delimited_files
Создайте незарегистрированный набор данных в памяти из файлов с разделителями.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать Dataset.Tabular.from_delimited_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных, локальный путь или URL-адрес HTTP. |
separator
Обязательно
|
Разделитель, используемый для разделения столбцов. |
header
Обязательно
|
Управляет повышением уровня заголовков столбцов при чтении из файлов. |
encoding
Обязательно
|
Кодировка считываемых файлов. |
quoting
Обязательно
|
Укажите способ обработки новых символов строки в кавычках. Значение по умолчанию (False) — интерпретировать новые символы строк как начальные новые строки независимо от того, находятся ли новые символы строки в кавычках или нет. Если задано значение True, новые символы строки внутри кавычки не будут приводить к новым строкам, а скорость чтения файлов замедлится. |
infer_column_types
Обязательно
|
Указывает, выводятся ли типы данных столбцов. |
skip_rows
Обязательно
|
Сколько строк, которые нужно пропустить в считываемых файлах. |
skip_mode
Обязательно
|
Определяет, как строки пропускаются при чтении из файлов. |
comment
Обязательно
|
Символ, используемый для указания строк комментариев в считываемых файлах. Строки, начинающие с этой строки, будут пропущены. |
include_path
Обязательно
|
Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу. |
archive_options
Обязательно
|
<xref:azureml.dataprep.ArchiveOptions>
Параметры архивного файла, включая тип архива и шаблон глобового объекта. В данный момент мы поддерживаем только ZIP-файл в качестве типа архива. Например, указание
считывает все файлы с именем, заканчивающимися "10-20.csv" в ZIP-файле. |
partition_format
Обязательно
|
Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.csv', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.csv" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для чтения текстовых файлов с разделителями, если вы хотите управлять используемыми параметрами.
После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца.
Возвращаемый набор данных не зарегистрирован в рабочей области.
from_excel_files
Создайте незарегистрированный набор данных в памяти из файлов Excel.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных или локальный путь. |
sheet_name
Обязательно
|
Имя листа Excel для загрузки. По умолчанию мы считываем первый лист из каждого файла Excel. |
use_column_headers
Обязательно
|
Определяет, следует ли использовать первую строку в качестве заголовков столбцов. |
skip_rows
Обязательно
|
Сколько строк, которые нужно пропустить в считываемых файлах. |
include_path
Обязательно
|
Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу. |
infer_column_types
Обязательно
|
Если значение true, типы данных столбцов будут выводиться. |
partition_format
Обязательно
|
Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.xlsx', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.xlsx" для создания столбцов "Отдел" типа строки и PartitionDate типа datetime. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для чтения файлов Excel в .xlsx формате. Данные можно считывать на одном листе в каждом файле Excel. После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца. Возвращаемый набор данных не зарегистрирован в рабочей области.
from_json_files
Создайте незарегистрированный набор данных в памяти из JSON-файлов.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать Dataset.Tabular.from_json_lines_files для чтения из файла строк JSON. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к файлам или папкам, которые требуется загрузить и проанализировать. Это может быть локальный путь или URL-адрес БОЛЬШОго двоичного объекта Azure. Поддерживается глоббинг. Например, можно использовать путь = "./data*" для чтения всех файлов с именем, начиная с "data". |
encoding
Обязательно
|
Кодировка считываемых файлов. |
flatten_nested_arrays
Обязательно
|
Свойство, управляющее обработкой вложенных массивов программы. Если вы решили сложить вложенные массивы JSON, это может привести к гораздо большему количеству строк. |
include_path
Обязательно
|
Следует ли включать столбец, содержащий путь, из которого были прочитаны данные. Это полезно при чтении нескольких файлов и может потребоваться знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу. |
partition_format
Обязательно
|
Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.json' и данные секционируются по имени и времени отдела, мы можем определить "/{Department}/{PartitionDate:y/MM/dd}/data.json" для создания столбцов "Отдел" типа строк и "PartitionDate" типа datetime. |
Возвращаемое значение
Тип | Описание |
---|---|
Локальный объект набора данных. |
from_pandas_dataframe
Создайте незарегистрированный набор данных в памяти из кадра данных Pandas.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать Dataset.Tabular.register_pandas_dataframe. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Параметры
Имя | Описание |
---|---|
dataframe
Обязательно
|
Кадр данных Pandas. |
path
Обязательно
|
Путь к данным в зарегистрированном хранилище данных или путь к локальной папке. |
in_memory
Обязательно
|
Следует ли считывать кадр данных из памяти вместо сохранения на диске. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для преобразования кадра данных Pandas в объект набора данных. Набор данных, созданный этим методом, не может быть зарегистрирован, так как данные из памяти.
Если in_memory
имеет значение False, кадр данных Pandas преобразуется в CSV-файл локально. Если pat
имеет тип DataReference, кадр Pandas будет отправлен в хранилище данных, а набор данных будет основан на DataReference. Если "путь" является локальной папкой, набор данных будет создан из локального файла, который нельзя удалить.
Вызывает исключение, если текущий объект DataReference не является путем к папке.
from_parquet_files
Создайте незарегистрированный набор данных в памяти из файлов parquet.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать Dataset.Tabular.from_parquet_files. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
DataReference или
str
Путь к данным в зарегистрированном хранилище данных или локальный путь. |
include_path
Обязательно
|
Следует ли включить столбец, содержащий путь к файлу, из которого были считываются данные. Это полезно при чтении нескольких файлов и хотите знать, из какого файла возникла определенная запись, или сохранить полезную информацию в пути к файлу. |
partition_format
Обязательно
|
Укажите формат секции в пути и создайте строковые столбцы из формата "{x}" и столбца datetime из формата "{x:yyy/MM/mm/hh/mm/ss}", где "гггг", "MM", "dd", "HH", "мм" и "ss" используются для экстратирования года, месяца, дня, часа, минуты и второй для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, при указании пути к файлу ".". /Accounts/2019/01/01/data.parquet', где данные секционируются по имени и времени отдела, можно определить "/{Department}/{PartitionDate:y/MM/dd}/data.parquet", чтобы создать столбцы "Отдел" типа строк и PartitionDate типа datetime. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. |
Комментарии
Используйте этот метод для чтения файлов Parquet.
После создания набора данных следует использовать get_profile для перечисления обнаруженных типов столбцов и сводной статистики для каждого столбца.
Возвращаемый набор данных не зарегистрирован в рабочей области.
from_sql_query
Создайте незарегистрированный набор данных в памяти из SQL-запроса.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать Dataset.Tabular.from_sql_query. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Параметры
Имя | Описание |
---|---|
data_source
Обязательно
|
Сведения о хранилище данных SQL Azure. |
query
Обязательно
|
Запрос для чтения данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Локальный объект набора данных. |
generate_profile
Создайте новый профиль для набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Параметры
Имя | Описание |
---|---|
compute_target
Обязательно
|
Необязательный целевой объект вычислений для создания профиля моментального снимка. Если опущено, используется локальное вычисление. |
workspace
Обязательно
|
Рабочая область, необходимая для временных (незарегистрированных) наборов данных. |
arguments
Обязательно
|
Аргументы профиля. Допустимые аргументы:
|
Возвращаемое значение
Тип | Описание |
---|---|
Объект выполнения действия набора данных. |
Комментарии
Синхронный вызов блокируется до завершения. Вызов get_result , чтобы получить результат действия.
get
Получите набор данных, который уже существует в рабочей области, указав его имя или идентификатор.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Рекомендуется использовать get_by_name и get_by_id вместо этого. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой был создан набор данных. |
name
Обязательно
|
Имя извлекаемого набора данных. |
id
Обязательно
|
Уникальный идентификатор набора данных в рабочей области. |
Возвращаемое значение
Тип | Описание |
---|---|
Набор данных с указанным именем или идентификатором. |
Комментарии
Можно указать или name
id
. Исключение возникает, если:
name
оба и указаны,id
но не соответствуют.Набор данных с указанным
name
илиid
не удается найти в рабочей области.
get_all
Получите все зарегистрированные наборы данных в рабочей области.
get_all()
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой зарегистрированы наборы данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Словарь объектов TabularDataset и FileDataset, ключом по имени регистрации. |
get_all_snapshots
Получение всех моментальных снимков набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_all_snapshots()
Возвращаемое значение
Тип | Описание |
---|---|
Список моментальных снимков набора данных. |
get_by_id
Получите набор данных, сохраненный в рабочей области.
get_by_id(id, **kwargs)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой сохраняется набор данных. |
id
Обязательно
|
Идентификатор набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных. Если набор данных зарегистрирован, его имя регистрации и версия также будут возвращены. |
get_by_name
Получите зарегистрированный набор данных из рабочей области по его имени регистрации.
get_by_name(name, version='latest', **kwargs)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Существующая рабочая область AzureML, в которой был зарегистрирован набор данных. |
name
Обязательно
|
Имя регистрации. |
version
Обязательно
|
Версия регистрации. По умолчанию используется значение "latest". |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный объект набора данных. |
get_definition
Получите определенное определение набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Параметры
Имя | Описание |
---|---|
version_id
Обязательно
|
Идентификатор версии определения набора данных |
Возвращаемое значение
Тип | Описание |
---|---|
Определение набора данных. |
Комментарии
Если version_id
задано, машинное обучение Azure пытается получить определение, соответствующее этой версии. Если эта версия не существует, создается исключение.
Если version_id
опущено, то извлекается последняя версия.
get_definitions
Получите все определения набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_definitions()
Возвращаемое значение
Тип | Описание |
---|---|
Словарь определений набора данных. |
Комментарии
Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным.
Для незарегистрированных наборов данных существует только одно определение.
get_profile
Получение сводной статистики по набору данных, вычисляемого ранее.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Параметры
Имя | Описание |
---|---|
arguments
Обязательно
|
Аргументы профиля. |
generate_if_not_exist
Обязательно
|
Указывает, следует ли создавать профиль, если он не существует. |
workspace
Обязательно
|
Рабочая область, необходимая для временных (незарегистрированных) наборов данных. |
compute_target
Обязательно
|
Целевой объект вычислений для выполнения действия профиля. |
Возвращаемое значение
Тип | Описание |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile набора данных. |
Комментарии
Для набора данных, зарегистрированного в рабочей области Машинного обучения Azure, этот метод извлекает существующий профиль, созданный ранее путем вызова get_profile
, если он по-прежнему действителен. Профили недопустимы при обнаружении измененных данных в наборе данных или аргументах get_profile
, которые отличаются от тех, которые используются при создании профиля. Если профиль отсутствует или недействителен, определит, generate_if_not_exist
создается ли новый профиль.
Для набора данных, который не зарегистрирован в рабочей области Машинного обучения Azure, этот метод всегда выполняется generate_profile и возвращает результат.
get_snapshot
Получение моментального снимка набора данных по имени.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Параметры
Имя | Описание |
---|---|
snapshot_name
Обязательно
|
Имя моментального снимка. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект моментального снимка набора данных. |
head
Извлеките указанное количество записей, указанных из этого набора данных, и возвращает их в виде кадра данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
head(count)
Параметры
Имя | Описание |
---|---|
count
Обязательно
|
Количество записей для извлечения. |
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Pandas. |
list
Список всех наборов данных в рабочей области, включая те, которые со is_visible
свойством равны False.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать get_all . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
static list(workspace)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область, для которой требуется получить список наборов данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Список объектов набора данных. |
reactivate
Повторно активируйте архивный или устаревший набор данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
reactivate()
Возвращаемое значение
Тип | Описание |
---|---|
Нет. |
register
Зарегистрируйте набор данных в рабочей области, что делает его доступным для других пользователей рабочей области.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Вместо этого рекомендуется использовать register . Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Параметры
Имя | Описание |
---|---|
workspace
Обязательно
|
Рабочая область AzureML, в которой должен быть зарегистрирован набор данных. |
name
Обязательно
|
Имя набора данных в рабочей области. |
description
Обязательно
|
Описание набора данных. |
tags
Обязательно
|
Теги для связывания с набором данных. |
visible
Обязательно
|
Указывает, отображается ли набор данных в пользовательском интерфейсе. Если значение false, то набор данных скрыт в пользовательском интерфейсе и доступен через пакет SDK. |
exist_ok
Обязательно
|
Если значение True, метод возвращает набор данных, если он уже существует в данной рабочей области, в противном случае возникает ошибка. |
update_if_exist
Обязательно
|
Если |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный объект набора данных в рабочей области. |
sample
Создайте новый образец из исходного набора данных, используя стратегию выборки и предоставленные параметры.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот take_sample метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Параметры
Имя | Описание |
---|---|
sample_strategy
Обязательно
|
Пример стратегии использования. Допустимые значения: "top_n", "simple_random" или "стратифицировано". |
arguments
Обязательно
|
Словарь с ключами из столбца "Необязательный аргумент" в списке, показанном выше, и значения из столбца tye "Type". Можно использовать только аргументы из соответствующего метода выборки. Например, для типа примера "simple_random" можно указать только словарь с ключами "вероятность" и "начальное значение". |
Возвращаемое значение
Тип | Описание |
---|---|
Объект набора данных в качестве образца исходного набора данных. |
Комментарии
Примеры создаются путем выполнения конвейера преобразования, определенного этим набором данных, а затем применение стратегии выборки и параметров к выходным данным. Каждый метод выборки поддерживает следующие необязательные аргументы:
top_n
Необязательные аргументы
- n, введите целое число. Выберите первые N-строки в качестве примера.
simple_random
Необязательные аргументы
вероятность, тип float. Простая случайная выборка, в которой каждая строка имеет одинаковую вероятность выбора. Вероятность должна быть числом от 0 до 1.
seed, type float. Используется генератором случайных чисел. Используется для повторяемости.
Стратифицированной
Необязательные аргументы
столбцы, список типов[str]. Список столбцов слоев в данных.
seed, type float. Используется генератором случайных чисел. Используется для повторяемости.
дроби, тип дикт[кортеж, float]. Кортеж: значения столбцов, определяющие страт, должны находиться в том же порядке, что и имена столбцов. Float: вес, присоединенный к страту во время выборки.
Приведенные ниже фрагменты кода являются примерами шаблонов проектирования для различных примеров методов.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Создайте кадр данных Pandas, выполнив конвейер преобразования, определенный этим определением набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_pandas_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Pandas. |
Комментарии
Возвращает кадр данных Pandas, полностью материализованный в памяти.
to_spark_dataframe
Создайте кадр данных Spark, который может выполнить конвейер преобразования, определенный этим определением набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Создайте, TabularDataset вызвав статические методы в Dataset.Tabular и используйте этот to_spark_dataframe метод. Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Возвращаемое значение
Тип | Описание |
---|---|
Кадр данных Spark. |
Комментарии
Возвращаемый кадр данных Spark — это только план выполнения и фактически не содержит никаких данных, так как кадры данных Spark оцениваются безумно.
update
Обновите изменяемые атрибуты набора данных в рабочей области и верните обновленный набор данных из рабочей области.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Параметры
Имя | Описание |
---|---|
name
Обязательно
|
Имя набора данных в рабочей области. |
description
Обязательно
|
Описание данных. |
tags
Обязательно
|
Теги для связывания набора данных с. |
visible
Обязательно
|
Указывает, отображается ли набор данных в пользовательском интерфейсе. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных из рабочей области. |
update_definition
Обновите определение набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Параметры
Имя | Описание |
---|---|
definition
Обязательно
|
Новое определение этого набора данных. |
definition_update_message
Обязательно
|
Сообщение об обновлении определения. |
Возвращаемое значение
Тип | Описание |
---|---|
Обновленный объект набора данных из рабочей области. |
Комментарии
Чтобы использовать обновленный набор данных, используйте объект, возвращаемый этим методом.
Атрибуты
definition
Возвращает текущее определение набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Определение набора данных. |
Комментарии
Определение набора данных — это ряд шагов, которые указывают, как считывать и преобразовывать данные.
Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Наличие нескольких определений позволяет вносить изменения в существующие наборы данных без критических моделей и конвейеров, которые зависят от старого определения.
Для незарегистрированных наборов данных существует только одно определение.
definition_version
Возвращает версию текущего определения набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Версия определения набора данных. |
Комментарии
Определение набора данных — это ряд шагов, которые указывают, как считывать и преобразовывать данные.
Набор данных, зарегистрированный в рабочей области AzureML, может содержать несколько определений, каждый из которых создается путем вызова update_definition. Каждое определение имеет уникальный идентификатор. Текущее определение является последним созданным, идентификатор которого возвращается этим.
Для незарегистрированных наборов данных существует только одно определение.
description
Возвращает описание набора данных.
Возвращаемое значение
Тип | Описание |
---|---|
Описание набора данных. |
Комментарии
Указание описания данных в наборе данных позволяет пользователям рабочей области понять, какие данные представляются, и как они могут его использовать.
id
Если набор данных зарегистрирован в рабочей области, верните идентификатор набора данных. В противном случае верните значение None.
Возвращаемое значение
Тип | Описание |
---|---|
Идентификатор набора данных. |
is_visible
Управление видимостью зарегистрированного набора данных в пользовательском интерфейсе рабочей области Машинного обучения Azure.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Видимость набора данных. |
Комментарии
Возвращаемые значения:
True: набор данных отображается в пользовательском интерфейсе рабочей области. По умолчанию.
False: набор данных скрыт в пользовательском интерфейсе рабочей области.
Не влияет на незарегистрированные наборы данных.
name
state
Возвращает состояние набора данных.
Замечание
Этот метод устарел и больше не будет поддерживаться.
Дополнительные сведения см. в разделе https://aka.ms/dataset-deprecation.
Возвращаемое значение
Тип | Описание |
---|---|
Состояние набора данных. |
Комментарии
Смысл и эффект состояний приведены следующим образом:
Активный. Активные определения — это то, что они похожи, все действия можно выполнять с активными определениями.
Устарело. Нерекомендуемое определение можно использовать, но приведет к тому, что предупреждение регистрируется в журналах каждый раз, когда доступ к базовым данным осуществляется.
Архив. Архивное определение нельзя использовать для выполнения каких-либо действий. Чтобы выполнить действия в архивном определении, его необходимо повторно активировать.
tags
workspace
Если набор данных зарегистрирован в рабочей области, верните его. В противном случае верните значение None.
Возвращаемое значение
Тип | Описание |
---|---|
Рабочая область. |
Tabular
Фабрика для создания FileDataset
псевдоним TabularDatasetFactory