Поделиться через


opendatasets Пакет

Содержит функции для использования Открытых наборов данных Azure в качестве кадров данных и обогащения данных клиентов.

Открытые наборы данных Azure курируют общедоступные наборы данных, которые можно использовать для добавления функций для конкретных сценариев в решения машинного обучения для более точных моделей. Эти общедоступные наборы данных можно преобразовать в кадры данных Spark и pandas с примененными фильтрами. Для некоторых наборов данных можно использовать обогащение для присоединения к общедоступным данным с данными. Например, данные можно объединить с данными о погоде по долготе и широте или почтовому индексу и времени.

Включенные в наборы данных Azure Open Dataset — это данные с общедоступным доменом для погоды, переписи, праздников, общественного безопасности и расположения, которые помогают обучать модели машинного обучения и обогащать прогнозные решения. Открытые наборы данных находятся в облаке в Microsoft Azure и интегрируются в Машинное обучение Azure. Дополнительные сведения о работе с открытыми наборами данных Azure см. в статье "Создание наборов данных с помощью Открытых наборов данных Azure".

Общие сведения об открытых наборах данных Azure см. в документации по Открытым наборам данных Azure.

Пакеты

accessories

Содержит функции, которые помогают определять типы столбцов в данных, включая lat/long, zipcode и время.

aggregators

Содержит функциональные возможности для определения агрегирования присоединенных данных.

Агрегаты определяют операции, которые можно выполнять в результате объединения данных из двух наборов данных. Например, при использовании одного из классов в enrichersможно указать агрегат в рамках операции. Если агрегирование не требуется, используйте AggregatorAll.

data

Содержит файл инициализации ресурсов данных в модуле publicholidays.

dataaccess

Содержит функции, обеспечивающие методы доступа к файлам BLOB-объектов.

При использовании класса из opendatasets пакета, такого как ChicagoSafety класс, классы и функции dataaccess в этом пакете используются внутренне. Как правило, вам не нужно использовать функции в пакете dataaccess напрямую.

enrichers

Содержит функции для обогащения и объединения данных из двух наборов данных.

Как правило, обогащение объединяет данные из разных источников. В частности, обогащение позволяет присоединять данные (данные клиента) с данными из Открытых наборов данных Azure или других общедоступных наборов данных.

granularities

Содержит функциональные возможности, определяющие меры времени и расстояния, используемые обогащениями.

Детализация — это меры времени или расстояния, используемые enrichers при обогащении (присоединении) данных. Существует степень детализации времени, например почасовая или ежедневная, а также степень детализации расположения, например ближайшее расстояние.

selectors

Содержит функции для выбора и присоединения данных из клиентского набора данных с данными из общедоступного набора данных.

Селекторы определяют логику, которая позволяет расширить данные с помощью общедоступных наборов данных на основе мер времени и расстояния. Например, с селектором можно найти общедоступные данные для соединения с данными на основе ближайшего расположения или округления до той же детализации.

Укажите селекторы при работе с одним из классов в пакете enrichers .

Модули

environ

Определяет классы среды выполнения, в которых используются наборы данных Azure Open.

Классы в этом модуле гарантируют, что функции Открытых наборов данных Azure оптимизированы для различных сред. Как правило, вам не нужно создавать экземпляры этих классов среды или беспокоиться о их реализации. Вместо этого используйте get_environ функцию модуля для возврата среды.

Классы

BingCOVID19Data

Представляет набор данных Bing COVID-19.

Эти наборы данных содержат данные Bing COVID-19 из нескольких надежных источников, в том числе Всемирной организации здравоохранения (ВОЗ), Центров по контролю и профилактике заболеваний (CDC), национальных и государственных департаментов здравоохранения, BNO News, 24/7 Wall St. и Википедии. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге открытых наборов данных Microsoft Azure COVID-19 .

Инициализация полей фильтрации.

BostonSafety

Представляет общедоступный набор данных Boston Safety.

Этот набор данных содержит 311 звонков, сообщаемых городу Бостона. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Datasets.

Инициализация полей фильтрации.

COVID19OpenResearch

Представляет набор данных open Research COVID-19.

Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге открытых наборов данных CoVID-19 Open Research в каталоге открытых наборов данных Microsoft Azure.

COVIDTrackingProject

Представляет набор данных проекта отслеживания COVID.

Эти наборы данных содержат набор данных проекта отслеживания COVID, предоставляющий последние номера тестов, подтвержденных случаев, госпитализаций и результатов пациентов из каждого штата и территории США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе " Набор данных для отслеживания COVID" в каталоге открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

ChicagoSafety

Представляет общедоступный набор данных Чикаго Safety.

Этот набор данных содержит 311 запросов на обслуживание из города Чикаго, в том числе исторические жалобы на санитарно-санитарный код, сообщения о отверстиях горшка и проблемы с уличным светом. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Datasets.

Инициализация полей фильтрации.

CitySafety

Класс безопасности города - это родительский класс, который может быть унаследован каждым отдельным городом.

Инициализация полей фильтрации.

Diabetes

Представляет общедоступный набор данных диабета.

Набор данных Diabetes (Диабет) содержит 442 образца с 10 признаками. Он идеально подходит для начала работы с алгоритмами машинного обучения. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Пример: Диабет в каталоге открытых наборов данных Microsoft Azure".

EcdcCOVIDCases

Представляет Европейский центр по профилактике заболеваний и контролю (ECDC) covid-19 случаев.

Эти наборы данных содержатся в Европейском центре по профилактике и контролю заболеваний (ECDC). Каждая строка или запись содержит количество новых случаев, сообщаемых в день и в каждой стране или регионе. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в европейском центре по профилактике и контролю заболеваний (ECDC) Covid-19 Случаев в каталоге открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

MNIST

Представляет набор данных MNIST рукописных цифр.

База данных образцов рукописного написания цифр MNIST содержит 60 000 образцов наборов данных для обучения и тестовый набор из 10 000 образцов. Цифры были нормализованы размером и центрированы в изображении фиксированного размера. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры см. в базе данных MNIST рукописных цифр в каталоге открытых наборов данных Microsoft Azure.

Пример использования набора данных MNIST см. в руководстве по обучению моделей классификации изображений с помощью данных MNIST и scikit-learn с помощью Машинного обучения Azure.

NoParameterOpenDatasetBase

Базовый класс труда США.

Инициализировать.

NoaaGfsWeather

Представляет набор данных Национальной системы прогнозирования океана и атмосферы (NOAA) Глобальной системы прогнозирования (GFS).

Этот набор данных содержит 15-дневные данные прогноза погоды США (например, температуры, осадков, ветра), созданных глобальной системой прогнозирования (GFS) из Национальной администрации океанических и атмосферных систем (NOAA). Сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе NoAA Global Forecast System в каталоге открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NoaaIsdWeather

Представляет национальный набор данных о океанических и атмосферных данных (NOAA) интегрированного набора данных поверхности (ISD).

Этот набор данных содержит данные почасовой истории погоды по всему миру (например, температура, осадки, ветер), полученные из Национальной администрации океанических и атмосферных систем (NOAA). Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге наборов данных Open Data в Microsoft Azure.

Инициализация полей фильтрации.

NycSafety

Представляет общедоступный набор данных "Безопасность в нью-йорке".

Этот набор данных содержит все запросы в службу 311 города Нью-Йорка с 2010 г. до текущего момента. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NycTaxiBase

Класс Такси Нью-Йорка - это родительский класс, который может быть унаследован.

Инициализация полей фильтрации.

NycTlcFhv

Представляет общедоступный набор данных Комиссии по такси и лимузину Нью-Йорка.

Этот набор данных содержит For-Hire записи поездки Vechicle (FHV), включающие поля, включающие запись базового номера лицензии на отправку и дату сбора, время и расположение зоны такси (файл фигуры ниже). Эти записи создаются из отправки записи поездки FHV, сделанных базами. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — записи о поездках For-Hire транспортных средств (FHV) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NycTlcGreen

Представляет открытый набор данных о поездке в такси Нью-Йорка и Лимузинской комиссии.

Зеленые записи о поездке на такси включают поля, захватывающие даты и время сбора и падения, места сбора и падения, расстояния поездки, элементы тарифы, типы ставок, типы платежей и количество пассажиров, сообщаемых водителем. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — зеленые записи о поездках на такси в каталоге Open Datasets Microsoft Azure.

Пример использования класса NycTlcGreen см. в руководстве по прогнозированию тарифов на такси с помощью автоматизированного машинного обучения.

Инициализация полей фильтрации.

NycTlcYellow

Представляет общедоступный набор данных о поездке в такси Нью-Йорка и Лимузинской комиссии.

Желтые записи о поездке на такси включают поля, захватывающие даты и время сбора и падения, места сбора и падения, расстояния поездки, предметные тарифы, типы ставок, типы платежей и число пассажиров, сообщаемых водителем. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — желтые записи поездки на такси в каталоге Open Datasets Microsoft Azure.

Инициализация полей фильтрации.

OjSalesSimulated

Представляет набор данных оранжевого сока, имитированного набора данных.

Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Пример: Имитированные данные продаж OJ " в каталоге открытых наборов данных Microsoft Azure.

PublicHolidays

Представляет общедоступный набор данных для государственных праздников.

Эти наборы данных содержат данные по всему миру, полученные из пакета праздников PyPI и Википедии, охватывающие 38 стран или регионов с 1970 по 2099 год. Каждая строка указывает сведения о празднике для определенной даты, страны или региона, а также о том, заплатили ли большинство людей время отпуска. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure Open Dataset.

Инициализация полей фильтрации.

PublicHolidaysOffline

Представляет общедоступный набор данных для государственных праздников в автономном режиме.

Описание строк см. в разделе " Общедоступные праздники " в каталоге открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

SampleDatasetBase

Представляет базовый класс примера набора данных.

SanFranciscoSafety

Представляет общедоступный набор данных San Francisco Safety.

Этот набор данных содержит вызовы пожарной службы и 311 случаев в Сан-Франциско. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Dataset.

Инициализация полей фильтрации.

SeattleSafety

Представляет общедоступный набор данных Seattle Safety.

Этот набор данных содержит данные диспетчера пожарной службы Сиэтла 911. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге наборов данных Open Dataset в Сиэтле .

Инициализация полей фильтрации.

UsLaborCPI

Представляет общедоступный набор данных индекса цен потребителей США.

Индекс цен потребителей (CPI) является мерой среднего изменения со временем в ценах, оплачиваемых городскими потребителями для рыночной корзины потребительских товаров и услуг. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure.

Инициализировать.

UsLaborEHENational

Представляет общедоступный набор данных о рабочих часах и доходах США.

Этот набор данных содержит отраслевые оценки нефармовой занятости, часов и доходов работников по заработной плате в Соединенных Штатах. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure.

Инициализировать.

UsLaborEHEState

Представляет общедоступный набор данных штата США.

Этот набор данных содержит отраслевые оценки нефармовой занятости, часов и доходов работников по заработной плате в Соединенных Штатах. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Часы занятости в сша" и "Заработок " в каталоге открытых наборов данных Microsoft Azure.

Инициализировать.

UsLaborLAUS

Представляет общедоступный набор данных статистики безработицы по местному региону США.

Этот набор данных содержит ежемесячные и ежегодные данные о занятости, безработице и рабочей силе для регионов переписи населения и подразделений, штатов, округов, городских районов и многих городов в Соединенных Штатах. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure.

Инициализировать.

UsLaborLFS

Представляет общедоступный набор данных статистики труда США.

Этот набор данных содержит данные о рабочей силе в Соединенных Штатах, включая показатели участия в рабочей силе, а также гражданское неинституциональное население по возрасту, полу, расе и этническим группам. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Datasets.

Инициализировать.

UsLaborPPICommodity

Представляет индекс цен производителей США (PPI) — общедоступный набор данных сырьевых товаров.

Индекс цен производителя (PPI) является мерой среднего изменения со временем в ценах на продажу, полученных внутренними производителями для их производства. Цены, включенные в PPI, относятся к первой коммерческой сделке по продуктам и услугам. Этот набор данных содержит PPIs для отдельных продуктов и групп продуктов, выпущенных ежемесячно. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure.

Инициализировать.

UsLaborPPIIndustry

Представляет индекс цен производителей США (PPI) — общедоступный набор данных отрасли.

Индекс цен производителя (PPI) является мерой среднего изменения со временем в ценах на продажу, полученных внутренними производителями для их производства. Цены, включенные в PPI, относятся к первой коммерческой сделке по продуктам и услугам. Этот набор данных содержит ППИ для широкого спектра отраслевых секторов экономики США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Dataset.

Общие сведения об открытых наборах данных Azure см. в документации по Открытым наборам данных Azure.

Инициализировать.

UsPopulationCounty

Представляет население США по общедоступному набору данных округа.

Этот набор данных содержит население США по полу и расе для каждого округа США, полученного от 2000 и 2010 декабря переписи населения США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Население США по округу " в каталоге открытых наборов данных Microsoft Azure.

Инициализировать.

UsPopulationZip

Представляет население США по общедоступному набору данных Zip Code.

Этот набор данных содержит население США по полу и расе для каждого ZIP-кода США, исходного с декабря 2010 года. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Население США по ZIP-коду " в каталоге наборов данных Microsoft Azure Open Datasets.

Инициализировать.