opendatasets Пакет
Содержит функции для использования Открытых наборов данных Azure в качестве кадров данных и обогащения данных клиентов.
Открытые наборы данных Azure курируют общедоступные наборы данных, которые можно использовать для добавления функций для конкретных сценариев в решения машинного обучения для более точных моделей. Эти общедоступные наборы данных можно преобразовать в кадры данных Spark и pandas с примененными фильтрами. Для некоторых наборов данных можно использовать обогащение для присоединения к общедоступным данным с данными. Например, данные можно объединить с данными о погоде по долготе и широте или почтовому индексу и времени.
Включенные в наборы данных Azure Open Dataset — это данные с общедоступным доменом для погоды, переписи, праздников, общественного безопасности и расположения, которые помогают обучать модели машинного обучения и обогащать прогнозные решения. Открытые наборы данных находятся в облаке в Microsoft Azure и интегрируются в Машинное обучение Azure. Дополнительные сведения о работе с открытыми наборами данных Azure см. в статье "Создание наборов данных с помощью Открытых наборов данных Azure".
Общие сведения об открытых наборах данных Azure см. в документации по Открытым наборам данных Azure.
Пакеты
accessories |
Содержит функции, которые помогают определять типы столбцов в данных, включая lat/long, zipcode и время. |
aggregators |
Содержит функциональные возможности для определения агрегирования присоединенных данных. Агрегаты определяют операции, которые можно выполнять в результате объединения данных из двух наборов данных. Например, при использовании одного из классов в enrichersможно указать агрегат в рамках операции. Если агрегирование не требуется, используйте AggregatorAll. |
data |
Содержит файл инициализации ресурсов данных в модуле publicholidays. |
dataaccess |
Содержит функции, обеспечивающие методы доступа к файлам BLOB-объектов. При использовании класса из opendatasets пакета, такого как ChicagoSafety класс, классы и функции dataaccess в этом пакете используются внутренне. Как правило, вам не нужно использовать функции в пакете dataaccess напрямую. |
enrichers |
Содержит функции для обогащения и объединения данных из двух наборов данных. Как правило, обогащение объединяет данные из разных источников. В частности, обогащение позволяет присоединять данные (данные клиента) с данными из Открытых наборов данных Azure или других общедоступных наборов данных. |
granularities |
Содержит функциональные возможности, определяющие меры времени и расстояния, используемые обогащениями. Детализация — это меры времени или расстояния, используемые enrichers при обогащении (присоединении) данных. Существует степень детализации времени, например почасовая или ежедневная, а также степень детализации расположения, например ближайшее расстояние. |
selectors |
Содержит функции для выбора и присоединения данных из клиентского набора данных с данными из общедоступного набора данных. Селекторы определяют логику, которая позволяет расширить данные с помощью общедоступных наборов данных на основе мер времени и расстояния. Например, с селектором можно найти общедоступные данные для соединения с данными на основе ближайшего расположения или округления до той же детализации. Укажите селекторы при работе с одним из классов в пакете enrichers . |
Модули
environ |
Определяет классы среды выполнения, в которых используются наборы данных Azure Open. Классы в этом модуле гарантируют, что функции Открытых наборов данных Azure оптимизированы для различных сред.
Как правило, вам не нужно создавать экземпляры этих классов среды или беспокоиться о их реализации.
Вместо этого используйте |
Классы
BingCOVID19Data |
Представляет набор данных Bing COVID-19. Эти наборы данных содержат данные Bing COVID-19 из нескольких надежных источников, в том числе Всемирной организации здравоохранения (ВОЗ), Центров по контролю и профилактике заболеваний (CDC), национальных и государственных департаментов здравоохранения, BNO News, 24/7 Wall St. и Википедии. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге открытых наборов данных Microsoft Azure COVID-19 . Инициализация полей фильтрации. |
BostonSafety |
Представляет общедоступный набор данных Boston Safety. Этот набор данных содержит 311 звонков, сообщаемых городу Бостона. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Datasets. Инициализация полей фильтрации. |
COVID19OpenResearch |
Представляет набор данных open Research COVID-19. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге открытых наборов данных CoVID-19 Open Research в каталоге открытых наборов данных Microsoft Azure. |
COVIDTrackingProject |
Представляет набор данных проекта отслеживания COVID. Эти наборы данных содержат набор данных проекта отслеживания COVID, предоставляющий последние номера тестов, подтвержденных случаев, госпитализаций и результатов пациентов из каждого штата и территории США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе " Набор данных для отслеживания COVID" в каталоге открытых наборов данных Microsoft Azure. Инициализация полей фильтрации. |
ChicagoSafety |
Представляет общедоступный набор данных Чикаго Safety. Этот набор данных содержит 311 запросов на обслуживание из города Чикаго, в том числе исторические жалобы на санитарно-санитарный код, сообщения о отверстиях горшка и проблемы с уличным светом. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Datasets. Инициализация полей фильтрации. |
CitySafety |
Класс безопасности города - это родительский класс, который может быть унаследован каждым отдельным городом. Инициализация полей фильтрации. |
Diabetes |
Представляет общедоступный набор данных диабета. Набор данных Diabetes (Диабет) содержит 442 образца с 10 признаками. Он идеально подходит для начала работы с алгоритмами машинного обучения. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Пример: Диабет в каталоге открытых наборов данных Microsoft Azure". |
EcdcCOVIDCases |
Представляет Европейский центр по профилактике заболеваний и контролю (ECDC) covid-19 случаев. Эти наборы данных содержатся в Европейском центре по профилактике и контролю заболеваний (ECDC). Каждая строка или запись содержит количество новых случаев, сообщаемых в день и в каждой стране или регионе. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в европейском центре по профилактике и контролю заболеваний (ECDC) Covid-19 Случаев в каталоге открытых наборов данных Microsoft Azure. Инициализация полей фильтрации. |
MNIST |
Представляет набор данных MNIST рукописных цифр. База данных образцов рукописного написания цифр MNIST содержит 60 000 образцов наборов данных для обучения и тестовый набор из 10 000 образцов. Цифры были нормализованы размером и центрированы в изображении фиксированного размера. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры см. в базе данных MNIST рукописных цифр в каталоге открытых наборов данных Microsoft Azure. Пример использования набора данных MNIST см. в руководстве по обучению моделей классификации изображений с помощью данных MNIST и scikit-learn с помощью Машинного обучения Azure. |
NoParameterOpenDatasetBase |
Базовый класс труда США. Инициализировать. |
NoaaGfsWeather |
Представляет набор данных Национальной системы прогнозирования океана и атмосферы (NOAA) Глобальной системы прогнозирования (GFS). Этот набор данных содержит 15-дневные данные прогноза погоды США (например, температуры, осадков, ветра), созданных глобальной системой прогнозирования (GFS) из Национальной администрации океанических и атмосферных систем (NOAA). Сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе NoAA Global Forecast System в каталоге открытых наборов данных Microsoft Azure. Инициализация полей фильтрации. |
NoaaIsdWeather |
Представляет национальный набор данных о океанических и атмосферных данных (NOAA) интегрированного набора данных поверхности (ISD). Этот набор данных содержит данные почасовой истории погоды по всему миру (например, температура, осадки, ветер), полученные из Национальной администрации океанических и атмосферных систем (NOAA). Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге наборов данных Open Data в Microsoft Azure. Инициализация полей фильтрации. |
NycSafety |
Представляет общедоступный набор данных "Безопасность в нью-йорке". Этот набор данных содержит все запросы в службу 311 города Нью-Йорка с 2010 г. до текущего момента. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure. Инициализация полей фильтрации. |
NycTaxiBase |
Класс Такси Нью-Йорка - это родительский класс, который может быть унаследован. Инициализация полей фильтрации. |
NycTlcFhv |
Представляет общедоступный набор данных Комиссии по такси и лимузину Нью-Йорка. Этот набор данных содержит For-Hire записи поездки Vechicle (FHV), включающие поля, включающие запись базового номера лицензии на отправку и дату сбора, время и расположение зоны такси (файл фигуры ниже). Эти записи создаются из отправки записи поездки FHV, сделанных базами. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — записи о поездках For-Hire транспортных средств (FHV) в каталоге Открытых наборов данных Microsoft Azure. Инициализация полей фильтрации. |
NycTlcGreen |
Представляет открытый набор данных о поездке в такси Нью-Йорка и Лимузинской комиссии. Зеленые записи о поездке на такси включают поля, захватывающие даты и время сбора и падения, места сбора и падения, расстояния поездки, элементы тарифы, типы ставок, типы платежей и количество пассажиров, сообщаемых водителем. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — зеленые записи о поездках на такси в каталоге Open Datasets Microsoft Azure. Пример использования класса NycTlcGreen см. в руководстве по прогнозированию тарифов на такси с помощью автоматизированного машинного обучения. Инициализация полей фильтрации. |
NycTlcYellow |
Представляет общедоступный набор данных о поездке в такси Нью-Йорка и Лимузинской комиссии. Желтые записи о поездке на такси включают поля, захватывающие даты и время сбора и падения, места сбора и падения, расстояния поездки, предметные тарифы, типы ставок, типы платежей и число пассажиров, сообщаемых водителем. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — желтые записи поездки на такси в каталоге Open Datasets Microsoft Azure. Инициализация полей фильтрации. |
OjSalesSimulated |
Представляет набор данных оранжевого сока, имитированного набора данных. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Пример: Имитированные данные продаж OJ " в каталоге открытых наборов данных Microsoft Azure. |
PublicHolidays |
Представляет общедоступный набор данных для государственных праздников. Эти наборы данных содержат данные по всему миру, полученные из пакета праздников PyPI и Википедии, охватывающие 38 стран или регионов с 1970 по 2099 год. Каждая строка указывает сведения о празднике для определенной даты, страны или региона, а также о том, заплатили ли большинство людей время отпуска. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure Open Dataset. Инициализация полей фильтрации. |
PublicHolidaysOffline |
Представляет общедоступный набор данных для государственных праздников в автономном режиме. Описание строк см. в разделе " Общедоступные праздники " в каталоге открытых наборов данных Microsoft Azure. Инициализация полей фильтрации. |
SampleDatasetBase |
Представляет базовый класс примера набора данных. |
SanFranciscoSafety |
Представляет общедоступный набор данных San Francisco Safety. Этот набор данных содержит вызовы пожарной службы и 311 случаев в Сан-Франциско. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Dataset. Инициализация полей фильтрации. |
SeattleSafety |
Представляет общедоступный набор данных Seattle Safety. Этот набор данных содержит данные диспетчера пожарной службы Сиэтла 911. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в каталоге наборов данных Open Dataset в Сиэтле . Инициализация полей фильтрации. |
UsLaborCPI |
Представляет общедоступный набор данных индекса цен потребителей США. Индекс цен потребителей (CPI) является мерой среднего изменения со временем в ценах, оплачиваемых городскими потребителями для рыночной корзины потребительских товаров и услуг. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure. Инициализировать. |
UsLaborEHENational |
Представляет общедоступный набор данных о рабочих часах и доходах США. Этот набор данных содержит отраслевые оценки нефармовой занятости, часов и доходов работников по заработной плате в Соединенных Штатах. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure. Инициализировать. |
UsLaborEHEState |
Представляет общедоступный набор данных штата США. Этот набор данных содержит отраслевые оценки нефармовой занятости, часов и доходов работников по заработной плате в Соединенных Штатах. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Часы занятости в сша" и "Заработок " в каталоге открытых наборов данных Microsoft Azure. Инициализировать. |
UsLaborLAUS |
Представляет общедоступный набор данных статистики безработицы по местному региону США. Этот набор данных содержит ежемесячные и ежегодные данные о занятости, безработице и рабочей силе для регионов переписи населения и подразделений, штатов, округов, городских районов и многих городов в Соединенных Штатах. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure. Инициализировать. |
UsLaborLFS |
Представляет общедоступный набор данных статистики труда США. Этот набор данных содержит данные о рабочей силе в Соединенных Штатах, включая показатели участия в рабочей силе, а также гражданское неинституциональное население по возрасту, полу, расе и этническим группам. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Datasets. Инициализировать. |
UsLaborPPICommodity |
Представляет индекс цен производителей США (PPI) — общедоступный набор данных сырьевых товаров. Индекс цен производителя (PPI) является мерой среднего изменения со временем в ценах на продажу, полученных внутренними производителями для их производства. Цены, включенные в PPI, относятся к первой коммерческой сделке по продуктам и услугам. Этот набор данных содержит PPIs для отдельных продуктов и групп продуктов, выпущенных ежемесячно. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге открытых наборов данных Microsoft Azure. Инициализировать. |
UsLaborPPIIndustry |
Представляет индекс цен производителей США (PPI) — общедоступный набор данных отрасли. Индекс цен производителя (PPI) является мерой среднего изменения со временем в ценах на продажу, полученных внутренними производителями для их производства. Цены, включенные в PPI, относятся к первой коммерческой сделке по продуктам и услугам. Этот набор данных содержит ППИ для широкого спектра отраслевых секторов экономики США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры , см . в каталоге наборов данных Microsoft Azure Open Dataset. Общие сведения об открытых наборах данных Azure см. в документации по Открытым наборам данных Azure. Инициализировать. |
UsPopulationCounty |
Представляет население США по общедоступному набору данных округа. Этот набор данных содержит население США по полу и расе для каждого округа США, полученного от 2000 и 2010 декабря переписи населения США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Население США по округу " в каталоге открытых наборов данных Microsoft Azure. Инициализировать. |
UsPopulationZip |
Представляет население США по общедоступному набору данных Zip Code. Этот набор данных содержит население США по полу и расе для каждого ZIP-кода США, исходного с декабря 2010 года. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе "Население США по ZIP-коду " в каталоге наборов данных Microsoft Azure Open Datasets. Инициализировать. |