Повысьте точность ваших моделей машинного обучения с помощью общедоступных наборов данных. Чтобы сэкономить время на обнаружении и подготовке данных, используйте проверенные наборы данных, готовые к проектам машинного обучения.
Записи поездок в такси, отмеченные желтым, включают такие данные, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров.
Записи поездок в такси, отмеченные зеленым, включают такие данные, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров.
Записи о поездках на прокатном транспорте, которые содержат поля с номером лицензии в диспетчерском центре, дату и время посадки пассажиров, а также идентификатор местоположения такси.
COVID-19 Data Lake — это коллекция наборов данных о COVID-19, полученных из разных источников. Это данные системы отслеживания результатов тестирования и лечения, а также сведения о соблюдении правил социального дистанцирования, вместимости больниц, перемещениях и т. д.
Полнотекстовый набор данных и метаданных, связанных с COVID-19 и коронавирусными статьями, оптимизированными для удобочитаемости компьютера и доступным для использования глобальным сообществом научных исследований.
Genomics Data Lake предоставляет различные общедоступные наборы данных, доступные для бесплатной интеграции в рабочие процессы и приложения анализа геномики. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.
Статистика труда США предоставляет статистику труда, показатели участия в рабочей силе и гражданское неинституциональное население по возрасту, полу, расе и этническим группам в США.
Программа статистики текущей занятости (CES) предоставляет подробную оценку отрасли в плане занятости несельскохозяйственного персонала, рабочем времени и окладах в Соединенных Штатах.
Программа статистики текущей занятости (CES) предоставляет подробную оценку отрасли в плане занятости несельскохозяйственного персонала, рабочем времени и окладах в Соединенных Штатах.
Наборы данных US Local Area Unemployment Statistics предоставляют данные о трудоустройстве, безработице и занятости населения по регионам, округам, штатам, крупным городам с пригородами и многим городам США за месяц и за год.
Индекс потребительских цен (CPI) измеряет среднее изменение со временем в ценах, выплачиваемых городскими потребителями для рыночной корзины потребительских товаров и услуг.
Население США по полу и расе для каждого округа США, полученного от 2000 и 2010 декабря переписи населения США. Источник данных — Бюро переписи населения США.
Этот набор данных содержит все запросы в службу 311 города Нью-Йорка с 2010 г. до текущего момента. Этот набор данных хранится в формате Parquet и получает ежедневные обновления.
Вызовы пожарной службы и обращения в службу 311 в Сан-Франциско. Этот набор данных содержит архивные записи, собранные с 2015 года по сегодняшний день.
Отправка по вызовам 911 в управлении пожарной охраны Сиэтла. Этот набор данных обновляется ежедневно и содержит архивные записи, собранные с 2010 года по сегодняшний день.
Этот набор данных является производным от набора данных OJ Dominick и включает дополнительные имитированные данные с целью предоставления набора данных, который упрощает одновременное обучение тысяч моделей на Машинное обучение Azure.
База данных образцов рукописного написания цифр MNIST содержит 60 000 образцов наборов данных для обучения и тестовый набор из 10 000 образцов. Цифры нормализованы размером и центрируются на изображении фиксированного размера.
MIcrosoft News Dataset (MIND) — это крупномасштабный набор данных для исследования рекомендаций новостей. Он служит эталонным набором данных для рекомендаций по новостям и содействует исследованиям в сфере рекомендаций новостей и систем рекомендаций.