Openbravo-rus.ru

Образование по русски
1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Машинное обучение и анализ данных скачать

16 бесплатных онлайн-курсов по машинному обучению

Популярная тенденция в сфере онлайн-образования — массовые открытые онлайн-курсы (Massive open online-courses, MOOC). Появились бесплатные курсы по машинному обучению и data science. Они доступны каждому и основаны на образовательных программах от ведущих университетов, например, МФТИ.

Большинство MOOC по машинному обучению доступны на английском языке и представлены на известных платформах онлайн-образования, таких как Coursera, Udacity, World Education University и edX.

Отдельно стоит отметить, что курсы Coursera доступны бесплатно только для прослушивания лекций. Для того, чтобы выполнять задания или получить сертификат по окончании курса, нужно оформить подписку или оплатить курс.

Видео-материалы и лекции курса можно получить бесплатно, для этого на странице курса внизу нужно нажать кнопку «прослушать курс», как показано на картинке:

Как бесплатно прослушать курсы по машинному обучению

В этой статье собраны бесплатные курсы по машинному обучению и Data Science на русском языке или с русскими субтитрами.

Введение в машинное обучение

Авторы: ВШЭ и Яндекс
Платформа: Coursera
Язык: русский

На курсе Константина Воронцова Введение в машинное обучение рассматриваются популярные задачи, решаемые с помощью машинного обучения — классификация, регрессия, кластеризация. Слушателю нужно знать об основных понятиях математики: функциях, производных, векторах, матрицах, желательно иметь базовые навыки программирования и быть знакомым с python.

Продолжительность: 35 часов

Машинное обучение и анализ данных

Авторы: МФТИ и Яндекс
Платформа: Coursera
Язык: русский

Специализация Машинное обучение и анализ данных включает 6 курсов. Осваиваются основные инструменты, необходимые в работе с большим массивом данных: современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, фундаментальная математика, основы программирования на python.

Продолжительность: 8 месяцев (7 часов в неделю)

Python для анализа данных

Авторы: МФТИ, ФРОО, Mail.ru Group
Платформа: Coursera
Язык: русский

Курс Python для анализа данных ориентирован на решение практических задач. Студенты будут применять свои навыки программирования для построения предиктивных моделей, визуализации данных и работы с нейросетями.

Продолжительность: 25 часов

Введение в науку о данных

Автор: СПбГУ
Платформа: Coursera
Язык: русский

Курс Введение в науку о данных рассматривает постановку и решение типичных задач, с которыми может столкнуться в своей работе data scientist, подходы к сбору, анализу, обработке и визуализации массивов данных.

Продолжительность: 17 часов

Глубокое обучение в творчестве с TensorFlow

Автор: Google Magenta
Платформа: Kadenze
Язык: английский, русские субтитры

MOOC Использование глубокого обучения в творчестве с помощью TensorFlow расскажет о том, как строить алгоритмы глубокого обучения на основе сверточных, рекуррентных, генеративных нейросетей и применять их для создания творческих приложений.

Продолжительность: 60 часов

Data Science

Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры

В специализацию Data Science университета John Hopkins входят 10 курсов, включая сбор и сортировку данных, программирование на языке R, регрессионные модели, разработку продуктов для обработки данных и другие.

Продолжительность: 8 месяцев (5 часов в неделю)

Data science для руководителей

Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры

Data Science для руководителей — это ускоренная обучающая программа — 5 курсов, которые дают базовое понимание о том, что такое data science и как работать с проектами в этой сфере, собирать и развивать команду и даже лидерские качества.

Продолжительность: 40 часов

Нейронные сети

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

Бесплатный курс Нейронные сети дает основы теории нейронных сетей и практики применения. Детальный разбор процесса создания и применения нейронных сетей. Алгоритмы, лежащие в основе нейросетей и множество практических задач.

Продолжительность: 33 часа

Программирование на Python

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

На курсе Программирование на Python представлены базовые понятия программирования на python и большое количество практических задач. Решения будут проверяться автоматической системой.

Продолжительность: 22 часа

Алгоритмы: теория и практика. Методы

Автор: Computer Science Center
Платформа: Stepic
Язык: русский

Рассматриваются теоретические основы создания алгоритмов и особенности реализации на языках C++, Java и Python.

Продолжительность: 35 часов

Основы программирования на R

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

На курсе Основы программирования на R изучаются основные типы данных и семантические правила, анализ и обработка данных.

Продолжительность: 19 часов

Анализ данных в R

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

На курсе рассматриваются этапы статистического анализа на R — предварительная обработка данных, применение статистических методов анализа и визуализация данных.

Продолжительность: 21 час

Базы данных

Автор: СПбГУ
Платформа: Coursera
Язык: русский

В основе курса Базы данных изучение и применение языка SQL для создания, модификации объектов и управления данными в реляционных базах данных. Рассматриваются сферы применения NoSQL баз данных и современные подходы к обработке big data.

Продолжительность: 20 часов

От Excel до MySQL: способы анализа бизнес-данных

Автор: Duke University
Платформа: Coursera
Язык: английский, русские субтитры

В специализацию входят 5 курсов, которые демонстрируют, как использовать Excel, Tableau и MySQL для анализа данных, прогнозирования, создания моделей и визуализации данных для решения задач и улучшения бизнес-процессов.

Продолжительность: 8 месяцев (5 часов в неделю)

Линейная регрессия

Автор: СПбГУ
Платформа: Coursera
Язык: русский

В курсе Линейная регрессия разбираются основные методы описания взаимосвязей между количественными признаками, регрессионный анализ и построение моделей. Специальное место отводится операциям с матрицами. Курс ориентирован на людей, которые уже знакомы с базовыми понятиями анализа данных.

Продолжительность: 22 часа

Анализ данных

Автор: НГУ
Платформа: Coursera
Язык: русский

В специализацию Анализ данных Новосибирского государственного Университета входят 4 курса. Курсы содержат материалы по основам теории вероятностей и математической статистики, исследованию связей между признаками, построению прогнозов на основе регрессионных моделей, кластерному и статистическому анализу. Курсы разработаны совместно с 2GIS.

Продолжительность: 4 месяца (3 часа в неделю)

Machine Learning and Data Analysis

12th International Conference on Intelligent Data Processing

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences and Moscow Institute of Physics and Technology are pleased to announce the 12th International Conference on Intelligent Data Processing: Theory and Applications (IDP-2018). The conference will be held from 8 to 12 October 2018 in Italy, Gaeta. Languages for the meeting are English and Russian.

IDP-2018 (Intelligent Data Processing: Theory and Applications) conference is a premier forum that brings together the data science researchers and professionals to discuss, distribute and advance the state of research and development of the data analysis field. The conference offers research and industry tracks in the areas of machine learning, data science, big data analysis, deep learning and computer vision. The IDP-2018 conference facilitates the exchange of insights and innovations between the industry and the academia, each represented by leaders in their respective fields. The event has its roots in the Russian school of mathematics and machine learning. It serves as an enriching interaction point between researchers and business from Russia and the world.

Читать еще:  It аналитик обучение

The conference is organized and supported by the Russian foundation for basic research, Moscow Institute of Physics and Technology, Forecsys, Center of Forecasting Systems and Recognition. Details on the mmro.ru.

Call For Papers International Conference on Intelligent Data Processing

The Program Committee of the 11th International Conference on Intelligent Data Processing: Theory and Applications (IDP-2016) invites authors to submit full-length papers in English to the issue Machine Learning and Intelligent Data Processing published by Springer in Communications in Computer and Information Science series.

The conference Program Committee and the Editorial Board accept papers representing the latest achievements in the theory and practice of intelligent data processing. It is expected that the papers demonstrate the theoretical achievements in addressing the fundamental problems of data mining and also pay attention to the applications of these achievements. Papers demonstrating solutions of practical problems should use modern theoretical methods, motivated by real needs of the modern world. A well-developed computational experiment with analysis and comparison is welcome. All submitted papers are passed on to peer review. The reviewers are invited to make one-round review decision.

  • 20 February 2017 — Research paper submission deadline
  • 20 April 2017 — Notification of acceptance/rejection
  • 20 May 2017 — Camera-ready versions for Springer CCIS Proceedings
  • Springer LaTeX guidelines for authors: guidelines.pdf
  • CCIS full paper template archive: ccis-package.zip
  • CCIS copyright transfer agreement: ccis-copyright.pdf

11-th International Conference «Intelligent Data Processing:Theory and Applications 2016»

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences and Moscow Institute of Physics and Technology are pleased to announce the 11th International Conference on Intelligent Data Processing: Theory and Applications. Detailed information about the conference is available at the conference website.

Conference participants must submit an abstract and a full version of the paper. Full papers have to be published or accepted for publication in the Machine Learning and Data Analysis journal (JMLDA) or in another peer-reviewed scientific journal.

JMLDA accepts articles in English and Russian. Manuscript submission process description is available at the journal website. It is convenient to start preparing the paper with editing the provided template. The template and all necessary files can be downloaded in the archive.

After the article is accepted for the publishing in JMLDA or in another peer-reviewed scientific journal, the abstract is submitted via the website. Abstract preparation guidelines can be downloaded in archive. Abstracts are submitted in English and Russian and can be the same as the abstract of the full paper. The total length of the abstract should not exceed one page.

Abstracts and full papers submission deadline is September 1.

Updates in jmlda-guides.zip archive

The jmlda-guides.zip archive has been modified. Metadata is now placed on the first and last pages of the paper. Encoding of the manuscript is now UTF-8 without BOM. To change the encoding please use Sublime Text or Notepad++ text editors.

It is highly recommended to start preparing the manuscript by editing the provided template. Manuscript template is now available in two languages: for article in Russian and in English.

The author’s guidelines, the manuscript template, jmlda.sty package and two BibTeX style files can be found in jmlda-guides.zip archive.

Please pay attention that the signed copy of the copyright transfer agreement has to be presented in the archive along with the paper when it is submitted to the journal.

Copyright transfer agreement is available in two languages, in Russian and in English. You can choose any of these versions when submitting an article.

17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» 2015

The preliminary program of the 17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» is now available at machinelearning.ru.

Updates in jmlda-guides.zip archive and Copyright transfer agreement

The author’s guidelines have been modified.
References are now presented in two languages, both in Russian and English. Instructions how to prepare References are given in the guidelines. Two BibTeX style files are provided, one of them stands for Russian GOST7.0.5-2008 standard style with some modifications and the other one stands for the style recommended by Web of Science and Scopus.

New version of the manuscript template is now available at jmlda-template.pdf .

The jmlda.sty package has been updated to provide compatibility with the versions of russian.ldf higher than 1.2.

The author’s guidelines, the manuscript template, jmlda.sty package and two BibTeX style files can be found in jmlda-guides.zip archive.

Please pay attention that the signed copy of the copyright transfer agreement now has to be presented in the archive with the paper when it is submitted to the journal.

17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» 2015

The organizing committee of the 17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» brings to your mind that the abstracts and papers submission deadline is June 15th, 2015.

To take part in the conference you have to submit a paper and an abstract. The paper must be published or accepted for publication in the Journal of Machine Learning and Data Analysis (JMLDA) or in another peer-reviewed scientific journal. JMLDA accepts papers both in Russian or in English. You can find the journal style guide on the website jmlda.org. It is convenient to start editing the paper with the provided template. The template and all necessary files are in the archive.

After the paper is accepted for the publishing in JMLDA or in another peer-reviewed scientific journal, the author should submit his abstract via the website of the Conference. Abstract preparation guidelines are available at mmro.ru. The text of abstract must be submitted in both English and Russian languages and might be taken from the paper abstract of the full report. The abstract should not exceed one page.

IIP-10 conference abstracts

The proceeding of the 10th International Conference on Intelligent Information Processing are published here.

Читать еще:  Дистанционное обучение на программиста

10-th International Conference «Intelligent Information Processing» 2014

The organizing committee of the 10-th International Conference «Intelligent Information Processing» brings to your mind that the deadline is June 15th, 2014.

Машинное обучение и анализ данных

Новая программа. Первый набор в 2020 году.

Программа для тех, кто не является профессиональным программистом или специалистом в области машинного обучения и анализа данных, но очень хочет им стать. Основной упор на программе сделан на индивидуальную практическую работу со студентами и их участие в реальных промышленных или научно-исследовательских проектах.

Выпускники программы могут работать как программистами-исследователями в ведущих российских и зарубежных IT-компаниях, так и продолжить свое обучение в аспирантуре лучших университетов.

Нашли опечатку ?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Особенности программы

– Уникальный профиль программы

– Возможность выбора индивидуальной траектории обучения

– Ориентированность на фундаментальные аспекты подготовки

– ТОП-5 самых высокооплачиваемых профессий

Для кого эта программа

Программа рассчитана на тех абитуриентов, кто не является профессиональным программистом или специалистом в области машинного обучения и анализа данных, но очень хочет им стать. Как следствие, эта программа нацелена на выпускников бакалавриата сторонних вузов, обучавшихся как по профильным (программистским, физико-математическим и др.), так и не по профильным (экономическим, социологическим и др.) специальностям, и желающим освоить с нуля или углубить свои знания, прежде всего, в области машинного обучения и анализа данных.

Это программа для вас, если вы

– имеете базовую фундаментальную подготовку в области программирования и достаточно хорошую математическую базу и желаете стать настоящим профессионалом в машинном обучении и анализе данных;

– готовы к научно-исследовательской работе в области анализа данных и искусственного интеллекта;

– хотите подготовиться к аспирантуре или работе в исследовательских подразделениях ведущих IT-компаний.

Проектная работа и исследования

Основной упор в программе делается на индивидуальную практическую работу со студентами. Многие дисциплины программы имеют практическую сторону, поэтому требования к студентам включают в себя участие в реальных промышленных или научно-исследовательских проектах в области машинного обучения и анализа данных. Результаты этой работы заслушиваются на специальных семинарах, участие в которых принимают представители IT-компаний и сотрудники научно-исследовательских лабораторий НИУ ВШЭ.

Стажировки

Программа предусматривает летние стажировки и практики в ведущих российских и зарубежных компаниях в области информационных технологий, лабораториях и исследовательских группах факультета Санкт-Петербургская школа физико-математических и компьютерных наук.

Перспективы и трудоустройство

Выпускник программы может работать программистом-исследователем в ведущих российских и зарубежных IT-компаниях:

Также он может продолжить свое обучение в аспирантуре лучших российских и зарубежных университетов:

Вступительные испытания

Отбор кандидатов осуществляется по результатам вступительных испытаний в форме письменного экзамена и устного собеседования.

[ЭКСКЛЮЗИВ] Data Scientist. Научитесь строить и обучать предиктивные модели с помощью алгоритмов машинного обучения и нейросетей.

Курс: «Data Scientist. Научитесь строить и обучать предиктивные модели с помощью алгоритмов машинного обучения и нейросетей.» Мощнейший курс по программированию от Нетологии. В сети были некоторые части материала, которые вызывали дикий восторг у людей. В этой раздаче находится весь материал. Отзывы отличные. Материал получает метку эксклюзивного материала! Материал очень быстро удалят, рекомендуем сохранять/скачивать сразу! Материал прислал анонимный пользователь без комментариев.

Материал может быть удален по запросу правообладателя!

Описание курса:

Курс состоит из более чем 180 часов видео и домашних заданий от ведущих специалистов по Data Scientist компаний Mail.ru, Ivi и Avito.

Первые два набора уже удачно состоялись, и студенты вовсю погрузились в базовые алгоритмы ML, feature engineering, машинное зрение, Data Scientist в e-commerce, временные ряды и прогнозирование стоимости акций и других товаров. Их преподавателями стали эксперты из Yandex Data Factory, Rambler&Co, Сбербанк Технологии и теперь у вас появится возможность получить все необходимые знания и навыки для работы в области больших данных.

Программа обучения:

I Подготовительный блок:

Экспресс-обучение основным инструментам: Python 3, git, библиотеки numpy, pandas. Обзор основного математического аппарата: матричные операции, введение в статистику и проверку гипотез.

II Введение в data science, основные инструменты:

Что такое data science, big data, как это работает и где применяется. Эксплоративный анализ и библиотеки визуализации данных. Обзор методов машинного обучения в бибилотеке scikit-learn.

III Базовые алгоритмы и понятия машинного обучения:

Разбор основных задач и алгоритмов машинного обучения: деревья решений, метод k ближайших соседей, линейный классификатор и логистическая регрессия, кластеризация. Проверка точности модели. Проблема переобучения и борьба с ней: регуляризация, ансамблирование.

IV Feature engineering:

Проблемы качества и размерности данных. Уменьшение размерности данных. Методы декомпозиции. Cпрямляющие пространства.

V Рекомендательные системы:

Введение в рекомендательные системы. Неперсонализированные рекомендации. Персонализированные рекомендации. Развитие рекомендательных систем.

VI Распознавание изображений, машинное зрение:

Базовая теория. Обзор кейсов применения. Нейросети. Разбор реальных задач: рукописный ввод, детекция и сегментация объектов на изображении.

VII Обработка естественного языка (NLP):

Введение в обработку текста. Обзор существующих библиотек, их использование и доработка. Использование внешних ресурсов. Грязные тексты: что это такое и как с ними работать. Дистрибутивная семантика. Чатботы: разбор генерации текстов. Нейросети для NLP.

VIII Анализ временных рядов, прогнозирование:

Временные ряды, модели ARMA/ARIMA. Сложные модели прогнозирования. Эксплоративный анализ временных рядов.

IX Общение с заказчиком:

Проекты машинного обучения: как выявить требования и оценить проект. Составление отчетов по исследованиям. Мастер-класс по презентации результатов.

X Data Science в маркетинге и e-commerce:

Цели, задачи, решения и критерии успешности применения Data Science. Маркетинг Data-Driven vs интуиция. Типы данных и примеры датасетов. Методы сбора из разных источников. Подготовка и обработка данных, извлечение смысла и визуализация. Разбор атрибуции маркетинговых расходов для увеличения дохода интернет-магазина.

XI Дополнительные инструменты, среды:

Экосистема Google: BigQuery, Dataflow, Dataproc, Datalab и др. Коммерческие решения HP: Vertica, Haven, IDOL, коннекторы данных. Решения от Amazon (AWS). Хранение и обработка данных в Clickhouse.

XII Дипломная работа:

Разработка и внедрение собственного ML-решения/проекта либо разработка предложенного нами кейса.

Если Вы не видите ссылку для скачивания материала — отключите блокиратор рекламы и добавьте наш сайт в список исключений. Если Вы против рекламы на нашем сайте — покупайте контент напрямую у авторов.

Лучшие датасеты для машинного обучения и анализа данных

Лучшие датасеты для машинного обучения и анализа данных

  • Переводы , 13 мая 2019 в 11:50
  • Никита Прияцелюк

Для анализа данных и машинного обучения требуется много данных. Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:

Где искать датасеты

  • Google Dataset Search. Dataset Search позволяет по ключевому слову искать датасеты по всей Сети.
  • Kaggle. Площадка для соревнований по машинному обучению с множеством интересных датасетов. В списке датасетов можно найти разные нишевые экземпляры — от оценок рамена до баскетбольных данных NCAA и базы лицензий на домашних животных в Сиэтле.
  • UCI Machine Learning Repository. Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.
  • VisualData. Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.
  • Find Datasets | CMU Libraries. Коллекция датасетов, предоставленная университетом Карнеги Меллон.

Датасеты общего назначения

Государственные датасеты

  • Data.gov. Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.
  • Food Environment Atlas. Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.
  • School system finances. Данные о финансах школьных систем в США.
  • Chronic disease data. Данные о показателях хронических заболеваний на территории США.
  • The US National Center for Education Statistics. Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.
  • The UK Data Service. Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.
  • Data USA. Исчерпывающая визуализация общедоступных данных США.

Данные о жилье

  • Boston Housing Dataset. Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из архива StatLib и широко использовалась в литературе для оценки алгоритмов.

Экономика и финансы

  • Quandl. Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.
  • World Bank Open Data. Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.
  • IMF Data. Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.
  • Financial Times Market Data. Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.
  • Google Trends. Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.
  • American Economic Association (AEA). Хороший источник данных о макроэкономике США.

Датасеты для машинного обучения

Компьютерное зрение

  • xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
  • Labelme. Большой датасет аннотированных изображений.
  • ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
  • LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
  • MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
  • COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
  • Visual Genome. Датасет с

100 тыс. подробно аннотированных изображений.

  • Google’s Open Images. Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
  • Labelled Faces in the Wild. Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
  • Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.
  • Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
  • Анализ тональности текста

    • Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
    • IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
    • Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
    • Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
    • Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.

    Обработка естественного языка

    • HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
    • Enron Dataset. Данные электронной почты от высшего руководства Enron.
    • Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
    • Google Books Ngrams. Коллекция слов из Google Книги.
    • Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
    • Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
    • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
    • Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
    • Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
    • Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
    • SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
    • Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
    • UCI’s Spambase. Большой датасет спам-писем.

    Автопилоты

    • Berkeley DeepDrive BDD100k. На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
    • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
    • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
    • Oxford’s Robotic Car. Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
    • Cityscape Dataset. Большой датасет, содержащий записи ста уличных сцен в 50 городах.
    • KUL Belgium Traffic Sign Dataset. Более 10 000 аннотаций тысяч разных светофоров в Бельгии.
    • LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
    • Bosch Small Traffic Light Dataset. Датасет с 24 000 аннотированных светофоров.
    • LaRa Traffic Light Recognition. Ещё один датасет для распознавания светофоров.
    • WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.

    Медицинские данные

    • MIMIC-III. Датасет с обезличенными данными о состоянии здоровья

    40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.

    Ссылка на основную публикацию
    Adblock
    detector
    ×
    ×