Открытые датасеты 

Яндекс.Толока — крупный источник размеченных людьми данных для задач машинного обучения.
Каждый день в Яндекс.Толоке десятки тысяч исполнителей выполняют миллионы заданий сотен
разных типов. Для любых исследований и экспериментов, связанных с машинным обучением,
необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать
открытые датасеты для академических исследований в разных предметных областях.
Внимание. Все материалы предназначены для некоммерческого использования. Обязательно указывайте, что данные получены с помощью сервиса Яндекс.Толока. Если вы планируете использовать датасеты в коммерческих целях, получите согласие Яндекса, написав нам.
Toloka Users & Tasks
Этот датасет был собран для статьи «Prediction of Hourly Earnings and Completion Time on a Crowdsourcing Platform», опубликованной на конференции KDD'2020. Датасет содержит более 18 миллионов заданий, выполненных 161 377 пользователями. В нём собраны данные за три месяца 2018 года (с сентября по ноябрь). В архиве находятся все посещения пользователями главной страницы, на которой происходил выбор задания, и все задания, которые были выбраны и выполнены пользователями. Каждое посещение содержит временную метку, идентификаторы пользователя, выбранного проекта и конкретного задания, а также дополнительную информацию. У каждого задания есть время начала и время завершения, идентификаторы проекта и пользователя, размер вознаграждения, число микрозаданий, количество входных и выходных данных и другая информация. Кроме того, датасет содержит статическую информацию о пользователях (например дату регистрации) и проектах (например размер инструкции). Все данные анонимизированы, все ID обфусцированы.
Скачать

ZIP-archive, 6 files, 1.07 Gb

Что в архиве:
Выполненные задания — assignments.tsv
Информация о проектах — projects.tsv
Анонимизированная информация о пользователях — users.tsv
Посещения страницы со списком заданий и выбор заданий — visits.tsv
Toloka Business  ID Recognition
Для этого датасета мы подготовили 10 тысяч фотографий информационных табличек организаций и текстовый файл с номерами (ИНН и ОГРН), которые указаны на табличках. Обучившись на этих данных, модель компьютерного зрения сможет распознавать последовательность цифр на изображении. Датасет предоставлен сервисом Яндекс.Справочник.

Сначала мы запустили задание в мобильном приложении Яндекс.Толоки: исполнителям предлагалось приехать по адресу, отмеченному на карте, найти организацию и сфотографировать её информационную табличку. Затем качество выполненных заданий проверили другие исполнители. Фотографии, на которых указаны ИНН и ОГРН, мы отправили на расшифровку. Толокеры перепечатали эти номера с фотографий, после чего мы обработали результаты и сформировали датасет.  Скачать пример. 
Скачать

ZIP-archive, 19,5GB Sample — 191 mb

Что в архиве:
Директория с фотографиями — photos
Файл с данными: ИНН, ОГРН и идентификатор фото — data.tsv
Lexical Relations from the Wisdom of the Crowd (LRWC)
Этот датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима). Датасет собран исследователем Дмитрием Усталовым в 2017 году.

Для исследования взято 300 наиболее употребляемых в современном русском языке существительных. С помощью тезаурусов (РуТез, RuWordNet) и автоматизированных методов образования гиперонимов (Watset, Hyperstar) получено 10 600 родо-видовых пар (типа «котёнок» — «млекопитающее»). Каждую пару разметили семь русскоязычных исполнителей старше двадцати лет. По результатам, полученным после агрегации всех оценок, 4576 пар слов получили положительные ответы, а 6024 — отрицательные. Интересно, что участники исследования оказались более единодушны в выборе отрицательного ответа, чем положительного.
Скачать

ZIP-archive, 3 files, 2.01 Mb

Что в архиве:
Входные данные — lrwc-1.1-assignments.tsv
Обучающие задания — toloka-isa-50-skip-300-train-hit.tsv
Агрегированные результаты — lrwc-1.1-aggregated.tsv
The Russian Adverse Drug Reaction Corpus of Tweets (RuADReCT)

Этот датасет состоит из 9515 твитов, описывающих состояние здоровья. Каждый твит отмечен в зависимости от того, содержит ли он сообщение о неблагоприятном побочном эффекте, возникшем при приёме лекарственного препарата. Политика конфиденциальности Твиттера не позволяет хранить и распространять твиты в открытом доступе, поэтому в файлах указан только идентификатор твита, номер класса и скрипт для сбора исходного текста. Датасет создан в рамках соревнования The Social Media Mining for Health Applications (#SMM4H) Shared Tasks — дорожки по автоматическому извлечению из твитов информации о побочных эффектах лекарств. Датасет подготовлен совместно с UPenn HLP Center и НИЛ «Хемоинформатики и молекулярного моделирования» (КФУ).

Скачать

ZIP-archive, 5 files, 6.1Mb

Обучающие данные — task2_ru_train.tsv
Валидационные данные — task2_ru_validation.tsv
Тестовые данные — task2_ru_test.tsv
Скрипт для загрузки твитов — download_tweets.py
Описание корпуса, инструкция по запуску скрипта — Readme.md
Toloka Persona Chat Rus
Датасет из 10 тысяч диалогов поможет исследователям диалоговых систем отработать подходы к обучению чат-ботов. Мы подготовили его совместно с iPavlov — проектом Лаборатории нейронных систем и глубокого обучения МФТИ, который проводит исследования в области разговорного искусственного интеллекта и разрабатывает DeepPavlov, открытую библиотеку для создания диалоговых ассистентов. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования.
Скачать

ZIP-archive, 2 files, 8.19 Mb

Что в архиве:
Профили — profile.tsv
Диалоги — dialogues.tsv
Toloka Aggregation Features
Этот датасет содержит около 60 тысяч оценок в тысяче заданий. Почти для всех заданий даны правильные ответы. Исполнители классифицировали сайты по пяти категориям — по наличию контента для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.

Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов).
Скачать

ZIP-archive, 4 files, 0.45 Mb

Что в архиве:
Эталонные оценки — golden_labels.tsv
Действительнозначные показатели — features.tsv
Оценки исполнителей — crowd_labels.tsv
Toloka
Aggregation Relevance 5
Этот датасет аналогичен предыдущему, только оценки здесь собирались не по бинарной, а по пятибалльной шкале в проекте «Релевантность (5 градаций)».  Датасет содержит более миллиона оценок. Помимо результатов выполнения задания, датасет содержит информацию о заблокированных исполнителях. Для каждого из них указана одна из четырёх причин бана.

Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). Некоторые задания в датасете имеют не один, а несколько правильных ответов. Любой из таких ответов считается правильным.

Скачать

ZIP-archive, 3 files, 7.17 Mb

Что в архиве:
Оценки исполнителей — crowd_labels.tsv
Эталонные оценки — golden_labels.tsv
Блокировки исполнителей — bans.tsv
Toloka Aggregation Relevance 2
Этот датасет позволяет исследовать различные методы контроля качества в краудсорсинге. Он содержит почти 500 тысяч анонимизированных оценок исполнителей, собранных на проекте «Релевантность (2 градации)» в 2016 году. Вы найдёте здесь как обезличенные оценки отдельных толокеров, так и эталонные оценки, которые помогут измерить качество ответов. Эти данные позволят понять, как мнение отдельных исполнителей влияет на качество итоговой оценки, какие методы агрегации результатов лучше использовать, и сколько мнений нужно собрать, чтобы получить достоверный ответ.

Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). 
Скачать

ZIP-archive, 2 files, 3.08 Mb

Что в архиве:
Оценки исполнителей — crowd_labels.tsv
Эталонные оценки — golden_labels.tsv
Human-Annotated Sense-Disambiguated Word Contexts for Russian
Этот датасет содержит 2562 контекстных значения 20 слов, представляющих наибольшее разнообразие смысловых значений. Исследование проведено Дмитрием Усталовым в 2017 году.

Участникам исследования демонстрировалось слово и пример его употребления в речи. Нужно было определить значение слова в контексте высказывания и выбрать один из предложенных вариантов ответа. Каждое смысловое значение определили девять носителей русского языка. Полученные данные были проверены организаторами исследования.
Скачать

ZIP-archive, 9 files, 2.23 Mb

Что в архиве:
Обучающие задания — tasks-train.tsv
Основные задания — tasks-test.tsv
Общие результаты — assignments_01-12-2017.tsv.xz
Агрегированные результаты — aggregated_results_pool_1036853 __ 2017_12_01.tsv
Согласованность ответов — agreement.txt
Отчет о проверке результатов — report-curated.tsv.xz и tasks-eval.tsv.xz
Дополнение — tasks-eval.tsv.xz
Согласованность ответов — agreement.txt
Общий агрегированный датасет — bts-rnc-crowd.tsv

Соберите свой датасет

Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.
У вас уже есть датасет, которым вы хотите поделиться? Тогда напишите нам.
Sat Sep 19 2020 18:58:59 GMT+0300 (Moscow Standard Time)