Открытые датасеты

Яндекс.Толока — крупнейший источник размеченных людьми данных для машинного обучения. Каждый день тысячи пользователей выполняют сотни заданий и производят миллионы оценок. Яндекс.Толока предоставляет большие объёмы качественных данных для проведения академических исследований и разработки инноваций в разных областях.
Внимание! Общедоступные датасеты предназначены только для некоммерческого использования со ссылкой на Толоку как источник данных. Если вы планируете использовать датасеты в коммерческих целях, свяжитесь с нами для согласования.

Toloka Business ID Recognition

ZIP archive, 19.5 GB
Файл с данными: data.tsv
Фотографии: photos/

Этот набор данных был создан по заказу Яндекс.Справочника и содержит 10 000 фотографий табличек с информацией о российских организациях, в том числе ИНН и ОГРН. Толока использовалась как для съёмки фотографий, так и для распознавания ИНН и ОГРН.

TolokaWaterMeters

Этот набор данных был сформирован Романом Кучевым (TrainingData.ru). Содержит 1244 изображения счётчиков горячей и холодной воды, а также показания счётчиков и координаты дисплеев, отображающих эти показания.
На каждом изображении ровно один счётчик. В архив также входят фотографии результатов сегментации с масками и коллажами. Толока использовалась для съёмки фотографий, их сегментации и распознавания показаний.

ZIP archive, 981 MB
Фотографии: images/
Маски: masks/
Коллажи: collage/

RuBQ: A Russian Dataset for Question
Answering over Wikidata

Для разработчиков: RuBQ_dev.json
Тестовый массив: RuBQ_test.json

RuBQ (Russian Knowledge Base Questions, произносится [´rubik]) — первый русскоязычный датасет для ответа на вопросы баз знаний (Knowledge Base Question Answering, KBQA). Он состоит из 1500 вопросов различной сложности
с английским машинным переводом, соответствующими запросами SPARQL, ответами на вопросы, а также подмножеством викиданных, охватывающих сущности с русскоязычной разметкой.

Toloka Persona Chat Rus

Этот датасет включает 10 000 диалогов, предназначенных для исследования работы чат-ботов. Он составлен в лаборатории нейронных систем и глубокого обучения МФТИ для исследования разговорного искусственного интеллекта. Датасет Persona Chat Rus содержит профили с описанием личности человека
и диалоги между участниками исследования.

ZIP archive, 8.19 MB
Профили: profile.tsv
Диалоги: dialogues.tsv

The Russian Adverse Drug Reaction Corpus
of Tweets (RuADReCT)

ZIP archive, 95.6 KB
Обучающие данные: task2_ru_train.tsv
Валидационные данные: task2_ru_validation.tsv
Тестовые данные: task2_ru_test.tsv
Скрипт для загрузки твитов: download_tweets.py
Описание и инструкция: Readme.md

Создан для дорожек соревнования Social Media Mining for Health Applications (#SMM4H '20). Этот датасет включает 9515 твитов, описывающих проблемы пользователей со здоровьем. Каждый твит был оценён в зависимости от того, содержит ли он сообщение о неблагоприятном побочном эффекте, возникшем после приёма лекарственного препарата. Датасет подготовлен совместно с UPenn HLP Center и НИЛ «Хемоинформатика и молекулярное моделирование» (КФУ).

Lexical Relations from the Wisdom
of the Crowd (LRWC)

ZIP archive, 2.01 MB
Входные данные: lrwc-1.1-assignments.tsv
Обучающие задания: toloka-isa-50-skip-300-train-hit.tsv
Агрегированные результаты: lrwc-1.1-aggregated.tsv

Этот датасет был составлен Дмитрием Усталовым в 2017 году для метода Watlink. Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима) на 10 600 парах слов. За основу датасета взяты существительные из Национального корпуса русского языка и отношения из лексических онтологий RuThes и RuWordNet.

Human-Annotated Sense-Disambiguated Word Contexts for Russian

ZIP archive, 2.23 MB
Обучающие задания: tasks-train.tsv
Основные задания: tasks-test.tsv
Общие результаты: assignments_01-12-2017.tsv.xz
Агрегированные результаты: aggregated_results_pool_1036853 __ 2017_12_01.tsv
Согласованность ответов: agreement.txt
Отчет о проверке результатов: report-curated.tsv.xz и tasks-eval.tsv.xz
Дополнение: tasks-eval.tsv.xz
Общий агрегированный датасет: bts-rnc-crowd.tsv

Этот набор данных был сформирован Дмитрием Усталовым в 2017 году. Содержит аннотированные людьми смысловые идентификаторы для 2562 контекстов употребления 20 слов, которые были использованы в дорожке RUSSE’2018 на соревновании Word Sense Induction and Disambiguation for Russian. По результатам оценки организаторы дорожки дополнительно проверяли
и отбирали все контексты.

Toloka Aggregation Features

ZIP archive, 0.45 MB
Эталонные оценки : golden_labels.tsv
Действительнозначные показатели: features.tsv
Оценки исполнителей : crowd_labels.tsv

Датасет содержит около 60 000 краудсорсинговых оценок, собранных в Толоке для 1000 заданий, включая правильные ответы почти для всех заданий. Нужно было классифицировать сайты по пяти категориям в зависимости от того, есть ли на них контент для взрослых. Дополнительно к каждому заданию прилагаются
52 действительнозначных показателя, которые можно использовать
для предсказания категории.

Toloka Aggregation Relevance 2

ZIP archive, 3.08 MB
Оценки исполнителей: crowd_labels.tsv
Эталонные оценки: golden_labels.tsv

Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок, собранных Яндексом в 2016 году на проекте «Релевантность (две градации)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили бинарную оценку: релевантно или нерелевантно.
В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

Toloka Aggregation Relevance 5

ZIP archive, 7.17 MB
Оценки исполнителей: crowd_labels.tsv
Эталонные оценки: golden_labels.tsv
Блокировки исполнителей: bans.tsv

Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти миллион анонимизированных оценок, собранных в 2016 году в Яндексе на проекте «Релевантность (пять градаций)».
В рамках этого проекта для каждой пары запрос — документ пользователи проводили оценку по шкале от 1 до 5: от наиболее релевантных до наименее релевантных. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

Пользователи
и задания в Толоке

ZIP archive, 1.07 GB
Выполненные задания: assignments.tsv
Информация о проектах: projects.tsv
Анонимизированная информация о пользователях: users.tsv
Посещения страницы со списком заданий и выбор заданий: visits.tsv

Датасет сформирован для статьи, представленной на конференции KDD 2020 под названием «Prediction of Hourly Earnings and Completion Time on a Crowdsourcing Platform (Прогноз почасового заработка и времени выполнения заданий на краудсорсинговой платформе)». Он содержит данные сессий 161 377 пользователей, выполнявших 18 млн заданий в Толоке в течение трёх месяцев (сентябрь — ноябрь 2018 года). Датасет включает временные метки, анонимизированные идентификаторы проектов и пользователей, информацию
о начисленных бонусах, число поставленных микрозаданий, инструкции к заданиям, описание схемы данных, полученные ответы на задания, а также описательные свойства заданий.

Соберите свой датасет

Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.
У вас уже есть датасет, которым вы хотите поделиться? Тогда напишите нам.
Файлы cookies
Для персонализации сервисов Яндекс использует файлы cookies. Продолжая использование сайта, вы соглашаетесь с этим. Подробности о файлах cookies и об обработке ваших данных в Политике конфиденциальности.
Mon Mar 01 2021 13:11:18 GMT+0300 (Moscow Standard Time)