Открытые датасеты

Яндекс.Толока — крупнейший источник размеченных людьми данных для машинного обучения. Каждый день тысячи пользователей выполняют сотни заданий и производят миллионы оценок. Яндекс.Толока предоставляет большие объёмы качественных данных для проведения академических исследований и разработки инноваций в разных областях.
Внимание! Общедоступные датасеты предназначены только для некоммерческого использования со ссылкой на Толоку как источник данных. Если вы планируете использовать датасеты в коммерческих целях, свяжитесь с нами для согласования.

Toloka Business ID Recognition

ZIP archive, 19.5 GB
Файл с данными: data.tsv
Фотографии: photos/


Этот набор данных был создан по заказу Яндекс.Справочника и содержит 10 000 фотографий табличек с информацией о российских организациях, в том числе ИНН и ОГРН. Толока использовалась как для съёмки фотографий, так и для распознавания ИНН и ОГРН.

TolokaWaterMeters

Этот набор данных был сформирован Романом Куцевым (TrainingData.ru). Содержит 1244 изображения счётчиков горячей и холодной воды, а также показания счётчиков и координаты дисплеев, отображающих эти показания. На каждом изображении ровно один счётчик. В архив также входят фотографии результатов сегментации с масками и коллажами. Толока использовалась для съёмки фотографий, их сегментации и распознавания показаний.

ZIP archive, 981 MB
Фотографии: images/
Маски: masks/
Коллажи: collage/




RuBQ 2.0: An Innovated Russian Question Answering Dataset

Для разработчиков: RuBQ_2.0_dev.json
Тестовый массив: RuBQ_2.0_test.json
Параграфы: RuBQ_2.0_paragraphs.json

RuBQ 2.0 — вторая версия RuBQ. Он содержит 2,910 вопросов, снабженных ответами и SPARQL-запросами. Датасет подходит для оценки вопросно-ответного поиска по базам знаний (KBQA), оценки решений задач MRC и Open-Domain Question Answering, а также может быть использован для экспериментов в исследованиях гибридного вопросно-ответного поиска, способного сочетать сильные стороны вопросно-ответного поиска по текстам и по базам знаний для получения наилучшего результата.

RuBQ: A Russian Dataset for Question
Answering over Wikidata

Для разработчиков: RuBQ_dev.json
Тестовый массив: RuBQ_test.json

RuBQ (Russian Knowledge Base Questions, произносится [´rubik]) — первый русскоязычный датасет для ответа на вопросы баз знаний (Knowledge Base Question Answering, KBQA). Он состоит из 1500 вопросов различной сложности
с английским машинным переводом, соответствующими запросами SPARQL, ответами на вопросы, а также подмножеством викиданных, охватывающих сущности с русскоязычной разметкой.

Toloka Persona Chat Rus

Этот датасет включает 10 000 диалогов, предназначенных для исследования работы чат-ботов. Он составлен в лаборатории нейронных систем и глубокого обучения МФТИ для исследования разговорного искусственного интеллекта. Датасет Persona Chat Rus содержит профили с описанием личности человека
и диалоги между участниками исследования.

ZIP archive, 8.19 MB
Профили: profile.tsv
Диалоги: dialogues.tsv

The Russian Adverse Drug Reaction Corpus
of Tweets (RuADReCT)

ZIP archive, 95.6 KB
Training data: task2_ru_train.tsv
Validation data: task2_ru_validation.tsv
Testing data: task2_ru_test.tsv
Script for downloading tweets: download_tweets.py
Description and script instructions: Readme.md

Создан для дорожек соревнования Social Media Mining for Health Applications (#SMM4H '20) Этот датасет включает 9515 твитов, описывающих проблемы пользователей со здоровьем. Каждый твит был оценён в зависимости от того, содержит ли он сообщение о неблагоприятном побочном эффекте, возникшем после приёма лекарственного препарата. Датасет подготовлен совместно с UPenn HLP Center и НИЛ «Хемоинформатика и молекулярное моделирование» (КФУ).

Lexical Relations from the Wisdom
of the Crowd (LRWC)

ZIP archive, 2.01 MB
Входные данные: lrwc-1.1-assignments.tsv
Обучающие задания: toloka-isa-50-skip-300-train-hit.tsv
Агрегированные результаты: lrwc-1.1-aggregated.tsv

Этот датасет был составлен Дмитрием Усталовым в 2017 году для метода Watlink. Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима) на 10 600 парах слов. За основу датасета взяты существительные из Национального корпуса русского языка и отношения из лексических онтологий RuThes и RuWordNet.

Toloka Aggregation Features

ZIP archive, 0.45 MB
Эталонные оценки: golden_labels.tsv
Действительнозначные показатели: features.tsv
Оценки исполнителей: crowd_labels.tsv

Датасет содержит около 60 000 краудсорсинговых оценок, собранных в Толоке для 1000 заданий, включая правильные ответы почти для всех заданий. Нужно было классифицировать сайты по пяти категориям в зависимости от того, есть ли на них контент для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.


Human-Annotated Sense-Disambiguated Word Contexts for Russian

ZIP archive, 2.23 MB
Обучающие задания: tasks-train.tsv
Основные задания: tasks-test.tsv
Общие результаты: assignments_01-12-2017.tsv.xz
Агрегированные результаты: aggregated_results_pool_1036853 __ 2017_12_01.tsv
Согласованность ответов: agreement.txt
Отчет о проверке результатов: report-curated.tsv.xz и tasks-eval.tsv.xz
Дополнение: tasks-eval.tsv.xz
Общий агрегированный датасет: bts-rnc-crowd.tsv

Этот набор данных был сформирован Дмитрием Усталовым в 2017 году. Содержит аннотированные людьми смысловые идентификаторы для 2562 контекстов употребления 20 слов, которые были использованы в дорожке RUSSE’2018 shared task on Word Sense Induction and Disambiguation for Russian.
По результатам оценки организаторы дорожки дополнительно проверяли
и отбирали все контексты.

Toloka Aggregation Relevance 2

ZIP archive, 3.08 MB
Оценки исполнителей: crowd_labels.tsv
Эталонные оценки: golden_labels.tsv

Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок, собранных Яндексом в 2016 году на проекте «Релевантность (две градации)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили бинарную оценку: релевантно или нерелевантно. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

Toloka Aggregation Relevance 5

ZIP archive, 7.17 MB
Оценки исполнителей: crowd_labels.tsv
Эталонные оценки: golden_labels.tsv
Блокировки исполнителей: bans.tsv

Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти миллион анонимизированных оценок, собранных в 2016 году в Яндексе на проекте «Релевантность (пять градаций)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили оценку по шкале от 1 до 5: от наиболее релевантных до наименее релевантных. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

Пользователи и задания в Толоке

ZIP archive, 1.07 GB
Выполненные задания: assignments.tsv
Информация о проектах: projects.tsv
Анонимизированная информация о пользователях: users.tsv
Посещения страницы со списком заданий и выбор заданий: visits.tsv

Датасет сформирован для статьи, представленной на конференции KDD 2020 под названием "Prediction of Hourly Earnings and Completion Time on a Crowdsourcing Platform". Он содержит данные сессий 161 377 пользователей, выполнявших 18 млн заданий в Толоке в течение трёх месяцев (сентябрь — ноябрь 2018 года). Датасет включает временные метки, анонимизированные идентификаторы проектов и пользователей, информацию
о начисленных бонусах, число поставленных микрозаданий, инструкции к заданиям, описание схемы данных, полученные ответы на задания, а также описательные свойства заданий.

Соберите свой датасет

Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.
Начать
У вас уже есть датасет, которым вы хотите поделиться? Тогда напишите нам.
Tue Sep 07 2021 11:34:50 GMT+0300 (Moscow Standard Time)