Открытые датасеты

Яндекс.Толока — крупнейший источник размеченных людьми данных для машинного обучения. Каждый день тысячи пользователей выполняют сотни заданий и производят миллионы оценок. Яндекс.Толока предоставляет большие объёмы качественных данных для проведения академических исследований и разработки инноваций в разных областях.
Внимание! Общедоступные датасеты предназначены только для некоммерческого использования со ссылкой на Толоку как источник данных. Если вы планируете использовать датасеты в коммерческих целях, свяжитесь с нами для согласования.

Toloka Business ID Recognition

ZIP archive, 19.5 GB
Файл с данными: data.tsv
Фотографии: photos/


Этот набор данных был создан по заказу Яндекс.Справочника и содержит 10 000 фотографий табличек с информацией о российских организациях, в том числе ИНН и ОГРН. Толока использовалась как для съёмки фотографий, так и для распознавания ИНН и ОГРН.

TolokaWaterMeters

Этот набор данных был сформирован Романом Куцевым (TrainingData.ru). Содержит 1244 изображения счётчиков горячей и холодной воды, а также показания счётчиков и координаты дисплеев, отображающих эти показания. На каждом изображении ровно один счётчик. В архив также входят фотографии результатов сегментации с масками и коллажами. Толока использовалась для съёмки фотографий, их сегментации и распознавания показаний.

ZIP archive, 981 MB
Фотографии: images/
Маски: masks/
Коллажи: collage/




RuBQ 2.0: An Innovated Russian Question Answering Dataset

Для разработчиков: RuBQ_2.0_dev.json
Тестовый массив: RuBQ_2.0_test.json
Параграфы: RuBQ_2.0_paragraphs.json

RuBQ 2.0 — вторая версия RuBQ. Он содержит 2,910 вопросов, снабженных ответами и SPARQL-запросами. Датасет подходит для оценки вопросно-ответного поиска по базам знаний (KBQA), оценки решений задач MRC и Open-Domain Question Answering, а также может быть использован для экспериментов в исследованиях гибридного вопросно-ответного поиска, способного сочетать сильные стороны вопросно-ответного поиска по текстам и по базам знаний для получения наилучшего результата.

RuBQ 1.0: A Russian Dataset for Question
Answering over Wikidata

Development set: RuBQ_1.0_dev.json
Test set: RuBQ_1.0_test.json

RuBQ 1.0 (Russian Knowledge Base Questions, произносится [´rubik]) — первый русскоязычный датасет для вопросно-ответного поиска по базам знаний (Knowledge Base Question Answering, KBQA) и семантического анализа. Он состоит из 1,500 вопросов различной сложности, снабженных соответствующими SPARQL-запросами, ответами и машинным переводом текста вопроса на английский язык. Вместе с датасетом также предоставлено подмножество базы знаний Wikidata, содержащее все сущности с русскоязычными именами. Датасет рекомендуется использовать как dev и test наборы данных для таких подходов как межязыковой перенос, few-shot learning, или обучение на синтетических данных.

Toloka Persona Chat Rus

Этот датасет включает 10 000 диалогов, предназначенных для исследования работы чат-ботов. Он составлен в лаборатории нейронных систем и глубокого обучения МФТИ для исследования разговорного искусственного интеллекта. Датасет Persona Chat Rus содержит профили с описанием личности человека
и диалоги между участниками исследования.

ZIP archive, 8.19 MB
Профили: profile.tsv
Диалоги: dialogues.tsv

The Russian Adverse Drug Reaction Corpus
of Tweets (RuADReCT)

ZIP archive, 95.6 KB
Training data: task2_ru_train.tsv
Validation data: task2_ru_validation.tsv
Testing data: task2_ru_test.tsv
Script for downloading tweets: download_tweets.py
Description and script instructions: Readme.md

Создан для дорожек соревнования Social Media Mining for Health Applications (#SMM4H '20) Этот датасет включает 9515 твитов, описывающих проблемы пользователей со здоровьем. Каждый твит был оценён в зависимости от того, содержит ли он сообщение о неблагоприятном побочном эффекте, возникшем после приёма лекарственного препарата. Датасет подготовлен совместно с UPenn HLP Center и НИЛ «Хемоинформатика и молекулярное моделирование» (КФУ).

Lexical Relations from the Wisdom
of the Crowd (LRWC)

ZIP archive, 2.01 MB
Входные данные: lrwc-1.1-assignments.tsv
Обучающие задания: toloka-isa-50-skip-300-train-hit.tsv
Агрегированные результаты: lrwc-1.1-aggregated.tsv

Этот датасет был составлен Дмитрием Усталовым в 2017 году для метода Watlink. Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима) на 10 600 парах слов. За основу датасета взяты существительные из Национального корпуса русского языка и отношения из лексических онтологий RuThes и RuWordNet.

Toloka Aggregation Features

ZIP archive, 0.45 MB
Эталонные оценки: golden_labels.tsv
Действительнозначные показатели: features.tsv
Оценки исполнителей: crowd_labels.tsv

Датасет содержит около 60 000 краудсорсинговых оценок, собранных в Толоке для 1000 заданий, включая правильные ответы почти для всех заданий. Нужно было классифицировать сайты по пяти категориям в зависимости от того, есть ли на них контент для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.


Human-Annotated Sense-Disambiguated Word Contexts for Russian

ZIP archive, 2.23 MB
Обучающие задания: tasks-train.tsv
Основные задания: tasks-test.tsv
Общие результаты: assignments_01-12-2017.tsv.xz
Агрегированные результаты: aggregated_results_pool_1036853 __ 2017_12_01.tsv
Согласованность ответов: agreement.txt
Отчет о проверке результатов: report-curated.tsv.xz и tasks-eval.tsv.xz
Дополнение: tasks-eval.tsv.xz
Общий агрегированный датасет: bts-rnc-crowd.tsv

Этот набор данных был сформирован Дмитрием Усталовым в 2017 году. Содержит аннотированные людьми смысловые идентификаторы для 2562 контекстов употребления 20 слов, которые были использованы в дорожке RUSSE’2018 shared task on Word Sense Induction and Disambiguation for Russian.
По результатам оценки организаторы дорожки дополнительно проверяли
и отбирали все контексты.

CrowdSpeech

ZIP archive, 2.6 MB
crowdspeech-dev-clean:
Оценки исполнителей: crowd_labels.csv
Эталонные оценки: gt.csv
crowdspeech-dev-other:
Оценки исполнителей: crowd_labels.csv
Эталонные оценки: gt.csv
crowdspeech-test-clean:
Оценки исполнителей: crowd_labels.csv
Эталонные оценки: gt.csv
crowdspeech-test-other:
Оценки исполнителей: crowd_labels.csv
Эталонные оценки: gt.csv

Этот набор данных содержит транскрипции аудиозаписей из набора данных LibriSpeech, полученные в Толоке способом, описанным в статье для трека Datasets and Benchmarks на Neurips ' 21, CrowdSpeech and VoxDIY: Benchmark Datasets for Crowdsourced Audio Transcription.





Toloka Aggregation Relevance 2

ZIP archive, 3.08 MB
Оценки исполнителей: crowd_labels.tsv
Эталонные оценки: golden_labels.tsv

Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок, собранных Яндексом в 2016 году на проекте «Релевантность (две градации)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили бинарную оценку: релевантно или нерелевантно. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

Toloka Aggregation Relevance 5

ZIP archive, 7.17 MB
Оценки исполнителей: crowd_labels.tsv
Эталонные оценки: golden_labels.tsv
Блокировки исполнителей: bans.tsv

Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти миллион анонимизированных оценок, собранных в 2016 году в Яндексе на проекте «Релевантность (пять градаций)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили оценку по шкале от 1 до 5: от наиболее релевантных до наименее релевантных. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

Пользователи и задания в Толоке

ZIP archive, 1.07 GB
Выполненные задания: assignments.tsv
Информация о проектах: projects.tsv
Анонимизированная информация о пользователях: users.tsv
Посещения страницы со списком заданий и выбор заданий: visits.tsv

Датасет сформирован для статьи, представленной на конференции KDD 2020 под названием "Prediction of Hourly Earnings and Completion Time on a Crowdsourcing Platform". Он содержит данные сессий 161 377 пользователей, выполнявших 18 млн заданий в Толоке в течение трёх месяцев (сентябрь — ноябрь 2018 года). Датасет включает временные метки, анонимизированные идентификаторы проектов и пользователей, информацию о начисленных бонусах, число поставленных микрозаданий, инструкции к заданиям, описание схемы данных, полученные ответы на задания, а также описательные свойства заданий.

IMDB-WIKI-SbS

ZIP archive, 9 MB
Оценки исполнителей: crowd_labels.сsv
Эталонные оценки:
gt.сsv

Этот набор данных содержит 9 150 фотографий из популярного набора данных IMDB-WIKI, сбалансированных по возрасту и полу изображённых на них людей, для которых в Толоке собрано 250 249 попарных сравнений. Набор данных описан в статье на воркшопе Data-Centric AI в рамках NeurIPS '20 — IMDB-WIKI-SbS: An Evaluation Dataset for Crowdsourced Pairwise Comparisons.

Соберите свой датасет

Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.
Начать
У вас уже есть датасет, которым вы хотите поделиться? Тогда напишите нам.
Tue Nov 09 2021 14:26:31 GMT+0300 (Moscow Standard Time)