Fractal

Открытые датасеты

Толока — крупнейший источник размеченных людьми данных для машинного обучения.
Каждый день тысячи пользователей выполняют сотни заданий и производят миллионы оценок.
Толока предоставляет большие объёмы качественных данных для проведения академических исследований и разработки инноваций в разных областях.

Внимание! Общедоступные датасеты предназначены только для некоммерческого использования со ссылкой на Толоку как источник данных.
Если вы планируете использовать датасеты в коммерческих целях, свяжитесь с нами для согласования.

    • Toloka Business ID Recognition

      Этот набор данных был создан по заказу Яндекс.Справочника и содержит 10 000 фотографий табличек с информацией о российских организациях, в том числе ИНН и ОГРН. Толока использовалась как для съёмки фотографий, так и для распознавания ИНН и ОГРН.

    Скачать

    ZIP archive, 19.5 GB
    Файл с данными: data.tsv
    Фотографии: photos/

    • Toloka WaterMeters

      Этот набор данных был сформирован Романом Куцевым (TrainingData.ru). Содержит 1244 изображения счётчиков горячей и холодной воды, а также показания счётчиков и координаты дисплеев, отображающих эти показания. На каждом изображении ровно один счётчик. В архив также входят фотографии результатов сегментации с масками и коллажами. Толока использовалась для съёмки фотографий, их сегментации и распознавания показаний.

    Скачать

    ZIP archive, 981 MB
    Фотографии: images/
    Маски: masks/
    Коллажи: collage/

    • RuBQ 2.0: An Innovated Russian Question Answering Dataset

      RuBQ 2.0 — вторая версия RuBQ. Он содержит 2,910 вопросов, снабженных ответами и SPARQL-запросами. Датасет подходит для оценки вопросно-ответного поиска по базам знаний (KBQA), оценки решений задач MRC и Open-Domain Question Answering, а также может быть использован для экспериментов в исследованиях гибридного вопросно-ответного поиска, способного сочетать сильные стороны вопросно-ответного поиска по текстам и по базам знаний для получения наилучшего результата.

    Перейти

    Для разработчиков: RuBQ_2.0_dev.json
    Тестовый массив: RuBQ_2.0_test.json
    Параграфы: RuBQ_2.0_paragraphs.json

    • RuBQ 1.0: A Russian Dataset for Question Answering over Wikidata

      RuBQ 1.0 (Russian Knowledge Base Questions, произносится [´rubik]) — первый русскоязычный датасет для вопросно-ответного поиска по базам знаний (Knowledge Base Question Answering, KBQA) и семантического анализа. Он состоит из 1,500 вопросов различной сложности, снабженных соответствующими SPARQL-запросами, ответами и машинным переводом текста вопроса на английский язык. Вместе с датасетом также предоставлено подмножество базы знаний Wikidata, содержащее все сущности с русскоязычными именами. Датасет рекомендуется использовать как dev и test наборы данных для таких подходов как межязыковой перенос, few-shot learning, или обучение на синтетических данных.

    Перейти

    Для разработчиков: RuBQ_1.0_dev.json
    Тестовый массив: RuBQ_1.0_test.json

    • Toloka Persona Chat Rus

      Этот датасет включает 10 000 диалогов, предназначенных для исследования работы чат-ботов. Он составлен в лаборатории нейронных систем и глубокого обучения МФТИ для исследования разговорного искусственного интеллекта. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования.

    Скачать

    ZIP archive, 8.19 MB
    Профили: profile.tsv
    Диалоги: dialogues.tsv

    • The Russian Adverse Drug Reaction Corpus of Tweets (RuADReCT)

      Создан для дорожек соревнования Social Media Mining for Health Applications (#SMM4H '20) этот датасет включает 9515 твитов, описывающих проблемы пользователей со здоровьем. Каждый твит был оценён в зависимости от того, содержит ли он сообщение о неблагоприятном побочном эффекте, возникшем после приёма лекарственного препарата. Датасет подготовлен совместно с UPenn HLP Center и НИЛ «Хемоинформатика и молекулярное моделирование» (КФУ).

    Скачать

    ZIP archive, 95.6 KB
    Обучающие задания: task2_ru_train.tsv
    Данные о валидации: task2_ru_validation.tsv
    Данные тестирования: task2_ru_test.tsv
    Скрипт для скачивания твитов: download_tweets.py
    Описание и инструкции по запуску скрипта: Readme.md

    • Lexical Relations from the Wisdom of the Crowd (LRWC)

      Этот датасет был составлен Дмитрием Усталовым в 2017 году для метода Watlink. Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима) на 10 600 парах слов. За основу датасета взяты существительные из Национального корпуса русского языка и отношения из лексических онтологий RuThes и RuWordNet.

    Скачать

    ZIP archive, 2.01 MB
    Входные данные: lrwc-1.1-assignments.tsv
    Обучающие задания: toloka-isa-50-skip-300-train-hit.tsv
    Агрегированные результаты: lrwc-1.1-aggregated.tsv

    • Toloka Aggregation Features

      Датасет содержит около 60 000 краудсорсинговых оценок, собранных в Толоке для 1000 заданий, включая правильные ответы почти для всех заданий. Нужно было классифицировать сайты по пяти категориям в зависимости от того, есть ли на них контент для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.

    Скачать

    ZIP archive, 0.45 MB
    Эталонные оценки: golden_labels.tsv
    Действительнозначные показатели: features.tsv
    Оценки исполнителей: crowd_labels.tsv

    • Human-Annotated Sense-Disambiguated Word Contexts for Russian

      Этот набор данных был сформирован Дмитрием Усталовым в 2017 году. Содержит аннотированные людьми смысловые идентификаторы для 2562 контекстов употребления 20 слов, которые были использованы в дорожке RUSSE’2018 shared task on Word Sense Induction and Disambiguation for Russian. По результатам оценки организаторы дорожки дополнительно проверяли и отбирали все контексты.

    Скачать

    ZIP archive, 2.23 MB
    Обучающие задания: tasks-train.tsv
    Основные задания: tasks-test.tsv
    Общие результаты: assignments_01-12-2017.tsv.xz
    Агрегированные результаты: aggregated_results_pool_1036853 __ 2017_12_01.tsv
    Согласованность ответов: agreement.txt
    Отчет о проверке результатов: report-curated.tsv.xz и tasks-eval.tsv.xz
    Дополнение: tasks-eval.tsv.xz
    Общий агрегированный датасет: bts-rnc-crowd.tsv

  • Download

    ZIP archive, 2.6 MB
    crowdspeech-dev-clean:
    Оценки исполнителей: crowd_labels.csv
    Эталонные оценки: gt.csv
    crowdspeech-dev-other:
    Оценки исполнителей: crowd_labels.csv
    Эталонные оценки: gt.csv
    crowdspeech-test-clean:
    Оценки исполнителей: crowd_labels.csv
    Эталонные оценки: gt.csv
    crowdspeech-test-other:
    Оценки исполнителей: crowd_labels.csv
    Эталонные оценки: gt.csv

    • Toloka Aggregation Relevance 2

      Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок, собранных Яндексом в 2016 году на проекте «Релевантность (две градации)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили бинарную оценку: релевантно или нерелевантно. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

    Скачать

    ZIP archive, 3.08 MB
    Оценки исполнителей: crowd_labels.tsv
    Эталонные оценки: golden_labels.tsv

    • Toloka Aggregation Relevance 5

      Этот датасет предназначен для оценки методов агрегации ответов в краудсорсинге. В нём содержится почти миллион анонимизированных оценок, собранных в 2016 году в Яндексе на проекте «Релевантность (пять градаций)». В рамках этого проекта для каждой пары запрос — документ пользователи проводили оценку по шкале от 1 до 5: от наиболее релевантных до наименее релевантных. В датасет также входят контрольные варианты оценок, предназначенные для сравнения методов агрегации.

    Скачать

    ZIP archive, 7.17 MB
    Оценки исполнителей: crowd_labels.tsv
    Эталонные оценки: golden_labels.tsv
    Блокировки исполнителей: bans.tsv

    • Пользователи и задания в Толоке

      Датасет сформирован для статьи, представленной на конференции KDD 2020 под названием "Prediction of Hourly Earnings and Completion Time on a Crowdsourcing Platform". Он содержит данные сессий 161 377 пользователей, выполнявших 18 млн заданий в Толоке в течение трёх месяцев (сентябрь — ноябрь 2018 года). Датасет включает временные метки, анонимизированные идентификаторы проектов и пользователей, информацию о начисленных бонусах, число поставленных микрозаданий, инструкции к заданиям, описание схемы данных, полученные ответы на задания, а также описательные свойства заданий.

    Скачать

    ZIP archive, 1.07 GB
    Выполненные задания: assignments.tsv
    Информация о проектах: projects.tsv
    Анонимизированная информация о пользователях: users.tsv
    Посещения страницы со списком заданий и выбор заданий: visits.tsv

    • IMDB-WIKI-SbS

      Этот набор данных содержит 9 150 фотографий из популярного набора данных IMDB-WIKI, сбалансированных по возрасту и полу изображённых на них людей, для которых в Толоке собрано 250 249 попарных сравнений. Набор данных описан в статье на воркшопе Data-Centric AI в рамках NeurIPS '20 — IMDB-WIKI-SbS: An Evaluation Dataset for Crowdsourced Pairwise Comparisons.

    Скачать

    ZIP archive, 9 MB
    Оценки исполнителей: crowd_labels.csv
    Эталонные оценки: gt.csv

У вас уже есть датасет, которым вы хотите поделиться? Тогда напишите нам.

Соберите
свой датасет

Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.

Начать
Fractal