Fractal

Открытые датасеты

Толока — крупнейший источник размеченных людьми данных для машинного обучения. 
Каждый день тысячи пользователей выполняют сотни заданий и производят миллионы оценок. 
Толока предоставляет большие объёмы качественных данных для проведения академических исследований и разработки инноваций в разных областях.

Внимание! Общедоступные датасеты предназначены только для некоммерческого использования со ссылкой на Толоку как источник данных.
Если вы планируете использовать датасеты в коммерческих целях, свяжитесь с нами для согласования.

    • Toloka Business ID Recognition
      Этот набор данных был создан по заказу Яндекс.Справочника и содержит 10 000 фотографий табличек с информацией о российских организациях, в том числе ИНН и ОГРН. Толока использовалась как для съёмки фотографий, так и для распознавания ИНН и ОГРН.
    Скачать

    ZIP archive, 19.5 GB
    Файл с данными: data.tsv
    Фотографии: photos/

    • Toloka WaterMeters
      Этот набор данных был сформирован Романом Куцевым (TrainingData.ru). Содержит 1244 изображения счётчиков горячей и холодной воды, а также показания счётчиков и координаты дисплеев, отображающих эти показания. На каждом изображении ровно один счётчик. В архив также входят фотографии результатов сегментации с масками и коллажами. Толока использовалась для съёмки фотографий, их сегментации и распознавания показаний.
    Скачать

    ZIP archive, 981 MB
    Фотографии: images/
    Маски: masks/
    Коллажи: collage/

У вас уже есть датасет, которым вы хотите поделиться? Тогда напишите нам.

Соберите 
свой датасет

Воспользуйтесь преимуществами технологий и ресурсов Яндекса, включая миллионы исполнителей, доступных для ваших проектов 24/7.
Fractal