Fractal

Разметка данных
для NLP-задач

Собирайте качественные датасеты любого объёма. Улучшайте алгоритмы моделей обработки естественного языка.
Контролируйте процесс, сроки и качество разметки данных 24/7.

  • Скорость разметки

    С помощью миллионов исполнителей по всему миру собирайте и размечайте любые объёмы данных с нужной вам скоростью в режиме 24/7.

  • Высокое качество

    Используйте встроенные методы и широкий набор инструментов контроля качества, чтобы получить более точный результат при любых объёмах разметки.

  • Масштабируемые проекты

    Благодаря открытому API создавайте полностью автоматизированные процессы разметки данных.

  • Эффективность затрат

    Экономьте время и деньги, устанавливая удобные для вас сроки и стоимость выполнения заданий.

Типы разметки

В Толоке вы можете организовать сбор и точную разметку обучающих данных высокого качества для улучшения алгоритмов NLP-моделей. Платформа позволяет ставить задачи по распознаванию именованных сущностей (NER), технологии синтеза речи (TTS), оптическому распознаванию символов (OCR) и многие другие.

Краудсорсинг — ресурсы без ограничений

Для сбора и разметки данных необходимы ресурсы — время, силы и знания многих людей. Толока даёт доступ к неограниченному количеству исполнителей по всему миру. А умные инструменты и методики контроля качества делают процесс прозрачным и легко масштабируемым.

Image
Image

Статистика в реальном времени

Настройки платформы позволяют получать актуальную информацию о прогрессе. Используйте детальную аналитику, чтобы оптимизировать скорость, качество и бюджет ваших проектов.

Отзывы о Толоке

Алексей Хахунов, технический директор и основатель Dbrain:

«Толока помогла нам решить задачу распознавания текста в документах, с которыми не справились алгоритмы. Мы отдаем анонимные фрагменты текста в Толоку, квалифицированные исполнители переписывают его и отправляют результат обратно в систему Dbrain для дальнейшего обучения ИИ. Благодаря этому нам удалось закрыть даже самые сложные случаи распознавания у клиентов».

Константин Симончик, директор по науке и сооснователь компании ID R&D:

«С помощью Толоки мы собрали крупнейшую в мире базу из 200 000 уникальных фото- и видеоданных, чтобы защитить биометрические системы от хакеров и научить нейросети отличать живые лица от подделок. В Толоке нас привлек удобный интерфейс, активные исполнители и оптимальное соотношение цены и качества».

Дмитрий Акимов, инженер по данным VisionLabs:

«Толока — это отличный инструмент для обработки данных. С его помощью мы каждый месяц размечаем и собираем тысячи изображений и видео, которые позволяют улучшать работу наших алгоритмов. Мы выбрали Толоку из-за высокой скорости работы исполнителей и их активного участия».

Михаил Бурцев, заведующий лабораторией нейронных сетей и глубокого обучения МФТИ, DeepPavlov.ai:

«Современные технологии машинного обучения невозможны без большого объема обучающих примеров. Чтобы компьютер овладел естественным языком, человек должен „объяснить“, как правильно им пользоваться. Толока позволяет системам разговорного искусственного интеллекта, которые мы разрабатываем на Физтехе, общаться с большим количеством людей и становиться умнее».

Ангелина Галькевич, аналитик компании Тинькофф:

«Мы используем Толоку, чтобы разметить данные для синтеза и распознавания речи. Через толокеров прошли уже десятки тысяч заданий с аудиофайлами, и результаты мы успешно использовали для обучения наших моделей. Нам нравится стоимость заданий, скорость выполнения и очень быстрая обратная связь. Всё это позволяет оперативно тестировать разные способы разметки и выдвигать гипотезы, а затем выбирать оптимальный подход».

Антон Слесарев, руководитель отдела технологий, направление беспилотных автомобилей в Яндексе:

«Толока — первое звено при подготовке данных для ИИ. Чтобы обучить нейронную сеть, нужны десятки тысяч размеченных картинок. Их можно купить по цене от $4, а можно выполнить разметку в Толоке в 10 раз дешевле и получить готовые датасеты для обучения алгоритмов. Эти датасеты мы используем при разработке технологии беспилотных автомобилей».

Команда Яндекс.Карт:

«Наша служба следит за актуальностью данных на Яндекс.Картах: мы обновляем часы работы организаций, добавляем новые, удаляем закрытые. Наши задания толокеры выполняют на улицах города — например, фотографируют таблички с графиком работы. Каждый месяц мы даём 15 миллионов подобных заданий 50 тысячам исполнителей — и только благодаря этому можем поддерживать огромную базу Яндекс.Карт в актуальном состоянии».

Используйте Толоку

Получайте размеченные данные для задач обработки естественного языка.

Начать
Fractal