Транскрипция аудио

  1. Создайте проект
  2. Добавьте пул заданий
  3. Загрузите задания
  4. Настройте контроль качества
  5. Запустите пул и получите результаты
  6. Поручите проверку исполнителям
Совет.

Сначала запустите проект в Песочнице. Так вы сможете избежать ошибок и потраченных средств, если окажется, что ваше задание не работает.

Вы можете публиковать задания для расшифровки небольших аудиозаписей. Желательно, чтобы в одном пуле записи были одинаковой длины.

Возможно, для вашего задания нужны дополнительные проекты, например предварительная проверка датасета или проверка ответов исполнителей. Подробнее об этом читайте в разделе Декомпозиция задания.

Предположим, вам нужно расшифровать аудиозапись. Для этого создадим такое задание: исполнителю будет предложена аудиозапись во встроенном плеере, и он должен набрать текст, который услышит на записи.

Пример готового задания

Чтобы запустить задания и получить ответы:

Создайте проект

Проект определяет, как будет выглядеть задание у исполнителя.

  1. Нажмите Создать проект и выберите шаблон Расшифровка аудиозаписей.

  2. Заполните общую информацию:

    1. Дайте проекту понятное название и краткое описание. Их увидят исполнители в списке доступных заданий.

    2. По желанию добавьте Приватный комментарий.

    3. Нажмите Сохранить.

  3. Отредактируйте интерфейс задания в выбранном редакторе:

    Конструктор шаблонов
    Редактор HTML/CSS/JS
    1. Интерфейс задания описывает, как будут расположены элементы задания.

      В шаблоне уже настроена проверка, прослушано ли аудио целиком. Исполнитель не сможет отправить задание, не прослушав аудиозапись. Подробнее о настройке условий в конструкторе шаблонов.

      Чтобы посмотреть, как еще можно настроить этот шаблон, перейдите на страницу Транскрипция аудио в Справке конструктора шаблонов.

    2. Нажмите Показать спецификации, чтобы увидеть поля входных и выходных данных.

      Поля входных данных создаются из кода на вкладке Пример входных данных.

      Поля выходных данных создаются на основе того, в каких компонентах используется data.output, а также какие значения в нем разрешены.

      Подробнее о полях входных и выходных данных в конструкторе шаблонов.

      • Измените тип данных на строку, чтобы использовать ссылки на свои файлы или загружать аудиофайлы, хранящиеся на Яндекс.Диске.

      • Поля выходных данных:
        • строка has_speech, в которую будет записано значение поля Есть ли речь на аудиозаписи?;
        • строка transcription, в которую будет записан введенный исполнителем текст.

      Что такое входные и выходные данные?

      Входные данные — типы объектов, которые будут подаваться исполнителю для выполнения задания. Например, текст, картинка, географические координаты.

      Выходные данные — типы объектов, которые будут получены после выполнения задания. Например, один из нескольких вариантов ответа, введенный текст или загруженный файл.

      Если вы добавили в шаблон задания элементы интерфейса, поля в Спецификации данных создадутся для них автоматически.

    3. Сохраните изменения.

    1. Интерфейс задания описывает, как будут расположены элементы задания.

      В HTML-интерфейсе используйте стандартные теги HTML и специальные выражения в двойных фигурных скобках для полей входных и выходных данных.

      Блок JavaScript оставьте без изменений. В нем настроена проверка, прослушано ли аудио целиком. Исполнитель не сможет отправить задание, не прослушав аудиозапись.

    2. Шаблон включает в себя поля входных и выходных данных:

      • Поле входных данных — ссылка audio на аудиофайл.

        Измените тип данных на строку, чтобы использовать ссылки на свои файлы или загружать аудиофайлы, хранящиеся на Яндекс.Диске.

      • Поля выходных данных:
        • строка speech, в которую будет записано значение поля Есть ли речь на аудиозаписи?;
        • строка user_text, в которую будет записан введенный исполнителем текст;
        • строка clean_text, в которую будет записан обработанный текст (используется для проверки ответов с помощью контрольных заданий).
      Что такое входные и выходные данные?

      Входные данные — типы объектов, которые будут подаваться исполнителю для выполнения задания. Например, текст, картинка, географические координаты.

      Выходные данные — типы объектов, которые будут получены после выполнения задания. Например, один из нескольких вариантов ответа, введенный текст или загруженный файл.

      Подробнее о полях входных и выходных данных.

      Используйте готовый список полей или настройте его под свои задачи. Если вы добавили в шаблон задания элементы интерфейса, создайте для них поля в блоке Спецификация данных.

    3. Нажмите кнопку , чтобы увидеть получившееся задание.

      Примечание. В предварительном просмотре проекта отображается одно задание со стандартными данными. Количество заданий на странице вы сможете настроить далее.
    4. Сохраните изменения.

    1. Напишите краткую и ясную инструкцию. Опишите в ней, что надо сделать, и приведите примеры.

      Вы можете подготовить инструкцию в формате HTML и вставить ее в редактор. Чтобы переключиться в режим HTML, нажмите <>.

    2. Нажмите Завершить.

Добавьте пул заданий

Пул — это набор оплачиваемых заданий, которые одновременно выдаются исполнителям.

  1. Откройте проект и нажмите Добавить пул.
  2. Дайте пулу любое удобное название — оно доступно только вам, исполнитель увидит название проекта.
  3. Установите цену за страницу заданий, например, $0.05. Цена зависит от длительности аудиозаписи.
    Что такое страница заданий?

    На одной странице может отображаться одно или несколько заданий. Если задания простые, то можно добавлять 10–20 заданий на одну страницу. Не рекомендуем создавать длинные страницы, поскольку это снизит скорость загрузки данных у исполнителя.

    Исполнитель получит оплату, только если выполнил все задания на странице.

    Количество заданий на странице вы определите при загрузке заданий.

    Как определить справедливую цену?

    Общее правило формирования цены — чем больше времени исполнитель тратит на выполнение, тем выше цена.

    Вы можете зарегистрироваться в Яндекс.Толоке как исполнитель и узнать, сколько платят другие заказчики за задания, а также посмотреть примеры стоимости различных типов задач.

  4. Добавьте Фильтры для отбора исполнителей. Чтобы ваше задание было доступно только исполнителям, владеющим русским языком, выберите набор Русскоязычные исполнители.

    Задания на расшифровку удобнее запускать для выполнения в веб-версии Яндекс.Толоки, чтобы исполнитель мог набирать текст на клавиатуре. Нажмите Добавить фильтр, выберите в разделе «Вычислимые данные» фильтр «Категория устройства» и укажите для него значение «Персональный компьютер».

  5. Включите опцию Отложенная приемка и укажите количество дней на проверку для параметра Срок проверки. Например, 7.
    Что такое отложенная приемка?

    Отложенная приемка позволяет вам просматривать выполненные страницы заданий перед тем, как принять их и заплатить исполнителю. Задания, выполненные в несоответствии с инструкцией, можно отклонять. Максимальный срок проверки устанавливается в поле Срок проверки.

  6. Установите Перекрытие — количество исполнителей, которые должны выполнить задание. Для расшифровки речи, как правило, 1.
  7. Укажите Время на выполнение страницы заданий. Его должно быть достаточно, в том числе для чтения инструкции, загрузки задания, прослушивания аудиозаписи и набора текста. Например, 1200 секунд.
  8. Сохраните пул.

Загрузите задания

Подготовьте собственный файл с заданиями. Ознакомьтесь с примером в демонстрационном TSV-файле. В интерфейсе Толоки под названием пула есть ссылки на шаблоны TSV-файлов с обычными, контрольными и обучающими заданиями.

  1. Нажмите кнопку Загрузить. В открывшемся окне также можно скачать пример TSV-файла по ссылке Пример загрузочного файла.
    Что такое TSV?
    TSV-файл — это представление электронной таблицы в виде текстового файла, в котором столбцы разделены знаком табуляции.

    Вы можете работать с ним как в редакторе электронных таблиц, так и в текстовом редакторе, а затем сохранить в нужный формат. Подробнее о работе с TSV-файлом. Существует формат CSV, схожий с TSV, но при загрузке необходимо использовать TSV-файл.

  2. Добавьте в файл входные данные. Заголовок столбца с входными данными содержит слово INPUT. В качестве значений укажите URL-ссылки на свои файлы. Если ссылок нет, рекомендуем выложить файлы на Яндекс.Облако.

    Для работы с файлами на Яндекс.Диске потребуется немного изменить проект и спецификацию. Укажите тип данных строка для поля входных данных audio, в котором вы будете передавать ссылку на файл. В блоке HTML добавьте в аудиоплеер proxy перед названием входного поля audio: src="{{proxy audio}}". Формат ссылок при использовании Яндекс.Диска <уникальное имя>/audio1.mp3, где уникальное имя — название вашего прокси.

  3. Загрузите задания, выбрав Указать вручную и установив, например, 4 задания на странице. Это значит, что на одной странице будет 4 аудиозаписи, под каждой аудиозаписью текстовое поле для расшифровки.
  4. Нажмите кнопку Добавить — ваши задания загружены в пул.

Настройте контроль качества

Блоки контроля качества позволяют отсеивать невнимательных исполнителей. Контроль качества можно настраивать как в проекте, так и в пуле.

Внимание.

Настройки контроля качества в проекте будут действовать во всех пулах проекта, и изменить их настройку в одном из пулов будет невозможно.

    Перейдите к редактированию пула (кнопка Редактировать в верхнем правом углу страницы) и нажмите Добавить блок контроля качества.

    Вы можете скопировать настройки контроля качества из другого пула. Для этого в разделе Исполнители нажмите кнопку Скопировать настройки из....

  1. Добавьте блок Быстрые ответы.

    Значение параметра Минимальное время на страницу зависит от двух характеристик: количества заданий на этой странице и длины записей. В примере мы задаем 4 задания, а длина записей неизвестна. Прикидываем адекватный порог для правила.

    Делаем скидку на технические ошибки, например, не загрузилось и не проигралось несколько записей. Исполнитель быстро отправит ответы к такому заданию и это не будет ошибкой. Давайте добавим два правила.

    • Одно — чтобы отлавливать ботов. Задаем 10-15 секунд на ответ. Блокируем после 2-х быстрых ответов.

      Это означает, что если исполнитель выполнит 2 и более страницы с заданиями быстрее, чем за 10 секунд, он будет заблокирован и не сможет больше выполнять ваши задания 10 дней.

    • Со вторым правилом будем исключать тех, кто несерьезно относится к заданию, невнимательно перепечатывает текст, допускает ошибки или пропускает слова. Параметр Минимальное время на страницу заданий тут зависит от длины записей и от того, сколько их на странице, а также от того, насколько сложно записать текст (плохо слышно, есть термины, особенности записи транскрипции и т.п.). Блокируем, как минимум, после 3-х быстрых ответов.

      Это означает, что если исполнитель даст минимум 3 ответа быстрее, чем за 30 секунд, он будет заблокирован и не сможет больше выполнять ваши задания 5 дней.

  2. Добавьте блок Контрольные задания, чтобы отсеять исполнителей, которые часто ошибаются.

    Примечание.

    Добавляйте контрольные ответы при выполнении двух условий:

    Как создать TSV-файл с контрольными заданиями

    1. Для создания контрольных заданий разметьте задания в интерфейсе.

    2. При разметке поставьте галочку, что нужно учитывать поля clean_text и speech (не ставьте галочку для user_text). Поле clean_text сравнивает с ответом обработанный результат исполнителя, чтобы избежать ошибок из-за лишних пробелов, больших букв, запятых и т.п.

    1. Нажмите Добавить блок контроля качества.

    2. Найдите в списке блок Правила и выберите пункт Контрольные задания.

    3. Задайте правило для контрольного задания: если количество ответов на контрольные вопросы ≥ 3 и процент правильных ответов на контрольные вопросы < 60, то заблокировать исполнителя на проекте на 10 дней. В качестве причины укажите Контрольное задание.



      Это означает, что если исполнитель выполнил более трех контрольных заданий и дал неправильные ответы более чем в 60% из них, он будет заблокирован и не сможет выполнять задания на этом проекте в течение 10 дней.

  3. Добавьте правило контроля качества Результаты проверки и укажите следующие значения:

    Это означает, что если 35% и более ответов исполнителя будут отклонены, он будет заблокирован и не сможет больше выполнять ваши задания 15 дней. Правило начинает действовать после проверки 3 ответов исполнителя.

  4. Добавьте Обработку отклоненных и принятых заданий. Когда значение перекрытия "1", стоит отправить задания в пул снова — на переделку другим исполнителям.

    Это значит, что если вы отклоните задания во время отложенной приемки, они отправятся на повторное выполнение, но другому исполнителю.

  5. Создайте навык. Это пригодится в том случае, если вы будете создавать отдельный проект для проверки ответов другими исполнителями. Перейдите на страницу Навыки, нажмите кнопку +Добавить навык и укажите название навыка, например «Расшифровщик».
    Что такое навык?
    Навык — это оценка какого-либо аспекта работы исполнителя (число от 0 до 100). Навык может начисляться исполнителю за правильные ответы на контрольные задания, а также назначаться произвольно.

    Вы можете использовать значение навыка при отборе исполнителей.

  6. Добавьте блок Выполненные задания и укажите следующие значения:

    Это означает, что если исполнитель выполнил хотя бы одно задание, то ему устанавливается навык.

Запустите пул и получите результаты

  1. Запустите пул, нажав кнопку .
  2. Следите за выполнением в блоке Статистика пула.
  3. Как только получены первые результаты, вы можете начинать проверку. По истечении установленного срока все ответы будут автоматически приняты вне зависимости от их качества.

    Чтобы проверить задания, откройте пул и нажмите Проверить задания.

Поручите проверку исполнителям

Отдайте результаты на проверку исполнителям в качестве задания. Чтобы это задание было доступно исполнителям, которые не расшифровывали аудиозаписи, установите фильтр.

  1. Откройте пул и нажмите Скачать результаты.
  2. Создайте проект с типом классификация.
    Пример готового задания
  3. Создайте интерфейс задания, чтобы исполнитель увидел:
    • аудиозапись в аудиоплеере;
    • расшифровку записи;
    • варианты ответов:
      • Текст полностью соответствует аудиозаписи.
      • В тексте допущены незначительные ошибки.
      • Аудиозапись расшифрована не полностью.
      • Текст не соответствует аудиозаписи.

    Добавьте во входные данные поле assignment_id, куда вы передадите ID ответа, который нужно проверить.

  4. Добавьте пул и укажите в нем Перекрытие — 3.
  5. Добавьте фильтр для отбора исполнителей без навыка:
  6. Загрузите в пул задания и запустите его.
  7. Когда пул будет полностью выполнен, запустите агрегацию результатов.
  8. Примите задания расшифровки, в которых нет ошибок. Остальные отклоните, указав причину.

Решение проблем

Не загружаются файлы с Яндекс.Диска

Если картинки, аудио или видео с Яндекс.Диска не отображаются в инструкции или на странице задания, убедитесь, что вы правильно подключили Диск и загрузили файлы.

Как сделать задание, в котором исполнитель должен просматривать видео с Яндекс.Диска?

Для создания задания возьмите за основу шаблон для разметки видео.

Чтобы разместить ваши видеоролики на Яндекс.Диске, его нужно подключить и настроить проект.

Подробная видеоинструкция об этом в нашем блоге.

Почему в задании по выделению объектов на изображении не отображаются изображения с Яндекс.Диска?
Проблема в шаблоне задания. Проверьте, что:
  • Для поля входных данных, куда вы передаете ссылку на файл, в проекте указан тип «строка».
  • В компоненте в шаблоне задания используется выражение proxy.
  • Формат относительных ссылок в TSV-файле с заданиями указан верно: <уникальное имя>/<путь и имя файла>.
Подробная инструкцию и видео на странице Использование файлов с Яндекс.Диска.
Частые ошибки при подключении Диска и загрузке файлов
  • В настройках проекта в поле Входные данные указан тип ссылка. Необходимо выбрать тип строка.
  • В TSV-файле указаны абсолютные ссылки на файлы для заданий. Необходимо вставить ссылку вида <уникальное имя>/<путь и имя файла>. Например: yadisk/image1.jpg или yadisk/photos/image1.png.
  • Фото с Яндекс.Диска используются в инструкции к заданию в мобильном приложении. Чтобы фото отобразилось в инструкции, используйте только прямые ссылки.
  • Файлы удалены или находятся не в той папке на Диске, на которую ведет ссылка.
  • OAuth-токен не активен. Обновите токен на странице Интеграция с внешними сервисами.
Чтобы файлы, загруженные на Яндекс.Диск (картинки, аудио, видео), отображались у исполнителя, нужно:
  1. Подключить Яндекс.Диск в профиле.
  2. Установить тип строка для поля входных данных.
  3. Вставлять ссылку на файл при помощи компонента proxy.

Подробная инструкция

Файлы на Яндекс.Диск загружаются слишком медленно. Как ускорить загрузку?

Попробуйте воспользоваться рекомендациями с этой страницы или написать в службу поддержки Яндекс.Диска.