Несколько зашумленных результатов разметки объединяются в один качественный ответ на задание.
Подписаться на новости Толоки
Подписаться на новости Толоки
В последние годы краудсорсинг стал стандартным инструментом разметки массивных наборов данных. В сравнении с привлечением к разметке дорогостоящих экспертов это чрезвычайно привлекательная альтернатива: задания распределяются среди большой группы низкооплачиваемых исполнителей, не обладающих экспертными знаниями. Сила краудсорсинга в «мудрости толпы» — во многих ситуациях было обнаружено, что адекватно агрегированные независимые мнения неквалифицированных пользователей способны превзойти суждения экспертов предметной области. Таким образом, краеугольный камень краудсорсинга — это методы агрегирования и извлечения значимых выводов из зашумленных результатов краудсорсинговой разметки. В этой статье мы обсудим основные методы агрегации.
Прежде чем углубиться в детали, рассмотрим рабочий пример, на который мы будем опираться в рамках статьи. Допустим, у нас имеется набор изображений, и наша цель — классифицировать их в зависимости от того, кошка или собака показана на изображении. В соответствии с принципом краудсорсинга задание должно быть распределено между несколькими исполнителями, каждый из которых размечает некое подмножество изображений. В результате для каждого изображения у нас есть несколько результатов разметки.
Следующий шаг — агрегация, при этом несколько зашумленных результатов разметки объединяются в один качественный ответ на задание. Для краткости в данной статье мы рассмотрим задачу бинарной классификации и приведем ссылки на литературу с описанием множественной классификации.
Начнем наш рассказ с простого и интуитивно понятного инструмента, который часто используется на практике: алгоритм агрегации голосов большинства.
Мнение большинства — это концепция, считающая истинным наиболее распространенное среди исполнителей мнение. Мнение большинства: наиболее популярный вариант разметки считается агрегированным ответом.
Мнение большинства — это простой, но очень практичный инструмент, основанный на предположении, что большинство исполнителей с большей вероятностью выберет правильный ответ. При этом избыточность проводимой разметки с успехом компенсирует зашумленность ответов.
На самом деле, при помощи мнения большинства часто можно получить весьма достойные результаты. Поэтому этот метод с успехом применяется во многих практических проектах. Также одно из преимуществ этого метода в том, что он весьма нагляден и логика его работы понятна. Однако в проектах краудсорсинга существуют определенные временные и бюджетные ограничения. Таким образом, наша цель в том, чтобы собрать минимальный объем данных, необходимый для достижения желаемой точности. С этой точки зрения, мнение большинства далеко не всегда будет оптимальным выбором. Чтобы осознать слабые стороны метода, рассмотрим модель, основанную на мнении большинства.
Модель, лежащая в основе метода, проста. Есть изображений и исполнителей. Каждое изображение подразумевает некий неизвестный ответ («кошка» или «собака» в нашем случае). При использовании мнения большинства предполагается, что если исполнитель разметил изображение, его ответ является правильным с некоторой вероятностью :
При этом вероятность правильного ответа полагается одинаковой для каждого исполнителя и вопроса. Допущение что учитывает, что для каждого исполнителя вероятность правильного ответа выше, чем неправильного. В таком случае, поскольку число разметок для каждого изображения достаточно велико, мнение большинства с высокой вероятностью даст истинные ответы.
В силу своей простоты, метод основанный на мнении большинства имеет ряд ограничений: