Методы агрегации

Несколько зашумленных результатов разметки объединяются в один качественный ответ на задание.

Подписаться на новости Толоки

Подписаться на новости Толоки

В последние годы краудсорсинг стал стандартным инструментом разметки массивных наборов данных. В сравнении с привлечением к разметке дорогостоящих экспертов это чрезвычайно привлекательная альтернатива: задания распределяются среди большой группы низкооплачиваемых исполнителей, не обладающих экспертными знаниями. Сила краудсорсинга в «мудрости толпы» — во многих ситуациях было обнаружено, что адекватно агрегированные независимые мнения неквалифицированных пользователей способны превзойти суждения экспертов предметной области. Таким образом, краеугольный камень краудсорсинга — это методы агрегирования и извлечения значимых выводов из зашумленных результатов краудсорсинговой разметки. В этой статье мы обсудим основные методы агрегации.

Пример

Прежде чем углубиться в детали, рассмотрим рабочий пример, на который мы будем опираться в рамках статьи. Допустим, у нас имеется набор изображений, и наша цель — классифицировать их в зависимости от того, кошка или собака показана на изображении. В соответствии с принципом краудсорсинга задание должно быть распределено между несколькими исполнителями, каждый из которых размечает некое подмножество изображений. В результате для каждого изображения у нас есть несколько результатов разметки.

Следующий шаг — агрегация, при этом несколько зашумленных результатов разметки объединяются в один качественный ответ на задание. Для краткости в данной статье мы рассмотрим задачу бинарной классификации и приведем ссылки на литературу с описанием множественной классификации.

Image

Методы

Метод

Начнем наш рассказ с простого и интуитивно понятного инструмента, который часто используется на практике: алгоритм агрегации голосов большинства.

Мнение большинства — это концепция, считающая истинным наиболее распространенное среди исполнителей мнение. Мнение большинства: наиболее популярный вариант разметки считается агрегированным ответом.

Мнение большинства — это простой, но очень практичный инструмент, основанный на предположении, что большинство исполнителей с большей вероятностью выберет правильный ответ. При этом избыточность проводимой разметки с успехом компенсирует зашумленность ответов.

Image

На самом деле, при помощи мнения большинства часто можно получить весьма достойные результаты. Поэтому этот метод с успехом применяется во многих практических проектах. Также одно из преимуществ этого метода в том, что он весьма нагляден и логика его работы понятна. Однако в проектах краудсорсинга существуют определенные временные и бюджетные ограничения. Таким образом, наша цель в том, чтобы собрать минимальный объем данных, необходимый для достижения желаемой точности. С этой точки зрения, мнение большинства далеко не всегда будет оптимальным выбором. Чтобы осознать слабые стороны метода, рассмотрим модель, основанную на мнении большинства.

Модель

Модель, лежащая в основе метода, проста. Есть N\text{N} изображений и M\text{M} исполнителей. Каждое изображение j{1,...,N}j \in \{1,...,N\} подразумевает некий неизвестный ответ («кошка» или «собака» в нашем случае). При использовании мнения большинства предполагается, что если исполнитель ii разметил изображение, его ответ является правильным с некоторой вероятностью p>1/2p>1/2:

P[Исполнитель i отвечает на вопрос j верно]=p\mathbb{P}[\text{Исполнитель } i \text{ отвечает на вопрос } j \text{ верно}]=p

При этом вероятность правильного ответа полагается одинаковой для каждого исполнителя и вопроса. Допущение что p>1/2p>1/2 учитывает, что для каждого исполнителя вероятность правильного ответа выше, чем неправильного. В таком случае, поскольку число разметок для каждого изображения достаточно велико, мнение большинства с высокой вероятностью даст истинные ответы.

Ограничения

В силу своей простоты, метод основанный на мнении большинства имеет ряд ограничений:

  • Однородность множества исполнителей.  Во-первых, в данном методе полагается, что исполнители имеют одинаковые способности. Иными словами, для каждого конкретного вопроса вероятность того, что исполнитель правильно ответит на вопрос, одинакова для всех исполнителей. Однако на практике пул исполнителей на краудсорсинговых платформах чрезвычайно разнообразен: кто-то из них очень аккуратно и скрупулезно выполняет задачи, а кто-то более небрежен и чаще допускает ошибки. Таким образом, одно из направлений совершенствования модели, основанной на мнении большинства, — это учет различия в способностях исполнителей в рамках модели.
  • Однородность вопросов. Во-вторых, при использовании мнения большинства предполагается, что вопросы имеют одинаковую сложность. Иными словами, для каждого конкретного исполнителя вероятность правильного ответа на конкретный вопрос одинакова для всех вопросов. Однако какие-то вопросы проекта могут быть сложнее других. Таким образом, другое направление совершенствования модели, основанной на мнении большинства, — это учет различия в сложности вопросов в рамках модели.
В следующей статье мы обсудим оба направления развития модели и расскажем вам о более углубленных алгоритмах, лучше учитывающих особенности краудсорсинговых заданий.