Устройство системы

Исходные идеи

Понемногу доходят руки до описания того, что мы делаем. Для начала зафиксируем несколько основополагающих идей, которые мы заложили в нашу систему классификации сайтов.

  • Если мы не нашли на сайте ничего порнографического, это не значит, что мы перестали его в этом подозревать. При разработке системы мы исходим из презумпции виновности сайта в размещении порнографии. С нашей точки зрения, лучше ошибиться и включить в блэклист сайт, не содержащий порнографии, чем пропустить порнографический сайт (в конце концов, мы не так уж и часто ошибаемся – см. Статистику по качеству :).
  • Мы обучаем автоматику принимать решения в соответствии с логикой принятия решения человеком. Для этого мы дополнили систему ручной экспертной проверкой сайтов, на основании результатов которой происходит обучение отдельных компонентов аналитической подсистемы (например, нейронной сети). Таким образом, постоянно растущая база экспертных оценок позволяет нам в реальном времени дообучать  систему. Происходит процесс постоянной подстройки чувствительности автоматики к новому.
  • Автоматика многокритериальна. Процедура автоматического оценивания сайтов основана на использовании различных критериев, и именно их сочетание позволяет достаточно точно классифицировать сайты. Тема отдельной статьи. Напишем – выложим.
  • Критерий качества автоматической классификации – мера совпадения оценок автоматики и экспертов (самое время опять начать хвастаться статистикой по качеству, вы не находите?). Пока мы просто выкладываем процент ошибок первого и второго рода. В ближайшее время попробуем применить для оценки качества вероятностные модели. О результатах непременно сообщим :)
  • Мы научили автоматику сомневаться в своей оценке. Что она с успехом и делает, отсылая сомнительные сайты эксперту для проверки. Круто. Тема еще одной статьи.
  • Сайт может относиться только к одной категории. Соответственно, в результате каждый домен может содержаться  только в одном списке. Если содержимое сайта может быть отнесено к нескольким категориям, то будет выбрана более жесткая (приоритетная) из них в соответствии с иерархией категорий:

Иерархия категорий (по уменьшению приоритета):

  • Child porn
    • Porn
      • Sex shops
        • Adult
          • Not porn

Например, если на сайте осуществляется продажа как медицинских товаров (таблетки для увеличения потенции) и одновременно содержатся изображения, подпадающие под определение порнографических, он классифицируется как Porn, а не Sex shop

Отдельно рассматриваются категории Sex health и Sex Education. Критерий различения Sex Health и Sex Education – мера коммерциализации содержания. Если есть отсылка на предоставление медицинских услуг – это Sex Health. Если просто предоставляется информация – это Sex Education.

  • Автоматика формирует только блэклист по категории Porn (естественно, учитывая оценки экспертов). Блэклисты по категориям Childporn, Sex Education, Sex Health, Sex Shops формируются только по результатам оценок экспертов.
    Примечание: Точная настройка системы для определения этих промежуточных категорий в автоматическом режиме пока не входит в число наших приоритетов. С одной стороны, в этой задаче уже сейчас видны некоторые неочевидные моменты, а с другой – нам до сих пор понятно как это можно было бы сделать. :) Сейчас мы рассматриваем эти категории как приятные дополнения на пути к большой цели.  Возможно, наличие внешнего заказа смогло бы изменить наше мнение о важности этого вопроса.