Методика оценки качества блэклистов

Методика оценки качества блэклистов

Основная идея, лежащая в основе способа оценивания качества предоставляемых блэклистов заключается в сравнении оценок, выставленных экспертами (рейтерами) и автоматикой. Чем больший процент оценок совпадает, тем выше качество.

Ключевые понятия:

  • экспертная оценка (рейт) - категория, выставленная рейтером (аналитиком) на данный сайт по результатам визуального осмотра;
  • автоматическая оценка - категория, выставленная автоматизированной экспертной системой на основании анализа сайта по заданному подмножеству критериев.
  • финальная оценка (финальный рейт) - категория, выставленная по результатам сравнения автоматической и экспертной оценки. В случае не совпадения выставленных категорий, правильной считается оценка эксперта.

Подробнее смотрите Словарь терминов

 

Подразумевается, что эксперты оценивают сайты со стопроцентным качеством. Таким образом, под понятием "качество блэклиста" мы понимаем меру совпадения оценок автоматической системы с экспертными оценками.

Понятно, что 100%-го совпадения оценок быть не может (ошибаются и люди, и автоматика). Поэтому для более точного понимания природы несовпадений мы используем два понятия:

  • ошибка первого рода - ложное срабатывание - сайт, не содержащий, с точки зрения эксперта порнографических материалов, оценен автоматикой как порнографический;
  • ошибка второго рода - пропуск события - сайт, оцененный экспертом как порнографический, оценен автоматикой как не содержащий порнографических материалов.

Еще один важный нюанс. Мы выделяем два вида категорий:

  • однозначные (strict) - четко, строго определяемые категории:
    • Porn - порнография
    • Not Porn - не порнография
  • неоднозначные - промежуточные категории:
    • Adult - сайты для взрослых
    • Sex Shop - магазины товаров для секса
    • Sex education - образовательные сайты сексуальной направленности
    • Sex Health - медицинские сайты сексуальной направленности
    • Not Enough Content - скрытая "техническая" категория, подразумевающая недостаточность содержаний для отнесения сайта к какой-либо категории.

Подробнее смотрите Определения используемых категорий

Если эксперты оценивают сайты по всему множеству категорий, выставляя как однозначные, так и промежуточные, то автоматика работает с двумя крайними однозначными категориями - либо "порно", либо "не порно". Таким образом, экспертные оценки, содержащие неоднозначные категории, исключаются из расчета статистики по качеству.