Методика оценки качества блэклистов

Подробнее смотрите 
"Методика оценки качества блэклистов"

Статистика по проекту

Статистика описывает состояние системы на момент генерации блэклистов (расчет и выкладка блэклистов производится каждые две недели, по средам)

Дата расчета статистики
Дата просчета статистики
2017-06-21 12:03:58
 
Известных доменов в системе
Параметр Значение
Количество известных доменов, в том числе:1484638491
доменов 2-го уровня412513130
доменов 3-го и выше уровня1072125361
 
Количество однозначно оцененных доменов
Подсистема оценивания Количество оцененных доменов
Оценено автоматикой6583321
Оценено экспертами254299
Оценено одновременно и автоматикой, и экспертами81248

Пояснения: Автоматика делит домены на три группы:

  • однозначно не порнографический сайт
  • сайт в зоне сомнения
  • однозначно порнографический сайт

Домен считается оцененным автоматикой, если она способна выдвинуть однозначную гипотезу о принадлежности сайта. Сайты, находящиеся в зоне сомнения оцененными не считаются.

Эксперты оценивают сайты по расширенному списку категорий (см. Определения используемых категорий), включающему как однозначные (Porn, Childporn, Not Porn), так и промежуточные категории (Adult, Sex Shops, Sex Education, Sex Health, Not Enough Content).  

Одновременно оцененным считается сайт, относительно которого автоматика выставила однозначную оценку, а эксперт отнес к любой из существующих категорий. От этого числа в дальнейшем считается процент ошибок первого и второго рода.

Оценка качества блэклистов
Тип ошибки Процент ошибки
Процент ошибок первого рода (false positive)4.4161087
Процент ошибок второго рода (false negative)1.6369633

Пояснения: Оценка качества блэклистов происходит на основании сравнения результатов оценивания автоматической подсистемы и экспертных оценок. Подразумевается, что эксперт оценивает сайт правильно. Несовпадение оценок может приводить к двум типам ошибок:

  • Ошибка первого рода (ложное срабатывание) - в нашем случае это процент легитимных сайтов, которые автоматика оценила как содержащие порнографический контент.
  • Ошибка второго рода (пропуск события) - в нашем случае это количество порнографических сайтов, которые подсистема автоматического оценивания не смогла распознать и оценила как не содержащие порнографического контента.
Подробнее читайте статью "Методика оценки качества блэклистов"

Количество записей в блэклистах
Блэклист Количество записей
Порнография5478543
Сайты для взрослых6506
Образовательные сайты сексуальной направленности467
Товары для секса29946
Медицинские сайты сексуальной направленности447
Анонимные прокси25089
Запаркованные домены0
Социальные сети общего назначения (бета-версия!)Социальные сети общего назначения (бета-версия!)331
Социальные сети тематические (бета-версия!)145
Общий блэклист (все категории)5538587