Устройство системы

Понятие "единообразный домен"

Сайты, расположенные, либо имеющие вложенные домены третьего и выше уровней - один из камней преткновения в автоматизированных системах контентной фильтрации, основанных на парадигме блокирования по URL. Рассмотрим, каким образом возможно разрешить эту проблему в гибридной системе, совмещающей автоматическую и экспертную оценку сайтов.

 

Ключевые понятия:

  • Домен первого уровня: .com, .ru, .рф и т.п.
  • Домен второго уровня (выделен жирным): auto.ru,
    psychoanalyse.narod.ru
  • Домен третьего уровня или поддомен (выделен жирным): psychoanalyse.narod.ru, http://phattro.blogspot.com
  • Единообразный сайт – сайт, размещенный на единообразном домене.

 

Одной из интереснейших задач в оценивании сайтов (и, соответственно в системах контентной фильтрации, основанных на парадигме блокирования по URL-ям) является формирование отношения к доменам третьего уровня (ссылка в википедии). В рамках уже устоявшейся парадигмы Web 2.0 достаточно большое количество социальных сетей, блог-платформ и иных UGC-сервисов (User Generated Content – контент, созданный пользователями) предоставляет своим пользователям поддомен/домен третьего уровня (http://phattro.blogspot.com/, http://psychoanalyse.narod.ru/). Также, для разделов определенной тематики часто выделяется отдельный поддомен (http://rating.rbc.ru/). Возможны и случаи, когда легитимный информацинно-развлекательный ресурс для «клубнички» заводит отдельный поддомен (http://adulte.frannuaire.com/).

При автоматическом анализе такого рода сайтов встает проблема: содержание доменов третьего и выше уровней может быть аналогичным с точки зрения используемой классификации, а может быть уникальным и подпадать под иную категорию чем содержимое домена второго уровня, либо иных доменов третьего уровня. В первом случае достаточно будет оценить только лишь домен второго уровня, во втором же случае необходимо отдельно анализировать каждый вложенный домен.

Простой пример: то, что Вовочка на сайте http://vovochka.narod.ru разместил контент подпадающий под жесткую категорию еще не значит, что машенькин сайт кройки и шитья http://mashenka.narod.ru и весь narod.ru необходимо подвергнуть остракизму и оценить той же жесткой категорией.

Сгустим тучи. Оказывается, если мы предложим автоматике собирать все домены подряд без учета их уровня и уже имеющейся о них информации, мы можем весьма и весьма увеличить нагрузку на сервер базы данных. По опыту взаимодействия с личными граблями известно, что если автоматика попадает в грамотно построенную сеть доменов третьего уровня, она может притащить контент с двух-трех-пяти-n сотен тысяч одинаковых страничек. Сколько у нас сайтов на Народе.ру? Сейчас… ага, 3380062 штучки. А на блогспоте или на ning.com? А если оценить граф связности между ними? Становится темно и страшно.

А делать что-то надо.

Вот в такой ситуации и возникло у нас понятие единообразного домена. Оно служит, с одной стороны, для уменьшения объемов прокачиваемых и обрабатываемых данных, с другой – упрощает конечный блэклист. Итак, единообразный (similar) домен - это домен второго уровня, контент которого подпадает под ту же категорию, под которую подпадают все домены третьего и выше уровня, размещенные на нем. 

Рассмотрим примеры: 

  • http://auto.ru содержит множество доменов третьего уровня: http://snowmobile.auto.ru/, http://armored.auto.ru/ http://moto.auto.ru/ и так далее. И все они относятся к одной тематике с точки зрения используемой нами классификации. А именно, “not porn”. И если мы знаем, что домен второго уровня auto.ru является единообразным, то уже исчезает необходимость скачивать и оценивать все его поддомены. Достаточно знать, что auto.ru это “not porn”.
  • С другой стороны, тот же http://blogspot.com содержит множество блогов самых различных тематик, включая, в том числе, и жесткие, подпадающие под категории adult, porn. (Прим.: Кстати, очень радует, что на сервисе существует система уведомлений, что открываемый блог содержит контент, предназначенный для взрослых). Такой сайт единообразным уже не является и каждый блог (читай домен третьего уровня) на нем необходимо обрабатывать индивидуально. Что ж, как говорится, работа есть работа. 

Каким же образом данное понятие реализуется в системе? Все достаточно просто. Все домены второго уровня сортируются по убыванию количества известных у них поддоменов. Набравшие максимальные значения отправляются экспертам на проверку (а вдруг это единообразные домены?). Одновременно, для этих подозреваемых на единообразие доменов ограничивается  количество поддоменов в очереди на автоматический сбор. В случае, если единообразный сайт подпадает под одну из жестких категорий, для его блокирования достаточно в соответствующем блэклисте оставить только один домен второго уровня, убрав все его поддомены. Если же единообразный сайт в соответствии с решением эксперта не относится к жестким категориям (и, соответственно, не требует включения в какой-либо блэклист) то информация о его поддоменах также становится избыточной и может быть удалена (Прим.: в любом случае для последующей проверки сохраняется вся информация о домене второго уровня и домене уровня 3+, который оценивал эксперт).  

В результате:

  • снижается нагрузка на внешние сайты (нет необходимости скачивать лишнюю информацию с единообразных сайтов) – поведение по отношению к владельцам сайтов становится более культурным и корректным;
  • ускоряется этап обработки данных (необходимо обрабатывать меньший объем данных) – увеличивается частота обновлений блэклистов;
  • сокращается размер блэклистов (за счет вырезания излишних записей) – снижается нагрузка на прокси-сервер, использующий блэклисты.