Блог

Прокси-сервер Squid и программа-редиректор SquidGuard, обеспечивающие URL-фильтрацию на основе блэклистов, по-разному их  интерпретируют. Соответственно и требования к содержанию блэклистов у них различны. Мы рассмотрим какие здесь есть нюансы, и каким образом мы делаем для каждой из программ свои отдельные блэклисты так, чтобы они работали одинаково.

В рамках проекта www.digincore.org для определения категории сайта мы используем, в частности, критерий связности сайта. Проще говоря, мы анализируем, куда ссылается данный сайт, и какие иные сайты, в свою очередь, ссылаются на него. Понятно, что для расчета этого критерия требуется достаточно большой граф связности. В тот прекрасный момент, когда размер таблицы с графом в MySQL перевалил за 80 гигабайт (700+ млн. записей), а время на просчет по нему уже составило больше двух часов, мы задались вопросом, а что же, в конце концов, за связи в нем лежат.