Что такое PageRank (PR) от Google и Индекс цитируемости (тИЦ) от Яндекс
PageRang – показатель авторитетности, ранга документа. В поисковых машинах он именуется по-разному, однако все они при его расчете используют алгоритмы, учитывающие гиперссылки между документами. Эти алгоритмы являются, по сути, модификациями алгоритма PageRang, придуманного в свое время двумя американскими аспирантами Сергеем Брином и Ларри Пейджем, основавшими в последствии поисковую машину Google.
Зачем нужен PageRang и что он из себя представляет?
С ростом объема информации в Интернете вообще и информации, индексируемой поисковыми системами в частности, перед разработчиками поисковиков встала серьезная проблема – количество одинаково релевантных запросу документов было велико, и корректно ранжировать их в результатах поиска становилось все сложнее. К тому же алгоритмы ранжирования, разработанные для контролируемых коллекций документов, оказались беззащитны перед простейшими способами воздействия на них, когда для обеспечения хорошего результата достаточно было просто скопировать структуру расположения ключевых слов из текста хорошо ранжируемого по этому запросу документа. Появилась необходимость разделять информацию на более и менее достоверную, учитывать «важность» или «авторитетность» ресурсов, предоставляющих ее. Как это сделать? Лучше всего на основе данных о популярности страницы у пользователей, например посещаемости. Но тогда потребуется устанавливать какой-либо счетчик на каждую страницу. Такой вариант для глобального поиска не подходит. Тогда в качестве критерия была выбрана теоретическая посещаемость страницы.
Была разработана модель, эмулирующая движение пользователя по документам сети путем перехода по ссылкам с документа на документ, подразумевающая, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. Следовательно, вероятность пользователя попасть на конкретный документ зависит от количества ссылок на него с других документов и от того, на сколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот ссылающийся документ. Эта вероятность и была принята за показатель авторитетности или ранг страницы (PageRang):
PRa = (1-d) + d * ([Сумма от i=1 до n] PRi/Ci), где
PRa – PageRang рассматриваемой страницы,
d – коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85),
PRi – PageRang i-й страницы, ссылающейся на страницу a,
Ci – общее чисто ссылок на i-й странице.
Одним из распространенных заблуждений является то, что можно вычислить PageRang по этой формуле для отдельно взятого документа, используя известные значения PageRang для ссылающихся на него документов. Так делать нельзя. Чтобы вычислить PageRang какого-либо документа надо составить систему N линейных уравнений данного вида для каждого из документов из поисковой базы, где N – число документов в поисковой базе. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRang для каждого документа, известного поисковой машине. В поисковой базе крупнейших поисковых машин содержится огромное число документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разряжена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения. Вот эти конкретные особенности реализации классической формулы PageRang, увы, составляют коммерческую тайну поисковых машин.
PageRang в Google
Нормированное значение PageRang для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar – специальную панель инструментов для работы с этим поисковиком.
ВИЦ в Яндексе
В Яндексе аналогичная PageRang величина, обозначающая количественное представление «авторитетности» страницы и называемая «взвешенный индекс цитирования» — ВИЦ, была введена весной 2001 года. Как говорили сами представители Яндекса, ВИЦ высчитывается на основе классического алгоритма PageRang «с точностью до реализации». До осени 2002 года ВИЦ можно было посмотреть с помощью Яндекс-Бара, специальной панели инструментов. В нем отражался ВИЦ главной страницы с точностью до сотых. Теперь в этом индикаторе отображается значение тИЦ, совсем другого показателя, использующегося для ранжирования ресурсов в каталоге Яндекса, и узнать значение ВИЦ не представляется возможным.
ИЦ в Апорте
Апорт в 1999 году первым из отечественных поисковых систем стал использовать для ранжирования документов модификацию классического алгоритма PageRang. Показатель авторитетности документа имеет название «Индекс цитирования» — ИЦ (так же представители Апорта называют его в своих документах как PageRang, так и взвешенный индекс цитирования). Самым кардинальным отличием от классического PageRang в Апорте является то, что при расчете ИЦ документа им учитывается всего одна, «лучшая», ссылка со всех страниц домена второго уровня. «Лучшей» считается та ссылка, которая передает наибольший вес документу. Индексом цитирования сайта (он же Site Rang), использующегося для ранжирования сайтов в каталоге Апорта, считается наибольший индекс цитирования из всех страниц сайта. Значение ИЦ можно узнать только для сайтов, зарегистрированных в каталоге, в соответствующей ему категории.
Коэффициент популярности в Рамблере
С осени 2002 года поисковая машина стала рассчитывать для каждого документа коэффициент популярности. Вот, что сказано на сайта Рамблера об этом коэффициенте: «Данный коэффициент, как алгоритм PageRang, основан на учете гиперссылок между страницами сети, однако наша реализация дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100. Дело в том, что «классические» ссылочные алгоритмы фактически учитывают мнение только одной категории пользователей сети – web-мастеров. Действительно, если большому количеству web-мастеров нравится тот или иной ресурс, они размещают на него ссылки. Обычные пользователи, как правило, созданием страниц и сайтов не занимаются, и поэтому учесть их мнение оказывается невозможно. Счетчик Top100 как раз и предназначен для того, чтобы сделать коэффициент популярности более справедливым». Однако, судя по всему, в последнее время данные о посещаемости документов, полученные от счетчика Top100, оказывают все меньше влияние на коэффициент популярности, так как счетчик не в состоянии противостоять массовым накруткам, практикуемым владельцами некоторых сайтов. Соответственно, все большее значение приобретает составляющая, вычисляемая на основе учета гиперссылок между страницами сети. Необходимо заметить, что некоторые документы и даже целые сайты в поисковых машинах могут по той или иной причине исключаться из процесса расчета ранга документа, на который они ссылаются. Так, например, в Яндексе для этих целей существует так называемый «непот-фильтр», который накладывается на ресурсы, находящиеся на бесплатных хостингах, но не описанные в Яндекс-каталоге, ресурсы со свободным размещением ссылок (например, гостевые книги, доски объявлений), сайты, размещающие на своих страницах ссылки, невидимые пользователю и т.п.
Резюмируя, можно сделать вывод, что для повышения ранга страницы необходимо работать над тем, чтобы как можно большее количество документов сети ссылалось на него. Делать это можно различными способами: с помощью обмена ссылками с другими сайтами, регистраций в каталогах и различных тематических ресурсах и т.д. Идеальный способ – сделать свой сайт насколько уникальным и интересным, чтобы владельцы других ресурсов сами считали необходимым поставить ссылку на него. Не следует также забывать, что при расчете ранга документа учитываются как внешние, так и внутренние ссылки. Поэтому грамотная перелинковка документов внутри сайта позволяет повысить ранг самых важных из них с точки зрения содержащейся информации. Наиболее важные в этом смысле документы обязательно должны иметь ссылку с главной страницы сайта, которая, как правило, имеет максимальный ранг среди всех страниц сайта вследствие того, что на нее указывает большинство внешних ссылок на сайт.