|
Фил Крэйвен: Что такое PageRank (ПэйджРанк) Google'а и как получить его по максимуму
|
|
Подсказки
Доменные имена и имена файлов
С точки зрения робота, www.domain.com/, domain.com/, www.domain.com/index.html и domain.com/index.html это разные URL-ы, и, следовательно, разные страницы. Люди посещают домашнюю страницу сайта, не делая различий между URL-ами, но для роботов все по-другому; и этот фактор влияет на результаты расчетов ПэйджРанка. Поэтому лучшим решением служит стандартизация обращения к URL-у, который вы используете для домашней страницы. Если же этого не сделать, то каждый URL будет обладать собственным ПэйджРанком вместо того чтобы укреплять ПэйджРанк одного-единственного URL-а.
Если вы задумаетесь над этим, как может робот знать имя файла страницы, которая выдается при подаче запроса в форме www.domain.com/? Да никак. Имя файла может быть index.html, index.htm, index.php, default.html, и так далее. Паук об этом не знает. Если вы внутри сайта проставляете ссылку на index.html, паук может сравнить две страницы, но и то это вряд ли будет произведено. Итак, получается два URL-а, и каждый из них получает свой ПэйджРанк от входящих ссылок. Стандартизация обращения к URL-ам домашней страницы позволяет быть уверенным, что не происходит распыления ПэйджРанка между основным URL-ом и URL-ами-«призраками».
Пример: Зайдите ко мне на UK Holidays and UK Holiday Accoommodation site (http://www.holidays.org.uk/) хотя бы за такой длинный текст ссылки ;). Обратите внимание, что URL в адресной строке браузера содержит «www.». Если у вас инсталлирован тулбар Гугла, вы увидите, что PR этой страницы составляет 5. А теперь удалите «www.» из адреса и повторите запрос страницы. На этот раз отобразится PR 1, и это для одной и той же страницы. PR 1 это достойный ПэйджРанк для спрятанной страницы, выводимой в составе фрейма.
Когда я только начинал написание этой статьи, URL-адрес, не содержащий «www.», имел PR 4 в связи с тем, что внутри сайта использовались различные версии синтаксиса ссылок. Это приводило к тому, что ПэйджРанк распределялся между двумя страницами, и, соответственно, между двумя сайтами. Это не самый лучший выход. С тех пор, я исправил внутренние ссылки, что привело к снижению PR не содержащей «www.» версии до 1 и нахождению большей доли ПэйджРанка в версии, содержащей «www.». Хотя, возможно и обратное решение, когда большая доля ПэйджРанка будет концентрироваться в версии, не содержащей «www.».
Представьте себе страницу, имеющую адрес www.domain.com/index.html. Индексная страница содержит ссылки на ряд относительных URL-ов, названных как products.html и details.html. Робот видит эти URL-ы как www.domain.com/products.html и www.domain.com/details.html. А теперь давайте добавим на другую страницу URL не в относительном, а в абсолютном формате, но опустим префикс «www.»: domain.com/anotherpage.html. Эта страница имеет ссылку назад на страницу index.html; таким образом, робот видит индексную страницу уже как domain.com/index.html. Несмотря на то, что это та же самая индексная страница, для паука это совсем другая страница, поскольку она расположена на другом домене. Теперь смотрите, что получается. Каждый из относительных URL-ов на индексной странице также отличается, поскольку принадлежит к домену с именем domain.com/. В результате, ссылочная структура приводит к потере потенциального ПэйджРанка сайта из-за его распыления между страницами-«призраками».
Добавление новых страниц
При добавлении новых страниц возможны отрицательные последствия. Возьмем прекрасный благополучный сайт. Он имеет ряд входящих с других сайтов ссылок, а его страницы имеют определенные значения ПэйджРанка. Затем на сайт добавляется новая страница, имеющая ссылки на одну или более уже существующих страниц. Новая страница будет, безусловно, отнимать ПэйджРанк у уже существующих страниц сайта. В результате, хотя общий ПэйджРанк сайта возрастает, хотя бы одна или несколько ранее существовавших страниц испытают уменьшение ПэйджРанка в связи с тем, что новая страница возьмет от них часть значения ПэйджРанка. Таким образом, чем больше новых страниц мы добавляем на сайт, тем существеннее потери ПэйджРанка у страниц, уже существующих. В случае больших сайтов этот эффект малозаметен, но при небольшом количестве страниц потери могут быть существенными.
Иными словами, добавление новых страниц увеличивает суммарный ПэйджРанк сайта, но вызывает снижение индивидуального ПэйджРанка отдельных страниц. Решением проблемы служит постановка ссылок на новые страницы таким образом, чтобы не страдали важные страницы.
Дополнительно
Тулбар Гугла
Если в вашем браузере установлен тулбар Гугла, вы можете видеть ПэйджРанк каждой загружаемой в браузер страницы. Но ПэйджРанк будет выводиться далеко не каждый раз. Многие страницы не были проиндексированы Гуглом и, соответственно, не имеют вычисленного значения ПэйджРанка. А другие страницы на том же сайте были проиндексированы и имеют значение ПэйджРанка. Что же происходит в этом случае? Значения ПэйджРанка для не проиндексированных страниц выводятся «на лету» самым приблизительным образом, и только для вашего тулбара. В этой ситуации цифра есть, а ПэйджРанка нет.
Об этом важно помнить, дабы избежать обмена ссылками со страницами, которые на самом деле не имеют никакого ПэйджРанка сами по себе. Перед тем, как обмениваться ссылками, зайдите непосредственно на Гугл, и убедитесь, что страница, с которой вы планируете осуществить обмен, действительно проиндексирована.
Поддиректории
Некоторые полагают, что Гугл присваивает ПэйджРанк странице в зависимости от того, на каком уровне поддиректории она находится точнее, понижает значение на единицу в зависимости от глубины нахождения директории. Так, если уровень PR для корневой директории составляет 4, то для вложенной директории это будет около 3, для следующего уровня вложения около 2, и так далее. Другие же (включая меня) не принимают эту точку зрения вообще. Хотя, поскольку некоторые роботы имеют привычку избегать глубоких вложенных поддиректорий, будет правильным не делать структуру директорий чересчур глубокой вполне достаточно иметь один или два уровня глубины, считая от корневого уровня.
ODP и Yahoo!
Была такая мысль, что Гугл усиливает ПэйджРанк для сайтов, прописанных в Yahoo! и ODP (a.k.a. DMOZ), но на сегодня, похоже, что это не совсем так. Действительно, такой факт имеет место, но, похоже, по совсем иной причине.
Роботы Гугла обходят эти директории точно так же, как и любой другой сайт, причем сайты, содержащиеся в этих директориях, имеют неплохие значения ПэйджРанка, поскольку обладают хорошими входящими на них ссылками. В случае ODP, директория Гугла представляет собой копию директории ODP. Каждый раз, когда в директорию ODP добавляются новые сайты (или исчезают старые), то же самое происходит и с директорией Гугла при ее следующем обновлении. Вход в директорию Гугла очень хороший, ПэйджРанк увеличивается, количество входящих ссылок, соответственно, тоже. Кроме того, данные из ODP используются для поиска на бесчисленном количестве сайтов а это ведет к увеличению количества входящих ссылок.
Размещение в ODP бесплатно, но, поскольку сайты, стоящие в очереди на размещение, отсматриваются вручную, то с момента постановки в очередь на размещение до момента реального размещения проходит много времени. Поэтому, чем быстрее сайт будет поставлен в очередь на размещение, тем лучше. Полезные советы по подаче сайтов на размещение в DMOZ смотрите в этой статье о DMOZ.