Хостинг для сайтов и сателлитов
  Формы авторизации для ситемы биллинга, пртнерской программы, и панели вебмастера
Вход в систему биллинга
Логин:
Пароль:

Управление пратнерской программой
Логин:
Пароль:



Панель вебмастера
Логин:
Пароль:


Хостинг, который рекомендуют...

Хостинг


Сервера


Партнерам


Прочее


Запуск нового хостинга.

Новые IP для NS доменов

Обновление ПО на двух серверах



Даешь VPS

Прогон по социальным закладкам

Реселлинг за пол цены



Money Back 100%  XM 50 - 0,40$/mec Dress partners 10%

1 июля 2009

На самом деле все не так страшно, как написано в заголовке, но тем не менее проблема с роботами поисковиков имеет место быть, создавая владельцам сайтов головную боль вызываемую нагрузкой на их детища.
Как показывает практика наиболее прожорливыми оказались боты следующих систем: yandex, yahoo, msn. Так же есть еще граберы, которые представляются ботами поисковиков, но имеют другой IP и игнорируют правила, прописанные в robots.txt. Таких надо сразу банить по IP адресу.

Итак посмотрим что можно сделать сделать с таким нашествием (атака саранчи отдыхает).
Вариантов не так много, но они есть:
1. Забанить робота
2. Ограничить его частоту посещений
3. Купить себе хороший сервер

Все мы понимаем, что люди приходят на сайты с поисковых систем (и не только), поэтому определяем какие из ПС нам наиболее нужны и полезны. Я считаю что из трех наиболее грузящих это yandex, поэтому банить его крайне не желательно. Воспользуемся ограничением и пропишем для него правило crawl-delay в robots.txt , допустим crawl-delay 2 разрешит роботу обращаться к странице не чаще 1 раза в 2 секунды.
С яшей разобрались, идем дальше.
Лично я вижу траф с yahoo и msn очень мизерным и не нужным, а потому уверен что их можно вообще забанить или прописать для них правило в котором выдавать 500 ошибку. Теперь посмотрим что у нас должно получиться для домена 100mbps.ru:

#main section
User-agent:*
Crawl-delay: 1
# End of main section
Host: 100mbps.ru

User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo
Disallow: /
User-agent: psbot
Disallow: /
User-agent: msnbot
Disallow: /
User-agent: msnbot-media
Disallow: /
User-agent: msnbot-news
Disallow: /


Список поисковых роботов здесь
Базовый Robots.txt можно создать здесь




18 июня 2009

Поисковой робот или краулер (от англ. crawler) - программа, являющаяся составной частью поисковой системы, которая обходит страницы Интернета, скачивает ее и заносит в базу поисковика. По своей сути краулер больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Глубина проникновения поискового робота внутрь сайта обычно ограничена.

Часто вебмастера сталкиваются с вопросом о юзер-агенте (User-agent) ботов той или иной поисковой системы. Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту.















Базовый Robots.txt можно создать здесь