На самом деле все не так страшно, как написано в заголовке, но тем не менее проблема с роботами поисковиков имеет место быть, создавая владельцам сайтов головную боль вызываемую нагрузкой на их детища.
Как показывает практика наиболее прожорливыми оказались боты следующих систем: yandex, yahoo, msn. Так же есть еще граберы, которые представляются ботами поисковиков, но имеют другой IP и игнорируют правила, прописанные в robots.txt. Таких надо сразу банить по IP адресу.
Итак посмотрим что можно сделать сделать с таким нашествием (атака саранчи отдыхает).
Вариантов не так много, но они есть:
1. Забанить робота
2. Ограничить его частоту посещений
3. Купить себе хороший сервер
Все мы понимаем, что люди приходят на сайты с поисковых систем (и не только), поэтому определяем какие из ПС нам наиболее нужны и полезны. Я считаю что из трех наиболее грузящих это yandex, поэтому банить его крайне не желательно. Воспользуемся ограничением и пропишем для него правило crawl-delay в robots.txt , допустим
crawl-delay 2 разрешит роботу обращаться к странице не чаще 1 раза в 2 секунды.
С яшей разобрались, идем дальше.
Лично я вижу траф с yahoo и msn очень мизерным и не нужным, а потому уверен что их можно вообще забанить или прописать для них правило в котором выдавать 500 ошибку. Теперь посмотрим что у нас должно получиться для домена 100mbps.ru:
#main section
User-agent:*
Crawl-delay: 1
# End of main section
Host: 100mbps.ru
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo
Disallow: /
User-agent: psbot
Disallow: /
User-agent: msnbot
Disallow: /
User-agent: msnbot-media
Disallow: /
User-agent: msnbot-news
Disallow: /
Список поисковых роботов
здесьБазовый Robots.txt можно создать
здесь