Надо знать

» Поддержка,
оптимизация и продвижение сайта.

Важный вопрос после создания сайта - это его сопровождение, наполнение информацией, но главное это продвижение в глобальной сети интернета на первые позиции результатов поиска...

Заметки
Наша информация



robots.txt - советы по корректному использованию файла

robots.txt - советы

Хочется внести некую ясность в использование этого файла в текущих условиях.
Понятно, что в robots.txt используются разные директивы. Среди них есть много полезных:

  • Host: для указания основного хоста для Яндекса
  • Sitemap: для указания адреса карты сайта
  • Crawl-Delay: для указания минимальной задержки между индексацией страниц (не для всех поисковиков).


Также есть директива Disallow (и Allow как противоположная).
С какими проблемами сталкиваются вебмастера, используя robots.txt?
Первая и основная проблема, с которой сталкиваются вебмастера, это наличие в индексе Google страниц, закрытых в robots.txt. Считается, что если закрыть страницу или раздел в robots.txt, то она не попадет в индекс или выпадет из него, если там была. Это пока что работает так для Яндекса, Google воспринимает robots.txt по-другому.

Если обратиться к справке Google, то можно видеть, что robots.txt — это не правило, а рекомендация. И она означает “не сканировать страницу”, а не “не добавлять её в индекс”. Страница по прежнему может попасть в индекс, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.
Вроде бы ничего страшного, но наличие подобных страниц в индексе, во-первых, плохо влияет на авторитет сайта (в связи с введением Пингвина, Яндекс пока работает по другому), и, во-вторых, подобный сниппет может снижать конверсию и ухудшать поведенческий фактор в поиске.
Для закрытия дублей страниц лучше использовать внутренние средства CMS, а не стараться упростить себе жизнь файлом robots.txt. Тем более, что файл может по каким-то причинам быть недоступен (перенесли на другой сервер, забыли, переименовали и так далее) и в таком случае все закрытое становится резко открытым (наверное как в случае с прошлой утечкой информации из wiki.yandex-team.ru).
Во-вторых, закрывая всё подряд, можно случайно закрыть важные вещи. Например, закрывая в Wordpress всю папку /wp-content/, можно остаться без трафика по изображениям, которые хранятся в /wp-content/uploads/.


Так что, получается лучше совсем не использовать robots.txt? В некоторых случаях он всё же полезен (особенно, когда мы прописываем главное зеркало для Яндекса).


Для чего я рекомендую использовать robots.txt


o Для закрытия всего сайта при его разработке
Чтобы заранее в индекс не попало ничего лишнего.
o Для закрытия сайта от левых поисковиков.
Например, Рунетовским сайтам нет смысла показываться в Yahoo! Если в этом поисковике нет целевой аудитории, то можно смело закрывать сайт, дабы не нагружать дополнительно свои сервера.
o Для закрытия приватных разделов сайта от глаз робота.
Чтобы приватные данные (типа номера кредитных карт :) пароли или смс-ки пользователей) не попадали в индекс. Хотя логично эти разделы вообще не иметь открытыми на сайте.
o Для снятия нагрузки на сервер
Если, к примеру, на вашем очень популярном сайте много функционала по сотрировке товара, или какие-то фильтры, которые требуют больших серверных ресурсов, можно не пускать робота к этим страницам, чтобы снять нагрузку. Хотя, опять же, логино было бы сделать функционал сортировки невидимым для робота в самой CMS, чем перекладывать ответственность на файл robots.txt.


Для чего бы не рекомендовано использовать robots.txt


o Для закрытия индексации страниц пейджинга, сортировки, поиска
От дублей следует избавляться средствами CMS, например, 301 редиректом, тегом rel=canonical (который специально для этого был создан), 404 ошибкой или мета тегом robots noindex.
o Для удаления уже существующих в индексе страниц
Частая ошибка вебмастеров, когда пытаются удалить страницы из индекса роботсом. Поисковый робот не сможет переиндексировать страницу и удалить её, если вы закроете к ней доступ через роботс.
o Для закрытия админ-панели
Путь к админке виден в роботс. Так на одной из конференции злоумышленно получили доступ к одной админке сайта про курсовые работы, путь к которой узнали через robots.txt, а пароли были стандартные admin:admin.
o Для закрытия других страниц, которые вы не хотите видеть в индексе
Используйте для этого любые другие методы

  
Связанные статьи





 

Публикации
ДИЗАЙН САЙТА
14 мая Яндекс ввел новый антиссылочный алгоритм. Влияние ссылок снизилось.
Какое место сайт займет в выдаче...
SEO-копирайтинг.
Как сделать так чтобы, найти и отличить ваш сайт среди многих других? Вы оптимизировали...

ПРОГРАММИРОВАНИЕ

Прежде чем работать с файлами - делайте копии их!
Что такое .htaccess (от. англ. hypertext access) — файл...

Хочется внести некую ясность в использование этого файла в текущих условиях.
Понятно, что в robots.txt...


В МИРЕ ИНТЕРЕСНОГО
Современная наука не дает полное представление о окружающем мире и его основах, которые являются гораздо обширнее и...

Полезный цикл передач «Среда обитания» идет сейчас по 1 каналу для потребителей. Хотели обратить внимание на...


О ПРОГРАММАХ

Компания Adobe Systems сообщила пользователям Adobe Reader и Adobe Acrobat о том, что в данных программах имеются...

«Лаборатория Касперского», ведущий производитель систем защиты от вредоносного и нежелательного ПО,...

Фотографии
Новые галереи
Porsche Cayenne
Porsche Cayenne. Усовершенствованная версия включает...
Самый дорогой внедорожник в мире
Самый дорогой внедорожник в мире-фото машины и салона
Фото машин
Фото машин


Все фото
По сайтам
Другое: