Как предотвратить индексирование Гуглом карты сайта sitemap.xml

Опубликовано ,

Всем привет! Сегодня мы поговорим о том, как убрать из поисковой выдачи файлы динамической карты сайта для роботов — sitemap.xml

Пример дублей в поисковой выдаче
Дубли страниц, появившиеся после неправильной настройки популярного плагина Wordfence

Если вы время от времени просматриваете страницы сайта, находящиеся в индексе, то вполне могли встретить там страницы, которые и в выдаче-то быть не должны. Среди них могут быть дубли replytocom, технические дубли Rest Api, появившиеся после обновления ВордПресс до 4.4, мусорные файлы от некоторых плагинов.

Проблема

Файл Sitemap — это файл с информацией о страницах сайта, подлежащих индексированию. Разместив этот файл на сайте, вы можете:

  • сообщить Яндексу, какие страницы вашего сайта нужно индексировать;
  • как часто обновляется информация на страницах;
  • индексирование каких страниц наиболее важно.

Даже если есть страница, на которую не попасть по внутренним ссылкам на сайте, ПС найдет ее через файл sitemap.

Данные карты сайта создаются в первую очередь для поисковиков, но поскольку на них есть текст, они могут появится в выдаче и таким образом конкурировать с нормальными статьями.

Посмотреть страницы сайта в поисковой выдаче можно по запросу: site:ВАШ_САЙТ.ru
Напрямую запросить файлы карты сайта: site:ВАШ_САЙТ.ru filetype:xml inurl:sitemap

Актуальность проблемы: ко мне на днях обратилась девушка — она обнаружила в выдаче Гугла некоторое количество страниц формата .xml

Файлы карты сайта в Гугле
Файлы карты сайта в Гугле

Я не вижу никакой необходимости в наличии таких файлов в поиске — вряд ли это те страницы, которые нужны посетителям. Не стоит надеяться, что рано или поздно Гугл поймет, что есть статьи сайта, больше достойные места в выдаче, поэтому добавим на страницы карты сайта мета-тег noindex, который поможет предотвратить индексирование sitemap в будущем.

Решение

При помощи мета-тегов довольно просто запретить индексацию стандартных HTML страниц, но такая функция не доступна для  динамически генерируемых файлов формата xml.
Джон Мюллер из Google предложил альтернативное решение — отдавать в заголовках карты X-Robots-Tag «noindex».
Реализация на практике займет всего пару минут. Добавлять код надо в файл .htaccess, который находится в корневом каталоге вашего сайта. Обычно это папка public_html


Откройте файл для редактирования и если у вас одна карта сайта, добавьте в конец следующий код:

<IfModule mod_rewrite.c>
 <Files sitemap.xml> 
Header set X-Robots-Tag "noindex" 
</Files> 
</IfModule>

… при необходимости измените название карты сайта sitemap.xml на ваше собственное (например, sitemap_index.xml, если вы используете Yoast SEO)

Если на вашем сайте есть несколько файлов с картой сайта (например, для изображений и видео), используйте следующий код:

<IfModule mod_rewrite.c>
 <Files ~ "^(sitemapA|sitemapB|)\.xml$">
  Header set X-Robots-Tag "noindex"
 </Files>
</IfModule>

Не забудьте изменить в нем sitemapA, sitemapB на реальные названия файлов.

Проверка изменений

После того, как вы сохранили изменения, можете проверить правильность выполненных действий через сервис URI Valet. Просто вставьте в строку ссылку на любую страницу вашей карты сайта.

URI Valet запрос
Вот так выглядит ответ сервера и искомый noindex

x-robots-tag
Что ж, реализация была успешной и теперь файлы карты сайта не должны попадать в поиск.

2 комментария

  1. Rokis

    Не задумывался об этом. Помогло. У Вас справа ошибка, там где плагин CLEARFY. Кстати всё, что в нём я руками сделал.

    Ответить
    1. Анастасия

      Спасибо, да, руками там все можно легко реализовать. Но плагин возможно удобнее и экономнее тем, кто ленится)

      Ответить

А что вы думаете по этому поводу?

Ваш e-mail не будет опубликован.

Добавить в комментарий код: CSSHTMLPHP