robots.txt и sitemap.xml

robots.txt и sitemap.xml — файлы в корне сайта, которые помогают поисковым роботам (crawlers) понять, какие страницы индексировать и как обходить сайт.

Зачем нужно

Без robots.txt поисковые боты обходят весь сайт, включая технические страницы (admin, api, preview). sitemap.xml ускоряет индексацию: вместо того чтобы искать страницы по ссылкам, бот получает готовый список. Оба файла — стандартный инструмент технического SEO, который должен присутствовать на любом публичном сайте.

Где используется

  • Публичные сайты с органическим трафиком
  • Интернет-магазины с большим количеством страниц
  • Блоги, новостные порталы
  • SSG/SSR-проекты (Next.js, Nuxt, Astro, Gatsby — автогенерация)

robots.txt

Текстовый файл по адресу https://example.com/robots.txt. Читается каждым ботом перед обходом сайта.

Синтаксис

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /search?
Allow: /

# Указать расположение sitemap
Sitemap: https://example.com/sitemap.xml

Примеры правил

# Запретить всем ботам всё (закрытый сайт)
User-agent: *
Disallow: /

# Разрешить всё (по умолчанию, можно не писать)
User-agent: *
Allow: /

# Ограничить только конкретного бота
User-agent: AhrefsBot
Disallow: /

# Разрешить Google, запретить остальным
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

Важно

  • robots.txtрекомендация, не запрет. Недобросовестные боты игнорируют его.
  • Чтобы скрыть страницу от индексирования, используй <meta name="robots" content="noindex"> в её <head>.
  • Файл должен быть в корне домена (не поддомена, не подпапки).

sitemap.xml

XML-файл с перечнем URL сайта для поисковых роботов.

Базовый формат

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-04-10</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <lastmod>2026-03-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Sitemap index (для больших сайтов)

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-pages.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products.xml</loc>
  </sitemap>
</sitemapindex>

Регистрация в Google Search Console

Sitemap нужно добавить в Google Search Console и Яндекс.Вебмастер для принудительного уведомления поисковиков.

Частые ошибки

Ошибка Почему плохо Как правильно
Disallow: / на продакшне Сайт полностью закрыт от индексации Убирать перед релизом
URL в sitemap без https Google может не индексировать Только абсолютные HTTPS URL
Устаревшие URL в sitemap Боты тратят краулинговый бюджет на 404-страницы Автогенерировать sitemap из CMS/SSG
Нет Sitemap: в robots.txt Бот не знает, где искать sitemap Добавлять ссылку на sitemap в robots.txt

Связанные темы

Ресурсы