robots.txt и sitemap.xml
robots.txtиsitemap.xml— файлы в корне сайта, которые помогают поисковым роботам (crawlers) понять, какие страницы индексировать и как обходить сайт.
Зачем нужно
Без robots.txt поисковые боты обходят весь сайт, включая технические страницы (admin, api, preview). sitemap.xml ускоряет индексацию: вместо того чтобы искать страницы по ссылкам, бот получает готовый список. Оба файла — стандартный инструмент технического SEO, который должен присутствовать на любом публичном сайте.
Где используется
- Публичные сайты с органическим трафиком
- Интернет-магазины с большим количеством страниц
- Блоги, новостные порталы
- SSG/SSR-проекты (Next.js, Nuxt, Astro, Gatsby — автогенерация)
robots.txt
Текстовый файл по адресу https://example.com/robots.txt. Читается каждым ботом перед обходом сайта.
Синтаксис
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /search?
Allow: /
# Указать расположение sitemap
Sitemap: https://example.com/sitemap.xml
Примеры правил
# Запретить всем ботам всё (закрытый сайт)
User-agent: *
Disallow: /
# Разрешить всё (по умолчанию, можно не писать)
User-agent: *
Allow: /
# Ограничить только конкретного бота
User-agent: AhrefsBot
Disallow: /
# Разрешить Google, запретить остальным
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
Важно
robots.txt— рекомендация, не запрет. Недобросовестные боты игнорируют его.- Чтобы скрыть страницу от индексирования, используй
<meta name="robots" content="noindex">в её<head>. - Файл должен быть в корне домена (не поддомена, не подпапки).
sitemap.xml
XML-файл с перечнем URL сайта для поисковых роботов.
Базовый формат
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2026-04-10</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://example.com/about</loc>
<lastmod>2026-03-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Sitemap index (для больших сайтов)
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://example.com/sitemap-pages.xml</loc>
</sitemap>
<sitemap>
<loc>https://example.com/sitemap-products.xml</loc>
</sitemap>
</sitemapindex>
Регистрация в Google Search Console
Sitemap нужно добавить в Google Search Console и Яндекс.Вебмастер для принудительного уведомления поисковиков.
Частые ошибки
| Ошибка | Почему плохо | Как правильно |
|---|---|---|
| Disallow: / на продакшне | Сайт полностью закрыт от индексации | Убирать перед релизом |
URL в sitemap без https |
Google может не индексировать | Только абсолютные HTTPS URL |
| Устаревшие URL в sitemap | Боты тратят краулинговый бюджет на 404-страницы | Автогенерировать sitemap из CMS/SSG |
Нет Sitemap: в robots.txt |
Бот не знает, где искать sitemap | Добавлять ссылку на sitemap в robots.txt |