Robots txt
Co je robots.txt a k čemu slouží?
Webař může jednoduše zakázat návštěvu vyhledávacích robotů pro web (podstránky, aplikace, části kódu…). Důvodů pro tento postup může být hodně. Některé informace můžete mít za zcela nerelevantní, další za duplicitní s jinou částí webu, nebo může jít o informace choulostivé či o placené články. Asi také nechcete, aby roboti navštívili podstránku administrace webu. Je několik způsobů, jak zakázat robotům vstup. Pro celý web to lze udělat pomocí robots.txt, pro část vebu v hlavičce tzv. meta tagu a pro odkaz atributem rel=“nofollow“.
Vyhledávací robot funguje v principu tak, že když přijde na váš server, navštíví nejprve soubor robots.txt. Tam zjistí, kam má zakázaný přístup. Robots.txt je klasický textový soubor, který se dá vytvořit i v poznámkovém bloku, nepotřebujete na to žádné speciální schopnosti. Musí být uložen v kořenovém adresáři webu – například https://www.evolutionmarketing.cz/robots.txt – je přímo v kořenovém adresáři.
V robots.txt je také sitemapa, neboli mapa stránek. Díky ní robot ví, které podstránky váš web má, kdy byly naposledy měněny nebo jakou mají prioritu.
Vyhledávací robot funguje v principu tak, že když přijde na váš server, navštíví nejprve soubor robots.txt. Tam zjistí, kam má zakázaný přístup. Robots.txt je klasický textový soubor, který se dá vytvořit i v poznámkovém bloku, nepotřebujete na to žádné speciální schopnosti. Musí být uložen v kořenovém adresáři webu – například https://www.evolutionmarketing.cz/robots.txt – je přímo v kořenovém adresáři.
V robots.txt je také sitemapa, neboli mapa stránek. Díky ní robot ví, které podstránky váš web má, kdy byly naposledy měněny nebo jakou mají prioritu.
Jak se robots.txt píše?
Soubor robots je napsán v řádcích. Robotů, kteří jej navštěvují, je mnoho (např. robot Seznamu, Googlu, Bingu atd.). Na jednotlivých řádcích souboru můžete konkrétním robotům přístup zakázat (dissallow) nebo jim ho povolit. Je dobré vědět, že pokud na zakázané podstránky vede odkaz z jiné stránky, robot ji stejně navštíví a zaindexuje. Zákaz procházení webu totiž není to samé, jako zákaz indexování webu. Pokud robots.txt neexistuje, roboti to chápou tak, že smí všude. Totéž platí, pokud je tento soubor napsán špatně, nebo je prostě prázdný. Google má speciální nástroj - Google Search Console, kde se můžete lehce podívat, kdy byl Googlebot na vašem webu naposledy, na kterých podstránkách, zda jsou na nich nějaké problémy atd.
Hvězdička označuje všechny roboty – vyhledávačů je spousta a každý má minimálně jeden typ robotů. Pokud byste chtěli zakázat přístup všem robotům do vyhledávání, příkaz by zněl:
User-Agent: *
Disallow: /vyhledavani/*
Sitemap: https://www.evolutionmarketing.cz/_sitemap_articles.xml
Hvězdička označuje příkaz všem robotům, Disallow je zakázání přístupu, /vyhledavani/ označuje vyhledávací část na vašem webu. Ta se často zakazuje proto, že zobrazuje při různých vyhledáváních podobné výsledky (u elektra výsledky mobily, mobilní, telefon...). Vyhledávače zpravidla berou tyto výsledky tak, že existuje mnoho stránek se stejným obsahem, tak zvané duplicity. Duplicity vyhledávače nemají rády, protože chtějí ukazovat ve výsledcích vyhledávání jedinečné stránky. Pod příkazy je místo uložení sitemapy (seznamu stránek).
Hvězdička označuje všechny roboty – vyhledávačů je spousta a každý má minimálně jeden typ robotů. Pokud byste chtěli zakázat přístup všem robotům do vyhledávání, příkaz by zněl:
User-Agent: *
Disallow: /vyhledavani/*
Sitemap: https://www.evolutionmarketing.cz/_sitemap_articles.xml
Hvězdička označuje příkaz všem robotům, Disallow je zakázání přístupu, /vyhledavani/ označuje vyhledávací část na vašem webu. Ta se často zakazuje proto, že zobrazuje při různých vyhledáváních podobné výsledky (u elektra výsledky mobily, mobilní, telefon...). Vyhledávače zpravidla berou tyto výsledky tak, že existuje mnoho stránek se stejným obsahem, tak zvané duplicity. Duplicity vyhledávače nemají rády, protože chtějí ukazovat ve výsledcích vyhledávání jedinečné stránky. Pod příkazy je místo uložení sitemapy (seznamu stránek).
Co je ještě důležité?
Výsledky ve vyhledávání (tzv. SERP - Search Engine Results Pages) závisí mimo jiné na tom, jak často budou roboti na vašich stránkách přítomni. Toho lze docílit například zpětnými odkazy z jiných webů a kvalitním obsahem. Pokud vás zajímá více, přečtěte si náš nekonečný seriál o SEO, nebo nás kontaktujte a můžeme probrat, jak vylepšit výsledky vašeho webu ve vyhledávání.
Jaké jsou nejčastější chyby v robots.txt
Při auditech webu se občas setkáváme s redundantním obsahem (věcí, které skutečně nejsou potřebné do robots.txt psát). Není to vyloženě chyba, ale podle mého názoru je vždy jakýkoliv nadbytečný obsah prostě... Nadbytečný. Další časté chyby jsou:
- V robots.txt není odkaz na sitemapu - tato chyba není podstatná u opravdu malých webů, navíc - pokud je sitemapa uložena v web/sitemap.xml, roboti ji najdou.
- V robots.txt je zakázán vstup robotů někde, kde je chcete.
- V robots.txt není zakázán vstup někam, kam roboty pouštět nechcete (např. proto, že tam vznikají duplicity).
- V robotst.txt jsou příkazy jen na jeden typ robotů (např. jen pro google boty) - ostatní se tak podle nich nechovají.
- Špatný odkaz na sitemapu - i s tím jsem se několikrát setkal.
Je vůbec robots.txt důležitý?
Jde vždy o kontext, ale - proč ho nemít? Vytvořit ho zabere skutečně pár minut a je vždy lepší ho mít než nemít.
Vytvořila společnost PS Works s. r. o.