Crawling
robot prohledávající weby
Crawling je proces, při kterém prohledávací robot (crawler, spider, bot) shromažďuje informace o stránkách. Roboti prochází neustále miliardy stránek, o kterých si ukládají (či aktualizují) informace do indexu. Z něj pak nabízí výsledky na vyhledávací dotazy (proto při tvorbě webu využíváme analýzu klíčových slov). Čas prohledávání (čas, který stráví robot právě na vaší stránce) je důležitým faktorem pro SEO. Určí totiž, kolik stránek na vašem webu boti projdou.
Crawleři a robots.txt
Datum přítomnosti Google robota na stránkách můžete zjistit v Google Search Consoli, stejně jako to, zda je stránka na indexu apod. Aby mohl robot vaše stránky prohledávat, měl by mít povolený přístup v robots.txt (pokud není zakázán, je automaticky povolen). Robots.txt musí být napsán malými písmeny a musí být umístěn hned v kořeni webu - např. https://www.evolutionmarketing.cz/robots.txt - napsat ho není nic složitého, jedná se o textový soubor a můžete ho vytvořit i v poznámkovém bloku.
Pro povolení přístupu můžete použít příkaz Allow: (povolit přístup), pro zákaz naopak Disallow: (nedovolit přístup). Prohledávacích robotů je mnoho (Google jich používá hned několik, další má třeba Seznam a ostatní vyhledávače). Hvězdička * je příkaz pro všechny boty. Do robots.txt určitě umístěte i sitemapu, tedy mapu stránek, na které roboti zjistí, které podstránky existují a na které by tedy měli přijít.
Příklad zápisu v robots.txt
User-Agent: *
Disallow: /vyhledavani/
Sitemap: https://www.evolutionmarketing.cz/_sitemap_articles.xml
Doslova tento zápis říká, že všichni roboti nesmí do vyhledávání (u některých webů vytváří vyhledávání na něm nové URL, které jsou totožné s mnoha jinými a vznikají tak duplicity obsahu - tedy duplicity z pohledu vyhledávače). Zvažte, na která místa nechcete robota pustit (např. pro případy, aby nevznikaly zbytečné duplicity - při filtrování zboží na eshopu apod.). Dále ukazuje robotům uložení sitemapy (mapy stránek). V případě, že máte skutečně malý web (50 URL), pak není velkou chybou, když soubor sitemap neexistuje, nebo když na něj není uložen odkaz v robots.txt. Pokud je web obrovský (desítky tisíc URL), pak je to vyloženě nutnost. Roboti najdou sitemap i bez toho, pokud je ovšem uložen v klasickém místě, tedy homepage/sitemap.xml. Ne vždy tomu tak (z různých důvodů) je, proto je lepší tu informaci přeci jen uložit do robots.txt.
Pokud chcete o SEO vědět víc, přečtěte si náš nekonečný SEO seriál.
Velice často se setkáváme s tím, že programátoři píší do robots.txt redundantní obsah jako různé poznámky apod. Není to vyloženě chyba, ale můj názor je, že cokoliv nadbytečného je zbytečné. Také se setkávám s tím, že někteří programátoři kopírují v podstatě robots.txt z jedho webu na druhý a moc neřeší, zda nezakazují robotům něco, co na webu ani není (vyhledávání apod.). Opět - nejedná se o to, že by to byla vyloženě chyba, ale... Proč tam mít cokoliv nadbytečného?
Pro povolení přístupu můžete použít příkaz Allow: (povolit přístup), pro zákaz naopak Disallow: (nedovolit přístup). Prohledávacích robotů je mnoho (Google jich používá hned několik, další má třeba Seznam a ostatní vyhledávače). Hvězdička * je příkaz pro všechny boty. Do robots.txt určitě umístěte i sitemapu, tedy mapu stránek, na které roboti zjistí, které podstránky existují a na které by tedy měli přijít.
Příklad zápisu v robots.txt
User-Agent: *
Disallow: /vyhledavani/
Sitemap: https://www.evolutionmarketing.cz/_sitemap_articles.xml
Doslova tento zápis říká, že všichni roboti nesmí do vyhledávání (u některých webů vytváří vyhledávání na něm nové URL, které jsou totožné s mnoha jinými a vznikají tak duplicity obsahu - tedy duplicity z pohledu vyhledávače). Zvažte, na která místa nechcete robota pustit (např. pro případy, aby nevznikaly zbytečné duplicity - při filtrování zboží na eshopu apod.). Dále ukazuje robotům uložení sitemapy (mapy stránek). V případě, že máte skutečně malý web (50 URL), pak není velkou chybou, když soubor sitemap neexistuje, nebo když na něj není uložen odkaz v robots.txt. Pokud je web obrovský (desítky tisíc URL), pak je to vyloženě nutnost. Roboti najdou sitemap i bez toho, pokud je ovšem uložen v klasickém místě, tedy homepage/sitemap.xml. Ne vždy tomu tak (z různých důvodů) je, proto je lepší tu informaci přeci jen uložit do robots.txt.
Pokud chcete o SEO vědět víc, přečtěte si náš nekonečný SEO seriál.
Velice často se setkáváme s tím, že programátoři píší do robots.txt redundantní obsah jako různé poznámky apod. Není to vyloženě chyba, ale můj názor je, že cokoliv nadbytečného je zbytečné. Také se setkávám s tím, že někteří programátoři kopírují v podstatě robots.txt z jedho webu na druhý a moc neřeší, zda nezakazují robotům něco, co na webu ani není (vyhledávání apod.). Opět - nejedná se o to, že by to byla vyloženě chyba, ale... Proč tam mít cokoliv nadbytečného?
Vytvořila společnost PS Works s. r. o.