Analýza logů serveru pro pokročilé technické SEO

Co logy serveru skutečně ukazují a proč jsou pro SEO důležité

Serverové logy jsou záznamy o každém požadavku, který přijde na webový server. V praxi jde o přesný záznam toho, kdo přišel, kdy, na jakou URL, jakým user-agentem a s jakým HTTP stavem. Z pohledu technického SEO je to cenné hlavně proto, že na rozdíl od crawlerů třetích stran ukazují reálné chování vyhledávačů, zejména Googlebotu.

Proč to řešit právě teď? Vyhledávání je stále citlivější na technickou kvalitu webu, rychlost načítání i na to, zda se důležité stránky dostanou do indexu včas. Logy pomáhají odhalit, jestli robot prochází produktové stránky, nebo tráví čas filtrováním parametrických URL, zda se vrací na stejné nefunkční adresy, a také jestli server není přetížený zbytečným crawl zatížením.

Typický přínos je velmi konkrétní: e-shop s 200 000 URL může po analýze logů zjistit, že Googlebot navštěvuje 60 % času jen 10 % stránek, zatímco důležité kategorie dostávají minimum crawlů. To je signál, že problém není v obsahu, ale v architektuře webu, interním prolinkování nebo nastavení parametrů.

Jaká data z logů sledovat jako první

Než se začne cokoliv optimalizovat, je nutné vytáhnout z logů správné metriky. Nestačí se dívat jen na počet hitů. Důležité je sledovat vzorce, rozdíly mezi roboty a stavové kódy. U většiny webů dávají největší smysl tyto položky:

Počet crawlů podle user-agenta – Googlebot, Bingbot, případně další roboti.
Frekvence návštěv konkrétních URL – které stránky jsou navštěvované často a které téměř vůbec.
HTTP status kódy – 200, 301, 302, 404, 410, 5xx.
Doba odezvy serveru – zda bot nenaráží na pomalé odpovědi.
Hloubka crawlování – zda se robot dostane i na stránky „hluboko“ v architektuře.
Parametrické URL a duplicity – filtrování, řazení, tracking parametry.

Zvlášť důležitý je poměr mezi crawl frequency a business prioritou. Pokud má homepage denně stovky návštěv od robotů, ale důležité landing pages nebo nové produkty skoro žádné, jde často o problém s interní strukturou, sitemapou nebo kanonikalizací.

V praxi se vyplatí porovnávat logy s daty z Google Search Console. Logy ukazují, co bot skutečně navštívil, Search Console zase jaké URL jsou indexované, na jaké dotazy se zobrazují a kde Google hlásí problémy s pokrytím. Teprve kombinace obou zdrojů dává kompletní obraz.

Postup analýzy: od stažení logů po první závěry

Analýza začíná sběrem dat. U menších webů stačí přístup k serverovým logům přes hosting, u větších projektů se pracuje s exporty z Nginx, Apache, CDN nebo cloudových platforem. Ideální je mít data alespoň za 30 dní, u sezónních webů raději 60 až 90 dní. Kratší období může zkreslit výsledky kvůli kampaním, výpadkům nebo změnám obsahu.

První krok je vyfiltrovat roboty. Ne každý user-agent s názvem Googlebot je skutečný Googlebot, proto je vhodné ověřovat IP adresy reverzním DNS lookupem. Teprve potom má smysl oddělit běžný provoz od crawlů vyhledávačů. Následně se logy agregují podle URL, statusů a času.

Praktický postup může vypadat takto:

import logů do nástroje pro analýzu dat,
odfiltrování botů a interního provozu,
sloučení URL podle šablon a typů stránek,
vyhodnocení stavových kódů a odezvy,
porovnání s XML sitemapou a daty z GSC,
identifikace anomálií a prioritních zásahů.

U větších projektů je vhodné používat nástroje jako Screaming Frog Log File Analyser, JetOctopus, Oncrawl, Splunk nebo vlastní zpracování přes Python a SQL. Menší weby si vystačí i s kombinací exportu do CSV a práce v Excelu nebo Google Sheets, ale pro miliony řádků už je to pomalé a náchylné k chybám.

Na co se zaměřit u technických chyb a crawl budgetu

Jedním z hlavních cílů analýzy logů je zjistit, zda web efektivně využívá crawl budget. Ten není pevné číslo, ale prakticky jde o množství času a zdrojů, které vyhledávač věnuje vašemu webu. U malého webu může být crawl budget téměř irelevantní, u rozsáhlého e-shopu nebo magazínu je to zásadní téma.

Nejčastější problémy, které logy odhalí:

nadměrné crawlování parametrů – filtr, řazení, UTM, interní vyhledávání,
opakované návštěvy 404 stránek – zbytečná zátěž i signál nekvalitní struktury,
řetězce přesměrování – například 301 přes 302 na další 301,
pomalé odpovědi serveru – při vysokém TTFB se crawl zpomaluje,
chybné canonical tagy – robot navštěvuje jednu URL, ale indexovat má jinou,
duplicitní obsah – stejné stránky dostupné přes více cest.

Konkrétní příklad: pokud logy ukážou, že Googlebot denně navštíví 50 000 URL s parametrem ?sort=, ale produktové stránky v kategorii dostávají jen zlomek této pozornosti, je vhodné upravit interní odkazy, canonicaly, robots.txt nebo navigaci filtrů. Cílem není roboty „zakázat“, ale nasměrovat je na nejdůležitější obsah.

Velkou pozornost si zaslouží také stavové kódy 5xx. Pokud se v logách opakují při crawlích botů, jde často o problém s výkonem, špatně nastaveným serverem nebo přetížením databáze. Pro SEO je to signál, že web může být pro Google méně spolehlivý a crawl se může omezit.

Jak propojit logy s indexací, sitemapou a interním prolinkováním

Samotná log analýza dává odpovědi, ale největší hodnotu přináší až v kombinaci s dalšími daty. Důležité je porovnat tři vrstvy: co je v sitemapě, co je interně propojeno a co skutečně crawlí Googlebot. Pokud je URL v sitemapě, ale v logách se neobjevuje, je to signál slabé dostupnosti nebo nízké priority.

V praxi se sleduje zejména tento rozdíl:

URL v sitemapě, ale bez crawlů – problém s prioritou nebo objevitelností,
URL často crawlí robot, ale není v sitemapě – možná důležitá stránka chybí v řízení indexace,
URL crawlí často, ale není indexovaná – může jít o duplicitu, tenký obsah nebo kanonikalizaci,
URL je indexovaná, ale téměř necrawlí – riziko zastaralého obsahu nebo slabého signálu relevance.

U velkých webů se vyplatí vytvořit si jednoduchý dashboard. Na jedné ose bude počet crawlů za posledních 30 dní, na druhé indexační stav ze Search Console. Tak rychle poznáte, které sekce webu jsou aktivní, které stagnují a kde se vyhledávač „ztrácí“.

Interní prolinkování má přímý vliv na to, kam se robot dostane nejrychleji. Pokud klíčové stránky nejsou v hlavní navigaci, v kategoriích nebo v tematických clusterech, logy to často potvrdí nízkou návštěvností botů. To je praktický důkaz, že SEO problém není jen v obsahu, ale v informační architektuře.

Jak z logů udělat pravidelný SEO proces, ne jednorázovou akci

Největší chyba je analyzovat logy jednou a pak se k nim nevracet. U technického SEO mají smysl pravidelné kontroly, ideálně měsíčně u menších webů a týdně u velkých e-shopů, médií nebo webů po migraci. Každá změna v šabloně, faceted navigaci, CMS nebo serveru může změnit způsob crawlování během několika dní.

Dobře nastavený proces obvykle zahrnuje:

automatický sběr logů do úložiště,
pravidelný reporting nejdůležitějších URL a stavů,
alerty na nárůst 404 a 5xx,
sledování nových parametrů v URL,
kontrolu po migracích, redesignu a změnách CMS,
vyhodnocení dopadu na indexaci a organickou návštěvnost.

Reálný přínos bývá vidět poměrně rychle. Po odstranění crawl waste a zlepšení interní struktury se často zlepší frekvence crawlů důležitých stránek během 2 až 6 týdnů. U rozsáhlejších projektů může být návratnost delší, ale stále měřitelná na lepší indexaci, stabilnějším výkonu ve vyhledávání a menším zatížení serveru.

Pro majitele webu je podstatné jedno: logy nejsou jen technický detail pro vývojáře. Jsou to data, která ukazují, zda web funguje tak, jak si vyhledávače skutečně „myslí“. A právě tam se dnes rozhoduje o tom, zda se nový obsah dostane do indexu rychle, zda důležité stránky nezůstanou bez pozornosti a zda technická infrastruktura nebrzdí celý organický výkon.