Weboví roboti vs. statistiky využití WWW katalogů

  Co je to robot ( webový robot, někdy zkráceně "bot" ) : Aplikace navštěvující weby, která stahuje stránky, v případě WWW katalogu někdy i pokládá dotazy ( odpověď na dotaz do katalogu není nic jiného než stažení stránky s výsledky ). V internetu jsou jich tisíce. Dělají práci za člověka, např. prohledávají stránky, aby pak vyhledávače zodpověděly dotaz co nejlépe, sbírají e-mailové adresy, kontrolují funkčnost odkazů, sledují změny stránek, přihazují v aukcích, synchronizují data, agregují záhlaví stránek, atd., atd. Robotem na pomezí výkladu mohou být i katalogy, které 1 dotaz člověka rozešlou na desítky/stovky knihoven ( např. JIB ).

  Existují užitečnější roboti ( např. že se o vaší stránce vůbec někdo dozví ), i záškodníci ( sbírání e-mailů pro SPAMy atd. ) - tedy z hlediska majitele stahovaných webů. Z hlediska tvůrce/provozovatele aplikace je asi každé stahování užitečné, jinak by robota nepoužil.

 Pro nás je důležitější rozdělení na slušné či neslušné roboty. Slušní roboti dodržují přání webu ( soubor /robots.txt ), které stránky chce mít robotem stahované (indexované). Neslušní nedodržují nic. Např. náš WWW katalog umožňuje (přeje si) stahovat rejstříky ( indexovat vyhledávačem témata a autory knih ), ale nepřeje si, aby robot pokládal konkrétní dotazy ( zobrazoval výsledky hledání, vypůjčenost.. ). Pokud to neslušný robot ignoruje, pokládá mnoho dotazů a tím zatěžuje server ( to většinou moc nevadí ), ale výrazně tím narostou statistiky !

 NELZE vždy bezpečně rozeznat robota od člověka !

 Mimo /robots.txt se snažíme roboty eliminovat i jinými způsoby, ale protože nelze vždy odlišit dotaz od robota a člověka, čísla statistik mohou být zkreslena (vyšší).

 Pokud vidíte ve statistice nereálná čísla, doporučujeme správná odhadnout. Příklad :

  Většinou robot neumí překonat přihlášení čtenáře ani přistupovat z intranetu ( máte-li správně rozlišen internet a intranet ), takže bývá nereálný jen počet anonymních hledání z internetu, tj. počet dotazů příp. počet vstupů z prostoru mimo knihovnu.

Externí odkazy : Co je robot, Většina návštěvníků jsou roboti, Informace pro roboty robots.txt

Tento dokument spravuje : Ivan Černý


ZPĚT na hlavní stránku Otázky, připomínky : info@lanius.cz