Ugyan a különböző keresők és az ezekhez tartozó robotok sokat fejlődtek az elmúlt években még mindig felettébb buták és sokszor gigantikusan képesek leterhelni az oldalakat… a legtöbbször persze teljesen feleslegesen.
Egy átlagos nap egy nagyobb “kisvárosi” weblapnál: a látogatók 1,3 a Google 2,1 Gb forgalmat generált. A nagyrészét vélhetően teljesen feleslegesen, hiszen ennyi tartalom messze nincs az oldalon… ezt mindenki tudja, kivéve persze a Googlebotot.
Az adott esetben ez nem okozott problémát, hiszen viszonylag egyszerű weblapokról volt szó, de ha erősebb dinamikus tartalom esetén ez tényleg gond lehet. Ilyenkor más megoldás nem nagyon van, minthogy kizárjuk a keresőt.
Ezt ugye megtehetjük a robots.txt módszerrel, ami csak oda vezet, hogy a google nem fog semmit látni és az oldalak nem jelennek meg a keresésben. Vagy ha igen, hát finomanszólva nem szerepelnek túl rózsásan… ez ennek ellenére primitív, de megbízható módszer… Óriási gondja azonban, hogy nem igazán lehet kompromisszumot kötni. Nem lehet a robots.txt-ben azt mondani mondjuk, hogy “ott van egy lap, aminek a címe ez és a leírása az, de ne nézd meg!”
pl.: Az itt található (méltán) népszerű edonkey fájl statisztikától a “Google webmaster tools” szerint 21 ezerszer fordult vissza mostanában Googlebot. Nem véletlen, hogy nincs beengedve… ilyen extra forgalomba simán belehalna a rendszer. Ennek ellenére én örülnék neki, ha meg tudnám mondani, hogy mely lapok vannak éppen a cacheben és azokat nézheti. De sajnos ez a gyakorlatban lehetetlen.
Azonban még mindig nyitott a kérdés, hogy miért néz meg néha irreális mennyiségű adatot Google. Erre két fő okot találtam. Az első a tervezési hiba: egy adatbázis alapú oldalon mindig ugyanazon a néven hivatkozzunk ugyanarra a lapra… legyen egységes nevezéktan. A második viszont már a Google hibája. Minden oldalt meg akar nézni, azokat is, amik a kereső szempontjából lényegtelenek. Például ezen a blogon minden címke egy link, ami egy archívum oldalra vezet, aminek semmi értelme nincs önmagában… a Googlenek ott semmi keresnivalója nincs. Elvileg ki lehetne tiltani az ilyen helyekről, ezt sokszor annyira nehéz jól megcsinálni, hogy nem is érdemes belevágni.
Azt hogy minden mocsokba benéz, azért teszi a kereső, hogy új linkeket találjon. Egy hiányosan összeállított blognál például az ilyen archívumokban akad rá az egyes postokra, amiknek azért ott a helye a találatok között.
A problémára persze már régen van megoldás: A sitemap ugyanis pont erre lett kitalálva. Gyakorlatilag ad egy listát a keresőnek, hogy milyen oldalakat nézzen meg mindenképpen és milyen gyakran. Érdekes módon a gyakorlatban egy ilyen listát sokkal könnyebb előállítani, mint azt amin a “tiltott” oldalak vannak.
A rendszer jól működik, ami szerepel a sitemapban, az a Googleben is ott van. De sajnos nem csak az: a keresők ennek ellenére könyörtelen lelkesedéssel végigmennek az oldalon. Nem lehet azt mondani nekik, hogy ott a sitemap és netovább. Így megállíthatatlanul folytatják a keresgélést gigantikus mennyiségű erőforrást foglalva le. Trükközni persze mindig lehet, csak annyira macerás, hogy a legtöbben tesznek rá magasról…
A gépház jelenti: a két hónapnál régebbi bejegyzésekhez nem lehet hozzászólni… cserébe viszont külön lapra kerültek a linkek, amikhez megigérem, hogy ezentúl tényleg fogok ismertetőt írni. (Nem mellékelem ezeket az RSS-hez ahogy jónéhány kolléga teszi, mert szerintem az idegesítő, de külön fel lehet iratkozni.)
Elküldés
Hozzászólás
Hozzászólás RSS
http://romapage.hu/robots.txt
(”Lopott” anyag, de valami wikin volt, tolem oda masolja mindenki, ahova akarja, es amennyire a lap kontextusara emlekszem, az alkoto is igy gondolta)
Es rogton nem eszi meg a googlebot…
Ez csak “tüneti kezelés” a bot ugyanannyit megeszik, csak jobban szétoszlik. (A visit-time mondjuk nem rossz…. bevallom arról még nem is hallottam korábban.) Adott esetben viszont ez még mindig nem biztos, hogy megfelelő. Kezdetnek ez jó, de ha mondjuk lassítjuk a botot akkor meg lehet hogy az a lap aminek a frissítése fontos lenne naponta kétszer az nem fog frissülni, mert a bot a felesleges oldalakkal “bajlódik” napokon keresztül.
Az is megoldás lehet még, ha blokkolsz mindent a robots.txt-be, de külön engedélyezed azt ami a sitemapban is fel van tüntetve. Ennek viszont hátránya, hogy az ember hajlamos “kihagyni” dolgokat. Nehéz jól megcsinálni… (egyszerűbb adatbázis alapú oldalaknál mondjuk működhet, hogy az adatbázisból generálja le az ember a listát mondjuk naponta, de összetettebb oldalnál, pláne ha gyakran változik, sok meló lehet vele.)
a nofollow-t is követi a címkéknél?