Sådan får du 5 milliarder spam-sider indekseret i Google!
I mandags have vi et spændende emne oppe at vende i mit radioshow på WebmasterRadio.FM, Strikepoint. Emnet var sub.sub.domains og var inspireret af en sag som har været oppe at vende i snart en uges tid (men som jeg bare ikke lige har fået tid til at blogge om før nu …). Sagen handler om en virkelig kreativ “søgemaskinespammer”, som det lykkedes at få mindst 5 milliarder sider indekseret i Google – med et helt nyt domæne der var mindre et 1 måned gammelt! Det er godt nok vildt!
Threadwatch har en god gennemgang af sagen, og en god diskution af emnet. Adam fra Google kommer også med et par kommentarer – omend det mest bliver til en gang “corporate udenomssnak”.
Kort fortalt har denne person, opsat nogle helt nye domæner, fyldt en masse sider med simpelt scraper materiale, søgeresultater og reklamer. Det er der intet nyt i. Det nye er, at dette system er blevet opsat med et sindrigt system af sub-domæner og sub.sub-domæner. Og så er der ellers lige trykket på “autmate” knappen må jeg sige. 5 milliarder sider er satme meget! Det sidste officielle tal fra Google omkring deres fulde indeks’ størrelse var knap 9 milliarder sider – så denne ene “spammer” skulle så udgøre 60% af indekset nu? Det er sgu for morsomt 🙂 (hvis man altså ikke lige sidder som svedende tekniker på Google …)
Domænet der er anvendt blev registreret 31. maj i år – det er et faktum. At opnå 5 milliarder sider indekseret er i alle tilfælde ret utroligt. At gøre det på under 4 uger er for sindssygt.
Jeg vil ikke gå i yderligere detaljer med hvordan sub.sub-domæner kan misbruges i Google, da jeg ikke ser noget formål med at udbrede det. Dem der er dygtige nok finder nok ud af fidusen selv.
Google har foreløbigt svaret, at de rapporterede 5 milliarder indekserede sider blot er udtryk for et “bad data push” … Vi er mange der ikke helt køber den forklaring. Se f.eks. Alexa rankingen for et af disse sites (det site hvor det meste trafik tilsyneladende er blevet aggrigeret – redirected til):
Du kan se de øvrige data på Alexa.com her.
Som du kan konstatere, er dette website, ifølge Alexa, lige nu verdens 3.438’ende mest besøgte website – i sidste uge var det nummer 1.872. At blive det 1.872’ende største website i verden på blot 4 uger er satme for overdrevet og det understreger at Googles forklaring ikke om et “bad data push” ikke helt holder stik. Det understøttes yderligere af at mange af disse sub-sub-domæner faktisk ranker temmelig godt på masser af ord (eller gjorde i hvert fald, indtil Google slettede dem i manuelt, med et såkaldt “hand job”). Faktisk var der indtil for nyligt, nogle søgninger, hvor de første 10-30 resultater ALENE var forskellige af “spammerens” sub.sub-domæner.
En anden ting der er værd at bide mærke i når man ser på Alexa’s data er, at trafikken kun er faldet ganske lidt, efter Google efter eget udsagn skulle have fået ryddet op i det – så enten er der ikke ryddet helt op, eller også er der andre trafikkilder vi enendu ikke kender fuldt ud …
At et så relativ simpelt (når man kender fidusen) koncept på den måde kan vælte Google fortæller meget om, hvor ringe Google’s Big Daddy update faktisk er.
Lars Bachmann skriver
Det er godt nok helt vildt, jeg har fulgt historien den sidste uges tid, netop fordi jeg er en smule imponeret over at det kan lade sig gøre. Og med de besøgstal, så må bagmanden da have tjent en formue på hans spamside stunt?
Mikkel deMib Svendsen skriver
> så må bagmanden da have tjent en formue på hans spamside stunt?
Ja, det er der rigtig god grund til at tro. Det kan dog godt være at den megen medieopmæksomhed har spændt lidt ben for det hele. Jeg tror aldrig han har hørt udtrykket “under the radar” – eller i hvert fald ikke forstået det 🙂
Daniel Duvald skriver
Hej
Jeg får en fejl på webmasterradio når jeg prøver at lytte til udsendelsen: http://media.webmasterradio.fm/episodes/audio/2006/SP061905.mp3
Filen kan ikke findes.
Daniel Duvald skriver
Det er datoen i linket der ikke passer. http://media.webmasterradio.fm/episodes/audio/2006/SP061906.mp3 virker, hvis der er nogen der gerne vil lytte til udsendelsen.
Mikkel deMib Svendsen skriver
Du må meget gerne smide en support email til webmasterradio – så de kan få det rettet. Jeg har faktisk ikke rigtig noget med det tekniske at gøre. Det er altid meget glade for at få den slags at vide – fejl kan jo aldrig 100% undgåes, men de an rettes hvis venlige sjæle gør opmærksom på dem 🙂
Daniel Duvald skriver
En email er sendt 🙂
I øvrigt en spændende udsendelse…
Mikkel deMib Svendsen skriver
Tak! Feedback er altid godt
Daniel Duvald skriver
Er det bare mig der ikke kan se nogle af siderne i google hvis jeg laver en: site:domæne ??
hehe… søgemaskinen du kan stole på – manden har da humor 🙂
Marcel Fuursted skriver
Så skal du nok lave det på MSN, hvis du vil prøve dig frem… Tror Google allerede har gjort noget ved “sagen”, da saggen som tidligere nævnt har været rimelig meget i fokus 😀 Og det kan være du skal lave det på hver af sub-domænerne også
Mikkel deMib Svendsen skriver
Google har bare fjernet (det meste) af de pågældende site – de har IKKE løst “problemet” – Det virker stadig 🙂
Daniel Duvald skriver
Jeg forstår bare ikke helt hvori pengene ligger i sådan et site – jeg har endnu ikke set nogle reklamer, men ved så heller ikke hvad der sker i det javascript der bruges når han linker – det ligner umiddelbart noget xss.
Mikkel deMib Svendsen skriver
Der var vist oprindeligt AdSense reklamer på siderne, men der er 100 måder du kan tjene penge på den type trafik. Når volumerne er så stor er pengene det også – på den ene eller den anden måde 🙂