Lynhurtig crawling og indeksering på Google!
Som nogle af jer måske allerede har lagt mærke til, er Google begyndt at indeksere visse websites ekstremt hurtigt. Nogle gange kan du opleve at nye sider du udgiver, allerede er søgbare i Google under 1 minut efter! Det er satme hurtigt.
Et godt, og meget aktuelt, eksempel er deMib.dk. Jeg har lige skrevet et indlæg om “Universal Search” – for ikke ret mange minutter siden, og allerede nu kan du finde informationerne i Google. Og ikke alene er informationerne indekseret, deMib.dk ligger faktisk nummer 1 i Google.dk nå man søger på Universal Search. Det er sgu da imponerende!
Jesper skriver
Ja, det er godt nok hurtig indeksering…
Har du en idé om hvad kriteriet er for, at opnå denne hurtige indeksering, når du skriver “visse websites”?
Ulrik Brøndum skriver
Jeg bed mærke i det samme i sidste uge, hurtig indeksering og under søgeresultatet stod der på samme måde som på Google News ”xxxxx.xx for 11 minutter siden” og det fortsatte den med at skrive indtil der var gået godt 24 timer, og så forsvandt den ”label” igen ved søgeresultatet, og selve søgeresultatet dumpede ned af rangstigen igen.
Selv om Google desværre ikke umiddelbart har tænkt sig at lave Google News på dansk, så lugtede det lidt af Google News konceptet, så jeg vil da krydse fingre for at der er noget på vej, så vi ”andre” også kan deltage i nyhedsfesten med Google News som vores naboer Sverige og Norge…
Ulrik Brøndum skriver
Glemte lige at skrive at siden var bygget på WordPress, og om det har nogen sammenhæng skal jeg ikke kunne sige, men den pågældende side var den eneste jeg havde sat til under indstillinger i WordPress at pinge Google Blog Search ( http://blogsearch.google.com/ping/RPC2 ) – det kan være en tilfældighed, men ping adressen virker i hvert fald ;o)
Jens Ulrik skriver
Har bemærket det samme.
Mon ikke det har noget at sige, at Google Ads er kontekstafhængige, og at man må antage at Google ved at dit site er blevet opdateret første gang en browser henter en ny side hos dig?
Bo Tranberg skriver
Jeg kender til et større domæne skifte, og der går det vildt langsomt, i forhold til en lignende opgave for ca. 2 md siden. Så undre mig lidt over det skulle gå hurtigere nu 🙂
Mikkel deMib Svendsen skriver
Det er etablerede domæner der oplever hurtig indeksering – ikke når du opretter et nyt eller flytter et website 🙂
Mikkel deMib Svendsen skriver
> Mon ikke det har noget at sige, at Google Ads er kontekstafhængige
Nej, det er webcrawlingen er der er lynhurtig
Jens Ulrik skriver
@Mikkel: Var muligvis uklar, og desuden er det ren spekulation.. Håber ikke jeg trækker diskussionen ud af en tangent..
Kan man forestille sig at når Googles Ad-producerende system
1) véd at teksten på dit site ændrer sig fordi du har Google Ad Javscript på din side, og
2) de derfor skal revidere hvilke Google Ads der skal vises på din side,
3) at de ligeledes “puffer” til den ordinære crawler og siger “Kig lige forbi demib.dk – vi ved den er opdateret”.
Hvis Google véd at der er Google Ads på dit site, kan de tilpasse strategien for crawling og derved spare crawleren fra at besøge dit site – eller så at sige genbruge båndbredden fra Google Ad systemet. Jeg kender intet til “rør-føringen” indenfor Google, endsige det tekniske forhold mellem Google Ads og den ordinære Google søgning, men jeg kan ikke rigtig komme op med en bedre forklaring. Syntes blot det vil være tosset hvis Google ikke benytter sig af denne synergi.
Mikkel deMib Svendsen skriver
Problemet er at du blander crawling og indeksering sammen – de er to HELT forskellige ting og to helt forskellige processer!
Det er rigtigt at Google i dag til dels bruger informationerne på tværs af AdSense “fetch” og webcrawlingen – men det er noget helt andet end at blive indekseret. Og det er det faktum at de nu har fået teknik der kan pushe nye objekter ind i webindekset på under 1 minut (inklusiv dataindsamlingen – uanset om denne foregår via den ene eller den anden bot).
Iøvrigt kan du også se den hurtige indeksering på sites – typisk nyhedssites og blogs, der ikke benytter AdSense. Det er på ingen måde AdSense der trigger dette.
Teknisk set er det lidt af en præstation! Spørg bare en hviilken som helst database manager om hvor hurtigt han ville kunne opdatere et indeks med flere milliarder objekter og gøre det tilgængeligt for hele verden 🙂
Jens Ulrik skriver
Er med på forskellen på crawling og indeksering – og at folkene der formår at føre en arkitektur ud i livet, der får et indeks af den størrelse, opdateret så hurtigt, er nogle ekstremt skarpe gutter.
Selvom datamængderne slet ikke kan sammenlignes, har vi ifm. aggregeringen til Overskrift.dk, set at indekseringen først trækker ressourcerne væk under fødderne på os, hvis vi ikke aktivt styrer mængden af samtidige forespørgsler på samme index man er ved at opdatere.
Hvis man under “gammeldags” webcrawling har skullet belaste indexet med opdateringer OG desuden bruge ressourcer på at slå op i datamængderne for at se om et site har ændret sig siden sidste crawling, vil man kunne spare MANGE ressourcer, hvis den sidste del offloades. Google kunne og gør måske dette og frigør ressourcer til hurtigere indeksering ved:
1) at lade Google Ads være afgørende for om der skal foretages en crawling og indeksopdatering fra et site og/eller
2) måske endda at lade Javascriptet, som besøgende downloader i deres browser, afgøre om der er sket en ændring (f.eks. ved en MD5 sammenligning). Jeg har ikke gravet mig ned i Google AdSense’s Javascript, så det er rent gætværk.
Jeg er med på at sites ikke alene i kraft af at have AdSense tilknyttet vil se en høj opdateringsfrekvens hos Google – Som du selv angiver, graduerer Google ligeledes sites (og dermed crawlingsfrekvensen) efter mange sindrige skemaer, bl.a. hvor etablerede de er.
Den omfattende udbredelse af AdSense giver dem blot en mulighed for at offloade noget arbejde til AdSense og måske til CPU’en der driver vores besøgendes browsere, så hvorfor skulle de ikke gøre det?
Mit oprindelige indlæg var ment som et gæt på hvordan Google – tilsyneladende “ud af det blå” – kan skifte gear og pludselig indeksere vores websites meget hurtigere end tidligere.
Mikkel deMib Svendsen skriver
> Mit oprindelige indlæg var ment som et gæt
Jeps, men dit gæt er ikke rigtigt. Jeg havde netop i sidste uge et møde med ham der er chef for hele deres webcrawling 🙂
Mikkel deMib Svendsen skriver
En anden ting du skal huske er, at AdSense botten ikke respektere Robots.txt – det gør webcrawleren, og i sidste ende er netop dette afgørende for hvad der optages i webindekset 🙂
Jens Ulrik skriver
🙂 OK, jeg går ud fra at du ikke kan kan kaste særligt meget mere lys over hvorfor indekseringen tilsyneladende er accelereret så bemærkelsesværdigt, uden at bryde fortrolighed med Google.
Er bare drøn-nysgerrig, så hvis du kan svare: Er der tale om en ny måde at indeksere på, en ny strategi for crawling og/eller noget tredie?
Mikkel deMib Svendsen skriver
Nej, Google er desværre temmelig stramme med deres NDA til sådanne møder 🙂
Anders Saugstrup skriver
Har lige holdt øje med indekseringen af en ny blog på et nyt domæne for at teste hvordan det virker med en hurtige crawling.
Domæne og WP-blog var 1 uge gammel. Jeg har sat den til at pinge google som foreslået af Ulrik i en tidligere kommentar.
Resultatet af testen: Jeg poster et indlæg og ca. ½ time senere er indlægget indekseret i google. Imponerende!
Mon det er pingeriet, som gør det, er det generelt for blogs eller er det generelt for alle sider??
Mikkel deMib Svendsen skriver
Det er flot, og usædvanligt, med en SÅ hurtig indeksering af et nyt domæne. Det skyldes nok dels dit pingeri (hvilket jo giver nogle hurtige links fra kendte sites), og/eller andre links du eller andre har oprettet til det nye domæne.
Du skal dog ikke blive nervøs, hvis det om nogle dage eller uger falder lidt ned igen, for så at hæve sig langsomt til et mere permanent nivau 🙂
dennis skriver
Jeg har et spørgsmål til Googles søgeresultater. Søger man på demib, ligger dette domæne logisk nok øverst. men der er udvidede links i googles søgeresultater, hvor det virker som om at google giver særlige branddomæner disse udvidede søgeresultater (dog kun nr. 1 i søgeresultaterne).
hvad kræver det for at opnå dette?