Kan man stole på Alexa data?
Mange folk har på det sidste spurgt mig om, hvor meget man kan stole på data fra Alexa.com. I går havde Matt Cutts fra Google et udenmærket indlæg på hans blog, der med al tydelighed viser, hvordan nogle tal i hvert fald ikke er helt til at stole på. Så lad os se lidt nærmere på det …
Alexa indsamler deres data via deres toolbar, som er installeret på millioner af computere verden over. Alle og enhver kan downloade denne toolbar, og der er således ingen særlig kontrol med at den demografiske fordeling mellem køn, lande, sprog og interesser er bare nogenlunde ligeligt fordelt. Det er naturligvis et helt grundlæggende problem med Alexa.
Til gengæld er deres datamænger, i forhold til de fleste mere traditionelle målemetoder, så enormt stort, at når vi når op i toppen vil jeg mene at de data vi får er brugbare.
Det er sådan set meget enkelt. Jo højere rank du har på Alexa jo større datamænngde indgår som grundlag. Websites med en alexarank på under 100-200.000 har et så tyndt datagrundlag at jeg ikke mener man kan bruge det til så meget. I den anden ende, vil jeg mene, at sites der kommer op over top 1000 i reglen vil være dækket af så meget data at det er rimelig korrekt. Der er dog undtagelser – somden Matt fremhævede i sit indlæg ovenfor.
En af de største skævvridninger jeg kan konstatere er, at der er mange flere webmastere der har Alexa’s toolbar installeret end ikke-webmastere. Det betyder at websites som Matt Cutts og de mange SEO- og webmasterdebatter i reglen får et “ufortjent” boost i Alexa-statistikerne. Både Marketleap, som jeg tidligere arbejdede for i USA, og WebmasterWorld har således været oppe og vende over Alexa top 1000 rank og så meget traffik tror jeg altså ikke af nogen af dem har.
Allan Sørensen skriver
Lige en kort bemærkning om det statistiske grundlag i Alexa.com: Hvis en dataindsamling er skæv, så kan et stort antal observationer ikke rette op på denne fejl.
Det vil sige, at hvis brugerne af Alexa.com ikke udgør et repræsentativt udsnit af befolkningen (internetbrugerne), men der er forholdsvis flere webmastere, mænd, IT-nørder el. lign., så er det underordnet, om der så er 1 mia. observationer. Data vil stadig være forkert (biased).
I den statistiske litteratur omtales dette forhold ofte som “The garbage rule: Garbage in – garbage out” 🙂
Mikkel deMib Svendsen skriver
Alle undersøgelsesmetoder har sine svagheder – BESTEMT også de der følger alle videnskablige foreskrifter – se bare på såvel Gallup som panelmålingerne herhjemme. Meget ofte er de helt ude i hampen, små sites forsvinder helt (i specielt panelerne) osv.
Jeg mener ikke det er korrekt at kalde Alexa’s data for “garbage” – ja, der er en skævvridning af demografien, men det er der bestemt også i de andre undersøgelser vi kender. Panelerne lider f.eks. under at ingen af de yderligtgående marginalgrupper er med, og Gallup, ja det lider jo af, at det kun er medlemmer der måles samt det faktum at super-linux-nørderne (som mange gange har JavaScript slået fra) slet ikke måles i sådanne systsmer. Så omend man kan argumentere for at Alexa har en nørd-skrævvridning har Gallup mulligvis det modsatte.
Der hvor jeg synes Alexa er stærkest er på sammenligningerne – her giver den store datamængde en stor fordel, og sammenlignes to sites indenfor samme målgruppe, så er skævvridningsfaktoren jo den samme. Alexa er også super fedt til at se hvilke dele af et website, der er mest besøg på (såfremt der bruges subdomains – som f.eks. på Jubii). jeg har tit moret mig over at drille sælgere fra portalerne, når de siger at de har så og så mange søgninger, og så sammenholde det med de officielle, overordnede tal, fra Gallup og så fordelingen fra Alexa. Sidste gang var de en (sikkert ret ny) sælger fra Jubii der, når man regnede hans tal efter, faktisk påpstod at ca 70% af Jubii’s traffik var søgninger – og det er i hvert fald MEGET langt fra de 20% som Alexa normalt rapporterer