Correlation vs Causation – Korrelation er ikke bevis for årsagssammenhæng
Korrelation (Correlation) er en af de mest almindeligt brugte metoder indenfor SEO når en årsagssammenhæng (Causation) skal bevises.
Når man f.eks. skal finde ud af hvorfor sites ranker i Google, så kan man se på alle de faktorer, som det vurderes indgår og så se på hvilke sites der ranker og samtidigt er bedst optimeret i forhold til disse faktorer. Så har man bevis for årsagssammenhæng, ik?
Nej, så enkelt er det ikke! Problemet er, at sådanne korrelations-analyser ikke beviser noget i sig selv. Der kan sagtens “bevises” en årsagssammenhæng uden at det faktisk hænger sammen med virkeligheden.
Du skal derfor tage den slags analyser med et meget stort gran salt. Det er en tilbagevendende diskusion på de fleste af de SEO-konferencer jeg kommer på. Lad mig give dig nogle eksempler …
Beviser årsagsammenhængen en korrelation her?
På billedet ovenfor kan du se et eksempel på en af klassikerne indenfor årsagssammenhæng-diskussionen. Over en periode var der faktisk et ret tæt sammenfald mellem ynglende storke og antallet af børnefødsler. Men hvad beviser det? Ja, det beviser vel, at det er storken der kommer med børnene, ik?
Det er bevist, at folk på over 70 år, der ryger, lever længere end dem der ikke ryger. Betyder det så at rygning er direkte sundt? Nej, det betyder nok bare, at dem som på trods af intensiv rygning er blevet 70 år har nogle forbandet gode overlevelsesgener – stærkere end gennemsnittet og altså også ikke-rygerne.
I de senere år har der (heldigvis) været et fald i aktive pirater – og samtidig har den globale opvarming taget til. Så færre pirater giver bedre vejr, ik?
Der er også klare beviser for, at i de perioder hvor der sælges mest is, der drukner flest mennesker. Jeg vidste det! Is er dødfarligt. Eller er det nu også det? Det kunne jo også bare være fordi, folk går mere i vandet i de samme (sommer-) perioder, som de køber flest is i.
Korrelation og årsagssammenhæng indenfor SEO
Indenfor SEO-området, og Web Analytics, bruges ligeså videnskabeligt uredelige årsagssammenhængs-analyser, som i ovenstående eksempler, desværre alt for ofte.
En af de meget aktuelle diskussioner er f.eks. hvorvidt en høj synlighed på de sociale medier som Facebook og Twitter giver bedre rankings i Google. Hvis man ser på korrelations-analyser, så er der ingen tvivl – det gør det! Når man ser på store datamænger og på tværs af brancher og sprog så er billedet helt klart, at de sites der ranker bedst også er mest synlige på netop Twitter og Facebook.
Men betyder det så, at man kan være sikker på, at det er den høje synlighed i Facebook og Twitter (mange likes, shares, mentions og links), der er (en primær) årsag til, at de sites der ranker højt gør det?
Nej, det kan man desværre ikke. Der kunne jo være en helt anden forklaring på den korrelation, som kan bevises. Måske er de websites, som er mest synlige i Facebook og Twitter simpelthen de bedste – og det er derfor de får den meget opmærksomhed. Og hvis det er de bedste websites, så har Google måske, via deres mange andre parametre fundet ud af det samme. Måske er der bare tale om et sammenfald, frem for en årsagssammenhæng. Det er svært at bevise. Korrelations-analysen beviser det i hvert fald ikke i sig selv.
Men så kan man jo lave nogle andre tests – og det er skam også blevet gjort. F.eks. kan man se på hvor mange sider Google har indekseret (og altså “læst”) fra Facebook. I skrivende stund har Google godt 5 milliarder sider indekseret fra Facebook.com. Det er ret utænkeligt, at Google ikke ser på de links der vises på disse sider, hvilke opslag der likes og deles mest – NOFOLLOW eller ej. Og da Facebook jo er et meget populært domæne – med næsten 16 millioner domæne-links (ifølge MajesticSEO fresh Index) og en Google PageRank på 9, så kan man godt være nogenlunde sikker på, at synlighed på Facebook har en vis betydning.
En anden test man kan lave – og som flere har lavet er, at lancere nogle nye sider, uden andre links, end nogle få fra f.eks. Facebook og Twitter (på hver deres sider) og så se på hvordan indeksering og ranking udvikler sig. Her viser tests, at sådanne sider bliver meget hurtigt indekseret – blot med disse sociale links (også selvom der er NOFOLLOW på), typisk samme dag, og meget ofte ranker rigtig fint.
Når de tre ovenstående analyser så ligges sammen, og peger i præcis samme retning, så begynder det at ligne noget. Jeg er personligt ret overbevist om, at en god synlighed på Facebook og Twitter betyder temmelig meget for gode rankings i dag. Google Plus er et helt andet kapitel, så det vil springe over i denne omgang.
Brug flere analyser end blot korrelation inden du drager en konklusion!
Moralen er, at du ikke blot kan læne dig op ad korrelationsanalyser, når du skal bevise en årsagssammenhæng indenfor SEO, Web Analytics (eller ret meget andet, for den sags skyld). Jeg ved godt det er fristende – jeg er nok selv kommet til det nogle gange (jeps, jeg fejler også!), men det er bare ikke videnskabeligt holdbart. Og derfor dur det ikke når du skal vurdere hvordan du bedst optimerer dine websites.
Du kan godt bruge korrelationsanalyser som en ud af flere analyser, når du skal bevise en årsagssammenhæng, men lad dem aldrig stå alene.
Thomas Rosenstand skriver
Og det kan jo ikke siges mere præcist 😉 Som med stort set alt i vores branche: Et 360 graders udsyn er nødvendigt.
Knut Nägele skriver
Fin videnskabsteoretisk forelæsning som rigtig mange journalister kunne lære noget af:-)
Mikkel deMib Svendsen skriver
Tak – ja, der er desværre mange andre end SEO’ere der kunne have gavn af at forstå statistik bare en anelse bedre – ikke mindst journalister 🙂