Det er ikke alting der er Googles skyld
Det er utroligt som jeg gang på gang bliver grebet i at måtte forsvare Google. Jeg er ellers ikke bleg for at kritisere dem, når det skal til (og det sker jo…), men jeg synes altså også godt det kan kamme over. Det skal altså være sagligt, synes jeg!
I denne uge er det så Berlingske Tidende der har dummet sig ved, at komme til at lægge en liste med navne og emailadresser på modtagere af deres nyhedsbreve ud på en webserver, som åbenbart ikke var passwordbeskyttet. Pludselig er filen med disse navne og emailadresser så indekseret i Google og så bryder helvede løs. Naturligvis.
Berlingske Tidende forsøger så, at komme med en bortforklaring om, at de skam slet ikke har gjort noget forkert – det er Google der har offentliggjort filen. What?
Det er naturligvis noget vrøvl. Og det måtte jeg da også fortælle den kære journalist fra Version2, som ringede og spurgte om det. Det blev til denne artikel.
Google hacker ikke folks websites og bryder ind! De indekserer kun materiale som er frit tilgængeligt. Og typisk finder de det kun, hvis der er nogle der linker til det – så det vil jeg med 99% sikkerhed sige, at der nok er nogle der har gjort med disse filer.
Og så misforstår Berlingske Tidende en ting, som mange har lidt svært ved at forstå: Der er forskel på crawling og indeksering!
Berlingske udtaler nemlig at de havde bedt Google om ikke at indeksere filen via robots.txt. Men sådan hænger det ikke helt sammen. Robots.txt fortæller blot søgemaskinerne at de ikke må crawle siden. Google fortolker det på den måde, at de stadig gerne må linke til den – og således have en reference til siden i deres indeks. De besøger og crawler bare ikke siden. Andre har tidligere fundet frem til at op til 30% af Googles nuværende indeks er sådanne sider, så de har fundet via andre links – men som de aldrig faktisk har besøgt.
Der er så også et andet problem med denne strategi. Hvis jeg skal finde ud af, hvilke sider på et website der er “hemmelige” så starter jeg med at se i robots.txt filen, hvilke sider de har udelukket – det gør andre også 🙂
Hvis jeg så finder en robots.txt file som denne bliver jeg nysgerrig …
User-agent: *
Disallow: /HemmeligeEmails.asp
Og hvis jeg så linker til den – ja, så finder Google den sikkert også.
Uanset hvad er det vigtigt igen, igen, igen at fastslå, at dokumenter man ikke vil have alle mulige andre skal kigge på skal man ikke lægge på en åben webserver. Helst skal man holde dem helt off-line – og hvis de endelig skal være online, så password beskyt dem! Det er ikke nok, at lægge dem et sted hvor “ingen ved det” – for du kan aldrig vide hvem der finder ud af det alligevel. Og når de gør det er det for sent.
For problemet i denne sag – og andre lignende sager er jo, at selvom de naturligvis har fjernet det nu og Googles offentlige cache er slettet, så er det umuligt at vide hvem der har kopier og hvor mange steder på Nettet det er kopieret til – manuelt eller automatisk (caching).
Det er lidt ligesom med en prut – når man først har sluppet den, er den fandens svær at trække hjem igen (selvom man godt nogle gange kunne have ønsket sig det! :))
Tommy skriver
Ja Google får skylden for meget, og ikke altid helt fortjent.
Ret skal være ret, og her var kritikken af Google ikke på sin plads.
He He ….Den med prutten var sku god Mikkel :o)
Jesper Jørgensen skriver
Hej Mikkel
Jeg er meget enig, at lægge personfølsomme data ud kun beskyttet af robots.txt eller en ide om at ingen kender url’en læner sig op ad grov uagtsomhed.
Som Oscar Gensmann skrev på version2:
Persondataloven siger:
§41
Stk. 3. Den dataansvarlige skal træffe de fornødne tekniske og organisatoriske sikkerhedsforanstaltninger mod, at oplysninger HÆNDELIGT eller ulovligt tilintetgøres, fortabes eller forringes, samt mod, at de kommer til uvedkommendes kendskab…
Her er jeg lodret uenig med Berlingske, de har IKKE sikret sig mod at disse data hændeligt kommer til uvedkommendes kendskab.
Mvh Jesper
Mikael Andersen skriver
for ikke så længe siden læste jeg på en anden blog noget omkring en journalists viden om seo – han havde vist heller ikke fået helt rigtigt fat i det. Han var fra Erhvervsbladet.
…det er så de aviser, der er så uundværlige for nettet – hvis man skal tro på vores statsminister!