SES San Jose – Duplicate Issues
På Search Engine Strategies i San Jose i sidste uge, deltog jeg som taler på en ny session om problemer med duplikat indhold på websites – duplicate issues. Problemet er helt grundlæggende, at hvis søgemaskinerne kan finde det samme, eller næsten det samme, indhold via flere forskellige adresser (URLs) så er der en risiko for at de dropper en, flere eller alle versioner af dette. Det er derfor en afgørende vigtig brik i din søgemaskinestrategi, at du har helt styr på hvor og hvordan dine tekster publiceres.
Sammen med undertegnede deltog Anne Kennedy, fra Beyond Ink, og Shari Thurow fra Grantasticdesigns med et inlæg. I den efterfælgende paneldebat/Q&A deltog derudover Matt Cutts fra Google, Tim Converse fra Yahoo og Rahul Lahiri fra Ask.com
Anne Kennedy startede med et kort overblik over hvorfor det overhovedet er et problem med duplicate content – identisk indhold. Den korte forklaring er, at det kun meget sjældent gavner søgebrugere at finde nøjagtigt de samme tekster og sider på flere forskellige sites, og derfor forsøger søgemaskinerne, naturligvis, at prioritere og filtrere deres søgeresultater, så kun de vigtigste versioner af konkrete sider og informationer medtages.
Shari Thurow fulgte efter med et lidt længere indlæg, der bl.a. gik i detaljer med hvordan søgemaskinerne forsøger at identificere sider der er næsten ens, via forskelige former for “blok-analyser” – analyser af indholds-bidderne på en side. F.eks. er der ingen pointe i at indeksere de samme produkter mange gange, med meget små varianter, som farve, størrelse osv.
Mit eget indlæg fokuserede mest på de tekniske årsager der kan være til duplicate content og hvordan disse problemer løses. Jeg havde valgt at fokusere på nogle få, ud af de uendligt mange fejl-muligheder der er, herunder hvordan problemerne opstår og løses på blogs, forums og andre dynamiske websites. Min vigtigste pointe var at DU bør håndtere problemerne selv, fremfor at overlade det til søgemaskinerne, for deres valg er næsten aldrig det du selv ville have valgt. Så, deal with it! Gør noget ved det selv.
En af de meget almindeligt forekomne problemer på dynamiske websites er, at når der anvendes “mod_rewrite” (eller tilsvarende omskrivning af URL’s) så er de gamle, u-omskrevne, adresser stadig tilgængelige. Dette kan skabe 100% identiske sider – flere forskelige URL’s til præcis de samme sider. Løsningen er, generelt set, at returnere et 301 permanent redirect fra de “ikke-officielle” URL’s til de “officielle” (omskrevne) adresser så alle, søgemaskiner og brugere, ender på de samme adresser hver gang. For blogs som WordPress (som jeg bruger her) findes der gratis plugins, som kan løse det helt automatisk.
Under den efterfølgende debat blev tingene en lille smule ophedet (dog i en munter og possitiv stemning). Det startede nok med et svar på et spørgsmål fra en deltager om hvad han skulle stille op med informationer han fik fra sin leverandør, som var identiske med dem mange andre forhandlere også får. Jeg svarede, at han f.eks. kunne forsøge sig med “word replacement” – automatisk udskiftning af ord i teksterne, så de fremstår mere originale. Hvis man er omhyggelig og opsætter tilstrækkeligt præcise regler kan det godt gøres på en ordentlig måde. Representanterne fra søgemaskinerne brokkede sig dog højlydt over mit foreslag og gjorde opmærksom på, at den slags ikke var i overensstemmelse med deres guidelines, og således kunne føre til udelukkelse af deres indeks. Sandt nok, men hvad er bedst: Ikke at blive indekseret og fundet fordi ens indhold er identisk eller at få god indeksering og masser af relevante besøg – dog med en risiko for at det ikke nødvendigvis varer evigt?
Senere i debatten spurgte en anden delatger om noget lignende, i forhold til et site til USA og en kopi af dette til det engelske marked. I den sag mente søgemaskinerne så godt at man kunne bruge word-replacement, for at udskifte USA-engelske ord med UK-engelske ord. Forvirret? Der er ikke altid 100% logik i søgemaskineoptimering 🙂
I forlængelse af denne debat fik jeg en god pointe igennem: Søgemaskinernes opgave er at skabe en god søgemaskine, og en god søgebruger-oplevelse. Min, og andre SEO’eres, opgave er at lave god og effektiv markedsføring i søgemaskiner. De to opgaver er fundamentalt set helt forskellige. Uanset om du følger alle søgemaskinernes guidelines eller ej, er vores mål forskellige. Søgemaskinerne kan i princippet være ligeglad med om din (gode virksomhed) eller min (gode virksomhed) som begge sælger det samme produkt ranker bedre end den anden. Det er søgemaskinernes opgave at levere gode resultater til brugerne (f.eks. links til dig eller mig) og det er vores opgave at konkurrere mod hinanden. Det gælder iøvrigt for meget andet end lige søgemaskiner – virksomheder konkurrerer på alle felter. Verden er ikke fair – de stærke, smarte, rige eller dygtige vinder over de mindre kompetente eller velhavende.
Alt i alt var det en rigtig god session, som jeg håber på at gentage på Search Engine Strategies i Chicago i December.
Morten Bock skriver
Hvilket plugin til WordPress bruger du til at håndtere 301 redirects?
Jeg forsøger så vidt muligt at undgå links til “forkerte” url’s, men helt undgå dem kan man jo ikke.
I øvrigt skægt med billedet efter Matt’s post: http://www.mattcutts.com/blog/seo-mistakes-matt-friendship/
😀
Mikkel deMib Svendsen skriver
Jeg bruger denne her: http://isaacschlueter.com/plugins/i-made/cannonical-url/
Marcel Fuursted skriver
Hej, Mikkel og velkommen tilbage…
Det må have været en spændende session. Håber også flere bliver klar over dublicate content problemet. Det er ihvertfald dét, med flere indgange til samme side, vi døjer mest med for vores klienter
Kim Guldberg skriver
Hej Mikkel
Håber det var en god tur, jeg håber selv engang at få tid til at deltage en en af de mange gode konferencer rund omkring i verden, Suk!!!
Et enkelt spørgsmål i dublicates content sammenhængen.
Hvordan sikre søgemaskinerne sig mod at man f.eks. “dublicate contenter” sine konkurrenter out of business. Hvis jeg f.eks. ønsker at udkonkurrere demib.dk kunne jeg f.eks. registrere domænet dimeb.dk og fylde det op med samme indhold som dit site. herefter cloacker jeg så det kun er google der ser det dublicatede indhold og du og andre menneskebrugere ser noget harmløst indhold.
Risikerer du og f.eks. google ikke at dit site straffes uretmæssigt
Mikkel deMib Svendsen skriver
Resultatet af en sådan kopiering vil være to ting (for mit vedkommende):
1) Jeg vil ved hjælp af Googles DMCA formular få dit website slettet af Google
2) Du vil få et brev fra min adbvokat med en kæmpe regning
Kort sagt – det kan IKKE betale sig 🙂
Kim Guldberg skriver
Under forudsætning at at du opdagede det (du ville måske nok, men hvad med gennemsnits webmasteren) og under forudsætning af at du kan finde mig og jeg ikke er rigistrert på en eller anden snusket russisk server
Mikkel deMib Svendsen skriver
Det er fuldkommen ligegyldigt hvor din server står. Hvis du registrere et .dk domæne, som i dit eksempel, kan jeg få kontaktinformationerne fra DK-hostmaster hvis du begår ulovligheder. Uanset om du er beskyttet i CVR registret.
Det er også ligegyldigt hvilket domæne der er tale om, hvem du er eller hvor du bor for at få gennemført en klage og fjernelse under DMCA.
Kim Guldberg skriver
Det har du altsammen ret i, Det der er min bekymring er dem der går efter almindelige firmaer hvor ejeren ikke ved meget om søgemaskiner eller domæneregistrering. I seo branchen er der jo, som i alle andre brancher, brodne kar der ikke spiller rent. Lige som du har svært med at kontrollerer hvem der linker til dit site, vil du også have svært ved at kontrollerer hvem der stjæler dit indhold, især hvis de skjulerdet bag cloaking det tror jeg den almindelige siteejer vil have svært ved at opdage og han har måske ikke råd til at hyre dig eller mig til at hjælpe ham, Han tænker måske slet ikke på det og opdager kun at hans salg er dalende
Mikkel deMib Svendsen skriver
problemet med at mange websiteejere ikke forstår hvordan Nettet fungerer rammer mange andre områder – meget mere end kopiering og duplicate content problemer. F.eks. er de fleste sites (danske som udenlandske) piv-åbne for hacker-angreb. Det synes jeg er et meget værre problem 🙂
Riisager skriver
Hej Mikkel
Velkommen hjem
Kim har måske en meget god point her, det har normalt været sådan at man ikke kan blive straffet i Google hvis det der er gjort for at “optimere” kunne være gjort af en konkurrent. (eks. link fra beskidte sider)
I dette tilfælde ser det ud til at jeg ved at oprette “duplicates content” kan skade mine konkurrenter (eller de kunne skade mig).
Kan det virkelig være rigtigt?
/Riisager
Mikkel deMib Svendsen skriver
Der har altid været måder, hvorpå man kunne skade andres synlighed i søgemaskinerne, men der er en hel del forskelige risici forbundet med dette, så det er absolut ikke noget jeg anbefaler at man eksperimenterer med … normalt 🙂
pind skriver
Hej.
Jeg har et lignende problem. Min hjemmeside hedder fx domæne.dk. Da den er bygget med Joomla (et cms system), vil jeg fx kunne have et link i menuen der hedder startsiden. Dette link kommer ikke til at hedde domæne.dk, men bliver af systemet navngivet til fx. domæne.dk/index.php?option=com_content&task=view&id=1&Itemid=2.
Samme indhold på begge url adresser. Vil dette også være et problem? Det skal nævnes, at der ikke er lavet url rewrite.
Og kan man lave en 301 redirect internt?
pind skriver
Og hvad med forskellen på at bruge http://www. eller kun http://? Giver det også problemer?
Mikkel deMib Svendsen skriver
Det første er et problem. Du bør lave en struktur hvor der kun er en adrese til hver unikke side. Det næste er ikke noget problem, som sådan. Men jeg nbefaler at du redirecter ww eller non-www versionen tilo den anden, så alle ender på samme version af dine sider, o dermed også naturligt vil linke til samme version