Søgemaskiner – før, nu og i fremtiden
På SMX konferencen i Santa Clara i sidste uge var der på andendagen en spændende keynote tale af Louis Monier, der bl.a. var en af hovedarkitekterne bag AltaVista – der, som du sikkert ved, var den første rigtig store og dominerende søgemaskine i verden. Titlen for talen var “Past, present and future og search” – “Søgemaskiner – før, nu og i fremtiden”.
Det var en virkelig insigtsfuld og spændende tale. Louis Monier har et fantastisk godt overblik over søgemaskinernes historie og udvikling og hvilke elementer der spiller ind på en fremtidig udvikling.
Der bliver alt for tit fokuseret på et enkelt element – som nu de meget moderne “sociale søgemaskiner”, som Mahalo og Wikia, frem for helheden – det der samlet set skaber den søgemaskine som flest vil bruge.
Louis Monier nævnte også den evige snak om vertikale søgemaskiner – altså søgemaskiner, der fokuserer på et enkelt udsnit af nettet. Den snak har stået på ligeså længe jeg kan huske. Det kunne være en søgemaskine om dansk politik, heste, eller elektronik. Teoretisk set er det meget lettere at lave en god søgemaskine indenfor et afgrænset domæne, men i praksis viser det sig både at være svært at forstå det lukkede domæne isoleret set, hvis man ikke kender til resten af verden (helt uden for kontekst), og dels er jeg helt enig med Louis Moniers vurdering af, at folk altså ikke gider at skulle huske på 1000 forskellige vertikale søgemaskiner speciliceret til alt muligt forskelligt. De vil bare have en, eller et par, gode søgemaskiner, der dur til det hele.
Meget overordnet set kan man inddele søgemaskinernes udfordringer i to kasser:
- Opbygningen af data – indsamling, indeksering og rankeringaf det som der faktisk kan søges i
- Tilgang til data – altså den måde som man kan søge i det på og få det præsenteret
Fremtidens perfekte søgemaskine skal løse udfordringer i begge kasser. Det er ikke nok, at løse blot et enkelt underpunkt i en af kasserne og så tro at det giver den perfekte søgemaskine!
Louis Monier var inde på, at den perfekte søgemaskine bør have al information tilgængelig. Dte har søgemaskiner i dag langt fra. Meget langt fra. Hver af de store søgemaskiner dækker en, til en vis grad, overlappende del af nettet – men langt fra det hele, hver især og til sammen.
Men det som Louis Monier ikke snakkede så meget om er, hvad “et hele” er? Det er lidt ligesom at sende en romsonde ud og lede efter liv – det er svært, for vi ved ikke hvad liv er. Vi ved heller ikke hvor mange informationer der på nettet. Det kan man så prøve at finde ud af det bl.a. ved at crawle nettet som søgemaskinerne gør, men hvordan finder man ud af hvor meget man ikke får øje på gennem denne crawling? Hvordan kan man vide hvor meget man ikke finder? Det er umuligt at sige med sikkerhed. Og således er det også i praksis umuligt at komme med andet end et kvalificeret gæt på, hvor mange informationer der findes på nettet – og i hvilken grad søgemaskinerne så dækker det fuldt ud, som er det ultimative mål.
Og så kommer vi til hele filtreringen af data. For vi kan sikkert hurtigt blive enige om at helt identisk data ikke skal medtages. Og dog, for hvad med f.eks. en Reuters artikel der bringes i 10 aviser online. De er jo som udgangspuntk ens. Men konteksten er helt forskellig, og da mange af aviserne i dag tilader brugerkommentarer, vil disse også udvikle sig helt unikt. Så der kan sagtens være identisk indhold, som er værd at have med. Det er slet ikke så enkelt.
“Spam” – forstået som uønsket manipulerende materiale, er der vel dybest set heller ingen grund til at have med. Men hvor går grænsen helt nøjagtigt mellem information, reklame, manipulation og løgn? Det er svært at afgøre 100% faktuelt og algoritmisk defineret. Og særligt når alle brancher, alle sprog og alle kulturer skal tages med i betragtning.
Hele forestillingen om, at mennesker altid kan gøre tingene bedre end maskiner er noget vrøvl, synes jeg. Og det er det som ligger til grund for de sociale søgemaskiner. Mennesker kan være et godt bidrag, men for at skalere tingene tilstrækkeligt må maskinerne også bruges. Og mennesker kan bestemt også snydes – se bare aviserne hver dag 🙂
Den anden kasse – måden man tilgår den data der nu engang er, er også et vigtigt område. Herunder er personificering en af de ting der har været snakket rigtig meget om de sidste par år – og som i lang tid har spøgt som et “missing link” i search. Denne ultimate brik (argh, endnu en …!)
Der er bestemt en masse gode ting at hente ved personificering, men det giver også en række problemer. Som med al anden “scoped search” (søgning indenfor et begrænset domæne eller filtreret på en særlig måde, som med personificering) er der en fare for, at folk ikke finde de de leder efter, når de bevæger sig udover det de plejer at gøre. For sådan en som mig, der springer rundt i øst og vest og kiger på alverdens ting, kan en alt for stærk personificering godt blive mere begrænsende end udfoldende. Så personificering er heller ikke, i sig selv, en magisk løsning på alle søgeudfordringerne. Men det er uden tvivl endnu et af de elementer vi kommer til at se og høre mere til i de kommende år. I den rigtige blanding og i de rigtige situationer kan det uden tvivl være godt.
Jeg synes Louis Monier underspillede mulighederne for andre tekniske tilgange til søgemaskiner – som f.eks. audio baseret søgning, visuel baseret søgning, natursproglig søgning eller søgning baseret på emotionelle sensorer. Specielt synes jeg natursproglig søgning er langt fremme.
Louis Monier gjorde lidt grin med natursproglig søgning ved at fremvise et eksempel på en alenlang tekst om en eller anden der ville finde noget bestemt. Sådan gider folk ikke skrive i en søgeboks, pointerede Louis Monier – og jeg giver ham ret. Men talegenkendelse og kunstig tale er lige om hjørnet. Det sidste fungerer faktisk allerede helt godt. Talegenkendelsen er også i rivende udvikling. Det er her snart.
Og når først folk kan tale med deres maskiner, så bliver natursproglig søgning et vigtigt element. For vi snakker natursprogligt – de fleste af os skriver ikke natursprogligt. Det skriver vi alt for langsomt til 🙂
Men også andre teknologier er spændende – omend de muligvis ligger lidt længere ude i fremtiden … og dog. Der findes allerede nu tknologier der påstås at kunne måle hvordan føler i en given situation – f.eks. når de ser på et produkt eller en reklame. Hvis sådanne sensorer blev koblet på vores søgninger, så ville eller simple generiske søgninger som “sex” lige pludselig få en meget mere præcis betydning – og så ville søgemaskinerne kunne levere mere korrekte resultater til den enkelte.
Men der går jo som sagt nok nogle år, inden vi ser den slags på markedet i større stil. En ting ligger dog fast, som Louis Monier også understregede: Søgemaskiner er ikke engang nået teenage-årene endnu. Der kommer til at ske rigtig meget inden de bliver rigtig voksne.
Niklas Stephenson skriver
Super spændene blogindlæg. Dejligt at høre lidt om hvad dem der ved noget om emnet tror fremtiden vil bringe!
Puha hvis google begynder at læse mine tanker tror jeg hurtigt de blokere min ip!
Søren Sprogø skriver
Niklas: Hvad mener du med _begynder_? 😛
Simon skriver
Hejsa. Jeg ville lige kommentere mht diskussionen om man “skriver som man taler” (det du kalder natursproglig). Hvis vi skrev som vi taler vil vi ofte ende med at være meget indforstået. Det er i hvert fald hvad min professor på universitetet fortalte mig. Der kan også opstå forviring ved at skrive som vi snakker, da det skriftlige sprog på mange måder kan betragtes som et andet sprog. Man kan altså sige at det danske sprog i sin tale er et andet sprog end det danske sprog vi skriver.
Ellers en meget interessant artikel. Jeg er personlig meget spændt på om internettet ender med at blive som second life. I second life er ens søgning både “gammeldags” (skriftlig søgeords model) men også visuel (du kan gå rundt i et område eks. en butik), hvor man er i stand til at “shoppe” ved at se forskellige grafiske modeller af varen. Jeg syntes helt bestemt at disse visuelle søgninger er værd at holde øje med i fremtiden.
Ok jeg må nok hellere stoppe her, inden min kommentar ender med at blive en artikel i sig selv.
Mikkel deMib Svendsen skriver
Jeg skriver NETOP at man ikke skriver som man taler. Det er det der er pinten.
Men iøvrigt er der fortsat forskel på det (natursprog) vi bruger når vi skriver, når vi tyaler og så de enkeltstående nøgleord eller keywords som de fleste bruger når de søger i dag – fordi det er det søgemaskinerne forstår. De har stadig meget svært ved søgninger som “who is The Who?”
Morten Blaabjerg skriver
Tak for interessant læsning! Jeg foretrækker at tale om “synlighed” og “synliggørelse” fremfor Search og SEO, fordi jeg mener at Search og SEO blot er een mulighed ud af mange for at synlig- og tilgængeliggøre informationer på nettet.
Search har den kæmpe ulempe, at nogen aktivt skal søge efter information, og for at gøre dette, have en bevidst viden om det eftersøgte i forvejen. Vi kan tænke os mange sammenhænge, hvor det ikke er tilfældet for kommunikationen, og hvor det er forbasket vanskeligt enten at give en søgende den nødvendige forhåndsviden, eller at gætte hvilke nøgleord f.eks. en potentiel kunde vil benytte. Der er selvfølgelig en kæmpe industri der er udviklet omkring dette, men det er stadig gætteri, og det er der utrolig meget af i SEO. For slet ikke at tale om synliggørelse, tilgængeliggørelse og forståelse af selve “search”-funktionaliteten. M.a.o. kræver search en forbasket kvalificeret søgende, for at lette kvaliteten af kommunikationen.
Jeg har skrevet et par indlæg på vores Kaplak blog om een af de store udfordringer for search, nemlig den nærmest eksponentielt eksplosive tilvækst af ny information på nettet. :
http://www.kaplak.com/?blog,11
http://www.kaplak.com/?blog,14
Det skærper det vi kalder for “mainstream-problemet”, dvs. det at der kun er plads til et begrænset antal “top” søgeresultater, uanset hvilke nøgleord du søger efter. Dvs. søger du f.eks. efter en “britney” vil de søgeresultater du præsenteres for på de første par sider alt andet lige bære rigtig meget præg af “britney spears” pga. PageRank, selvom det ikke er information om hende du leder efter. Det problem bliver kun større ved tilvæksten af information.
Jeg er meget spændt på hvordan Google m.fl. forholder sig til de udfordringer. Deres Google Custom Search, som du tidl. har omtalt, er fantastisk interessant, men jeg tror det kræver for store forkundskaber til at det bliver meget udbredt.
Googles bedste produkt er deres AdWords og AdSense, der skaber synliggørelse (og salg) i lokale webmiljøer. Amazon har på dette område så meget fat i den lange ende, at de nærmest ikke selv er helt klar over det, tror jeg. F.eks. den måde du lokalt kan sælge Amazons produkter, f.eks. de bøger du synes er fede, og opnå op til 10% af omsætningen. Det skaber synliggørelse af produkter/informationer, og det giver de lokale miljøer magten, ved bedre indtægtsgrundlag og dermed hjælp til at filtrere mængderne af information. Search er rigtig godt i kombination med de her ting, men jeg har svært ved at se Search være rigtig anvendeligt hvis hvert eneste søgeresultat domineres af forstyrrende mainstream-fjams.
Mikkel deMib Svendsen skriver
Jeg er ikke særlig enig med dig i forhold til udfordringerne og måden det gribes an på.
> Search har den kæmpe ulempe, at nogen aktivt skal søge efter information, og for at gøre dette
Nej, det er ikke en ulæmpe, det er selve grundlaget for en søgemaskine. Der søges og der findes. Det er ikke et problem i sig selv.
> men det er stadig gætteri, og det er der utrolig meget af i SEO
Nej, det er altså heller ikke korrekt. Det meste er baseret på omhyggelige analyser af markederne og brugerne. Det er der sgu ikke meget gætteri i, hvis man gør det ordentligt. Det samme gælder SEO. Ingen af de professionelle folk jeg kender gætter sig til ret meget – vi researcher, læser og tester os frem til den viden vi så bruger i forhold til kunderne.
> det at der kun er plads til et begrænset antal “top” søgeresultater
Det er en ældgammel teori, som ikke holder vand. Slet ikke i dag, hvor folk udvikler og specificerer deres søgninger i ekstrem grad.
Så, Google og de andre store søgemaskiner behøver ikke at skulle forholde sig til de problemer du nævner – for det er som sagt slet ikke der udfordringen ligger 🙂
Morten Blaabjerg skriver
Sætter skam også pris på et divergerende synspunkt. Men vi taler altså om en meget stor tilvækst af information over de næste 5-10 år, som jeg synes du kommer meget let om ved at afvise med et skuldertræk.
Kunne godt tænke mig lidt uddybning af den her :
>Slet ikke i dag, hvor folk udvikler og specificerer deres søgninger i ekstrem grad.
Hvor ved du det fra? Har du nogen dokumentation, så er jeg meget nysgerrig. De fleste jeg kender bruger kun alm keywords og der er søgninger bare blevet dårligere og dårligere. Er det ikke kun SEO’s og tech-savvy folk, der kender til de der søgemetoder?
Hvis search var en fantastisk metode til synliggørelse, hvorfor så bruge overhovedet bruge AdWords/AdSense, hvis fornemste fordel er at de kan trænge ind til de websites, som folk bruger til daglig?
Mikkel deMib Svendsen skriver
> hvorfor så bruge overhovedet bruge
Fordi at den ene metode ikke udelukker den anden. Det er åndssgt kun at satse på en form for markedsføring, og en kanal – man skal naturligvis vælge alle de kanaler der skaber profit.
> Hvor ved du det fra?
De store søgemaskiner har uafhængigt af hindanden rapporteret om op til 50% nye søgninger hver måned. Dertil kommer mine egne erfaringer fra mange meget store sites med hundredetusinder af forskellige søgninger hver måned – hver. Data er uomtvisteligt.
Morten Blaabjerg skriver
> De store søgemaskiner har uafhængigt af hindanden rapporteret om op til 50% nye
> søgninger hver måned. …
Først – det er ikke for at kværulere – det er fordi jeg oprigtigt er interesseret i din erfaring og dine kilder 🙂
Med søgning som den dominerende metode til at finde/filtrere information idag, og tilvæksten af internetbrugere verden over er det ikke overraskende at der er en stor tilvækst af søgninger, og at der også er så stor en andel nye/forskellige søgninger. Jeg bruger selv search intensivt, dagligt, og har gjort det i årevis. Det jeg fisker efter er hvordan du vurderer, at søgningerne rent faktisk også mødes med et anvendeligt resultat. Altså, hvor effektivt er “search” til at levere en efterspurgt vare/information. Kender du til nogle undersøgelser af dette?
> vi researcher, læser og tester os frem til den viden vi så bruger i forhold til kunderne.
Det var ikke min mening at antyde at du eller andre SEO folk ikke er proffer. Men det ændrer ikke en tøddel ved gætteriet i det, det er stadig folks søgninger du/i prøver at regne ud. Det er blot endog meget kvalificeret gætteri.
Du og dine professionelle SEO kolleger og den type arbejde du/i udfører er desuden dyrt betalt. Analyser er dyre. SEO er dyrt, hvis det skal være godt.
For en meget stor og voksende gruppe af internetbrugere og websiteejere kan det være næsten umuligt at gætte hvad en potentiel kunde søger efter for at finde virksomheden, websitet og produktet, som kunden måske ikke aner findes. Og Google annoncerne, som er det indtil videre bedste produkt til en løsning af problemet, kan være dyre, hvis der skal annonceres på mange keywords og lokaliteter.
Min erfaring og mine studier fortæller mig at “mainstream problemet” faktisk er et meget stort problem, da search ikke er specielt præcist. Jeg foretager nichesøgninger hele tiden, og ofte skal jeg trawle 3-4 siders mainstream lort og gejl igennem før jeg kommer til noget interessant, der passer til min forespørgsel. Hvis “søgeren” skal bladre den ene side efter den anden igennem for at finde noget der stemmer, koster det hurtigt dyrt – heller ikke nogen fordel for de smalle produkttyper og mindre producenter f.eks. Det skyldes dårlig SEO, selvfølgelig, som de små sites ikke udfører eller har ressourcer til at finde ud af hvordan man gør. Men også at search fungerer dårligere, efterhånden som informationsmængden vokser, og kriterierne for at filtrere bliver mere diffuse/nuancerede, og hvor ekspertisen findes lokalt (søgeren selv).
Når der finder en tilvækst sted på mellem 2 og 5 mio. nye websites hver måned overrasker det mig ikke, at søgeresultaterne bliver dårligere i fht. disse typer forespørgsler. Tallene er iflg. Netcraft Server Surveys – fra nov til dec 2007 var tallet 5,4 mio. nye sites globalt.
Der er god grund til at stille spørgsmålstegn ved om vi overhovedet skal bruge Search som metode til at finde information, i fremtiden – jvnfr. din overskrift.
Det tror jeg vi fortsat skal, i et eller andet omfang. Men vi har alle mulige andre metoder til at finde og tilgængeliggøre information, som i mange tilfælde er bedre, AdSense, Wikipedia, del.icio.us, Reddit, Digg, hele blog-systemet osv. osv.
Mikkel deMib Svendsen skriver
Jeg er helt på linie med Lous Monier, og er 100% sikker på, at algoritmisk søgning vil fortsætte med at være dominerende. Manuel databehandling, som med f.eks. de sociale tjenester, lider ganske enkelt af alt for mange skalerings og kvalitetssikrings-problemer til at kunne klare den brede konkurrence på lang sigt. Kun maskiner kan skaleres i det nødvendige omfang og med en fortsat central kvalitetsstyring.
Det betyder ikke at der ikke vil eksistere masser af alternativer, som nogle så bedre vil kunne lide. Og man kan også sagtens leve af at være en lille spiller. Man regner således med at det i dag er ca. 1 milliard dollars om året værd, at have blot 1% af den globale søgetrafik! Og der er intet der tyder på, at værdien er faldende.
> næsten umuligt at gætte hvad en potentiel kunde søger efter
Jeg har arbejdet i nogle af de brancher, hvor man skulle tro det var mest umuligt – f.eks. indenfor antivirus, hvor helt nye navne dukker op – nye ord, som aldrig før har eksisteret. Da “Sasser” ormeen dukkede op havde Google 17 resultater på den søgning, og ingenting der handlede om ormen. Få timer efter havde de 33.000 sider – min side var med blandt dem, og dermed sikrede jeg det firma jeg arbejde for en fantastisk masse besøg. Og det var bare ET eksempel – den og lignende manøvre lavede vi flere hundrede gange om året, både organisk og via AdWords.
Det handler om at være kreativ, professionel og ekstrem dynamisk, så er der såmænd ikke så meget mere gætteri eller mystik i SEO end der er i så meget andet marketing.
Morten Blaabjerg skriver
Tak for meningsudvekslingen 🙂 Jeg har omtalt og kommenteret diskussionen og dit sidste indlæg på vores blog : http://www.kaplak.com/?blog,30
Jesper Jørgensen skriver
Hej Morten
Har lige læst dine to artikler, og må beklage at jeg ikke finder nogen nyttig information i dem. Fint at du har læst The Long Tail, identificeret Mainstream effekten osv. Men dine konklusioner er i skoven. Ja, det er da rigtigt at når der hele tiden kommer millionvis af hjemmesider til, bliver sandsynligheden for at man finder en given side mindre og mindre. Du formår bare ikke at stille et troværdigt alternativ op. Wikipedia, Digg og hvad du ellers hiver frem er da ikke et dyt bedre til at finde information frem og vil i samme omfang lide af Mainstream effekten. Wikipedia har sin egen søgefunktion, hvilket giver de samme udfordringer som en crawler som Google.
Du nævner selv et eksempel hvor man skal finde “Britney”, og ikke har anden viden om hende at hun ikke hedder Spears til efternavn. Hvordan er det lige du vil finde denne Britney med Wikipedia, Digg eller delicious? Faktum er at der ikke er noget troværdigt alternativ til de algoritmiske søgemaskiner.
Jesper
dennis skriver
Hej.
Jeg har lagt mærke til at du ikke bruger links til social bookmarkings på bloggen, fx facebook. Er det ikke værd at benytte disse teknikker i markedsføringen af en blog (eller giver det for lidt trafik)?
Jeg er blot nysgerrig i forhold til min egen blog…:)