Så ska Google definiera sanning

 
 
När våra vardagliga frågor besvaras av Googles sökresultat, och dessa styrs av popularitet snarare än vetenskap, måste den privatägda nätjätten hitta ett sätt att "ranka sanning och kvalitet". 
 
Hur gör man egentligen det? Hur programmerar man en algoritm som mäter den objektiva sanningshalten och kvalitativa verkshöjden i innehåll på nätet? Hur mjuka värden kan egentligen den artificiella intelligensen Google hitta i den stora databasen av information som är Internet?
 
Som journalist intresserar jag mig för hur världens största sökmotor ska axla det ansvar som journalister, forskare och beprövade encyklopedier tidigare hade, nämligen ansvaret som grindvakt i virrvarret av information, vilket jag bloggade om i juli förra året (Sökjättarnas spelade altruism – journalistik och marknadsföring in the time of big data).
 
Googles huvudsakliga lösning är The Knowledge Graph som lanserades 2012. Kunskapsgrafen en slags egendesignad kunskapsbas som allt innehåll på nätet jämförs med och analyseras utifrån med hjälp av semantiska sökningar. (En semantisk sökning är en sökning som inte behöver göras på ord, utan på begrepp. Söker du på "Stad i Italien" kommer Google att svara med exempel som Rom eller Florens, i stället för sidor som heter just Stad i Italien. IDG beskrev det väldigt pedagogiskt för drygt tio år sedan när begreppet var nytt, med den här bilden:)
 
 
Mängden information på nätet är nu så stor att det blir allt svårare att sålla sann, relevant information från irrelevant och falsk. Det räcker att studera söktendenserna efter Trumps valkampanj så förstår du det. Googles förmåga att servera dig så högkvalitativa svar på dina sökningar som möjligt är dock avgörande för ditt förtroende för Google som sökmotor, annars går du någon annanstans.
 
Som världens största fönster ut mot ett globalt och till synes oändligt arkiv av information – ett modernt papyrusbibliotek av Alexandria (som dock analogt brann ner) – är det Googles naturliga ansvar att kunna sålla rätt. Även som försäljare av annonsplatser och AdWords åt företag som vill nå avancerat segmenterade målgrupper med kommersiellt innehåll är det av största vikt att Google kan värdera information på rätt sätt. 
 
En otrolig uppgift!
 
Dagens sökresultatet är fortfarande en salig blandning av kommersiellt, icke-kommersiellt, vetenskapligt, personligt, privat, underhållande och granskat innehåll. Ska man lyckas verifiera information och kunna skilja på sant och falskt måste man göra det enligt någon form av strikt bedömningsmatris eller intelligent checklista. Det är just den checklistan man nu håller på att utveckla. 
 
Författaren och toppbloggaren Neil Patel beskrev The Knowledge Graph som Googles sätt att bygga "the largest warehouse of knowledge in human history – and it's doing it with your help." Notera det sistnämnda. 
 
 
"The resolution of that data is so good, we are like gods"
Grejen är att Googles faktacheck i princip görs utifrån Wikipedia. Och vad är Wikipedia? En öppen encyklopedi där vem som helst kan skriva i princip vad som helst. Nåja, det finns en redaktion och ett redaktionellt arbete, och jorden blir inte är platt bara för att 99% av internetanvändarna plötsligt säger det – men ändå. Detta problematiseras delvis i artikeln Wikipedia is basically a corporate bureaucracy, according to a new study som kritiserar Wikipedias nuvarande sätt att drivas, vilket påverkar vad som slutligen prioriteras av den fria encyklopedin. Citat nedan – observera att man här talar om skapandet av kunskap.
 
"Wikipedia is a voluntary organization dedicated to the noble goal of decentralized knowledge creation. But as the community has evolved over time, it has wandered further and further from its early egalitarian ideals, according to a new paper published in the journal Future Internet. In fact, such systems usually end up looking a lot like 20th century bureaucracies.
– The resolution of that data is so good, we are like gods. We can look at that system now, we can fast forward, we can rewind.
This makes it possible to track how complicated abstract ideas like honesty, fairness, and authority emerge and evolve in a community like Wikipedia, in much the same way financial analysts track prices and monetary flow.
– You start with a decentralized democratic system, but over time you get the emergence of a leadership class with privileged access to information and social networks. Their interests begin to diverge from the rest of the group. They no longer have the same needs and goals. So not only do they come to gain the most power within the system, but they may use it in ways that conflict with the needs of everybody else.”
 
Wikipedia är inte ett helt okomplicerat maskineri. Samtidigt är det den viktigaste byggstenen i den kunskapsbas som utgör Googles Knowledge Graph, tillsammans med Freebase, CIA World Factbook och en rad andra källor och svarsmotorer som fungerar på samma sätt som Wolfram Alpha och Watson.
 
Googles definition av sanning och kvalitet bygger därmed till stor del på gemene mans definition av sanning och kvalitet, vilket vi skulle kunna kalla för en populistisk sanning. 
 
Men om nu Googles sökresultat sätts ihop baserat på popularitet – alltså det som flest användare sökt på, läst och klickat på – borde inte hela Google bara servera virala snackisar och klickfiske?
 
 
En kamp mot eller för "folkets sanning"?
Det är just detta The Knowledge Graph ska råda bot på. The Knowledge Graph analyserar bland annat fakta, citat och utgående länkar som ger allt innehåll på nätet ett slags betyg i sanningshalt och trovärdighetsgrad. Problemet – eller ska jag skriva möjligheten? – är dock att en sajt som använder Wikipedia som referens alltså bedöms ha en hög trovärdighet. Om Wikipedia är av en sammanslagning av digitaliserade bibliotek, forskning och kunskapsbanker och allmänhetens överenskommelse om vad som är sant, ger det då en korrekt indikation om vad som är trovärdigt innehåll?
 
När du söker på något på nätet och får upp en lista med sökresultat så har Google gjort en omfattande analys av din egen sökhistorik, din geografiska plats och sättet du formulerat din fråga på, men också av vad andra med din sökhistorik har sökt på, hur sökresultatens innehåll ser ut och är strukturerat och vilka källhänvisningar innehållet använder.
 
Som jag ser det leder det till en rad problem.
 
Vad händer till exempel om man skriver om ett alldeles nytt ämne, som en ny startup, en ny teknologi, en ny upptäckt som aldrig förr beskrivits, som saknar befintlig terminologi? Vad händer när det är omöjligt för en författare att referera till andra webbsidor som enligt Google har vetenskaplig tyngd? Eller är det ett obefintligt problem?
 
Jag ställer mig själv två frågor här:
 
• Om forskning enligt vetenskaplig metod säger X, men gemene man i majoriteten av innehållet på nätet säger Y, vem vinner? Vad är sant? Båda borde finnas med och nyansera svaret i Wikipedias katalog. Finns det en dissonans mellan dessa torde det väl handla om faktaresistens. Vad göra med det, Google?
 
• All kvalitativ och kvantitativ forskning utgår ifrån olika grundläggande antaganden, så kallade paradigm. Är det överhuvudtaget vetenskapligt att formulera en hypotes helt fristående från tidigare vetenskap? Är inte alla sanningar (notera pluralis!) derivat av tidigare sanningar, det vill säga det som "hittills bedömts som mest sant"? 
 
Egentligen handlar dessa frågor om huruvida folkets sanning nu blir den vedertagna sanningen. Mest oroad är jag över vilka rasistiska och populistiska konsekvenser detta kan få. Vad händer när tillräckligt många tror att människor födda i en viss del av världen har en viss typ av personlighet, och publicerar dessa budskap överallt på nätet? När fördomar blir så vitt spridda att de blir sanningar, och får skjuts av algoritmer? När det skrivs tillräckligt ofta med tillräckligt många hänvisningar till (semigranskade) källor?
 
Drar vi det ännu längre blir det här en vetenskapsfilosofisk diskussion om realism och idealism, eller snarare om antirealism. Är (blir) världen vad vi beskriver den att vara, eller finns det en verklighet oberoende av våra observationer och beskrivningar? Finns det "väsentligt vetande" och vem bestämmer i så fall vad som är väsentligt?
 

Ta 'Google' till exempel. Googles namn kommer från "googol", en term för talet tio upphöjt till hundra (10100). Enligt Wikipedia har antalet elementarpartiklar i universum uppskattats till hundra triljoner gånger färre än en googol. Wikipedia hämtar i sin tur den här informationen från Googles beskrivning av boken Mathematics and the Imagination, först utgiven 1940. Är detta en trovärdig källa och en godtagbar sökning för mig i dag, lördag 12 februari 2017? Vad kommer det att stå här om ett år, två år, 200 år?

 
Med övermänsklig fingertoppskänsla för budskap between the lines
Kanske en dag, när Google och Wikipedia indexerat all befintlig kunskap, litteratur och forskning – när alla bibliotek och museer digitaliserats till binära data (det är redan på gång, se till exempel Google Art Projects samarbete med en rad konstmuseer) – kan Google "pinga" varenda påstående mot en vetenskaplig ram. Hur demokratiskt kan något folkvalt men kommersiellt bli? 
 
När all denna data samlar och analyserar sig själv och rent språkligt blivit så intelligent att den uppfattar nya nivåer av post-ironi, dystopisk poesi, språkbrytning eller kanske till och med prosodi/satsmelodi, kan den då agera grindvakt för faktisk realistisk sanning? Närmar vi oss då singulariteten och blir Google då en form av Gud?
 
Tills den eventuella dagen är egentligen allt bara ett arbete med att hinna ikapp att indexera befintlig vetenskap. När det är färdigt kommer det att handla om ett konstant verifierande och justerande. Jag har tidigare skrivit att sanning är förändring – det enda sanna är processen – och det tror jag fortfarande.
 
 
Den utlimata formen av co-creation – eller ett slaveri för sökmotoroptimering?
Vissa spår att SEO (sökmotoroptimering av innehåll) därför är på dekis. Som marknadsförare är det inte lönt att snacka om SEO i bemärkelsen sökordsoptimering längre. Jag vill mena att SEO visst är intressant, men att det inte längre handlar om att omarbeta excellistor av sökordskluster till läsarvänliga texter. Sökalgoritmerna är redan så pass intelligenta att de kan sålla agnarna från vetet – det kvalitativa innehållet från det medelmåttiga. Det är det algoritmuppdateringar som Panda, Penguin, Hummingbird och Pigeon syftar till och som jag har skrivit mer om på min företagsblogg.
 
Neil Patel beskriver detta väldigt bra i ett blogginlägg:
 
"As a content marketer and blogger, you have a responsibility to make the World wide web as useful as possible. How? By figuring out exactly what your topic is, who your target audience is and how to connect their searches with the right information. As long as you can do that consistently, Google will send you more traffic. When your site gets more search users, Google will be better able to extract powerful and accurate data about the users. Trust me on this: Google actually needs your web page to rank highly, maybe even more than you need to improve your search performance. That’s what helps Google continue to be the most formidable search engine in the world."
 
Är Google Gud eller monster?
 
Kanske en pojkdröm som nu förverkligas med episka proportioner.
 
Sådana var åtminstone ambitionerna, när Amit Singhal, SVP Engingeering på Google, skrev såhär på Googles officiella blogg i samband med lanseringen av kunskapsgrafen:
 
"We hope this added intelligence will give you a more complete picture of your interest, provide smarter search results, and pique your curiosity on new topics. We’re proud of our first baby step—the Knowledge Graph—which will enable us to make search more intelligent, moving us closer to the "Star Trek computer" that I've always dreamt of building."