Annons
X
Annons
X

Nyordning

Prydliga grafer över vanor, värderingar och tidsanda. Med hjälp av fem miljoner inskannade böcker gör Googles nya verktyg statistik av historien. Frågan är om det är starten på en revolution för humaniora eller bara en vilseledande leksak.

(uppdaterad)

GOOGLES NYA TJÄNST AVSLÖJAR VÄRDERINGAR OCH TIDSANDA

Lyckan i världen var som störst år 1824. Med undantag för små uppsving kring sekelskiftet och på 20-talet minskade den sedan konstant, tills nyligen. Runt millennieskiftet vände det. Nu pekar kurvan uppåt. Mänskligheten går tack och lov åter mot en lyckligare värld.

Jag får denna information i form av ett exakt linjediagram på min skärm. I Googles graf över ordet ”happiness” kan man tydligt följa lyckans omfattning de senaste 500 åren. Så tycks det i alla fall.

Tjänsten heter Google Ngram Viewer. En webbsida med en sökruta, två fält för att ange årtal och en knapp med texten ”search lots of books”. Det är en första antydan om vilken potential som finns i den amerikanska informationsjättens plan att digitalisera litteraturhistorien.

Annons
X

Ngram Viewer bygger på en databas med böcker på engelska, kinesiska, spanska, franska, tyska, ryska och hebreiska. Totalt innehåller den mer än fem miljoner böcker. Drygt 4 procent av alla som någonsin tryckts.

Vad sajten visar är hur ofta olika ord och fraser har använts i dessa böcker från 1500 till 2008. Ngram Viewer räknar orden, sorterar dem efter år och skapar grafik. Genom kurvorna kan man ana konturerna av historien.

Sökningar på ord som ”sword”, ”factory” och ”laptop” ger antydningar om olika tider. Svärdet nämns oftast i mitten av 1600-talet, fabriken är som mest omskriven mellan 1915 och 1960, medan den bärbara datorn når sin topp 2006. När man söker på ”war” får man en kurva med två stora kullar, en runt 1920 och en tidigt 40-tal.

Stäng

KULTURCHEFENS NYHETSBREV – veckans viktigaste kulturtexter direkt i mejlkorgen

    Anmäl dig här kundservice.svd.se

    Än mer kittlande är det att skriva in ord associerade med värderingar. Jag konstaterar att vetenskapen i 200 års tid har fått allt fler omnämningar. Under samma tid har religionen fått färre. Feminismen har sedan 80-talet spurtat om både konservatismen och liberalismen.

    Jag hittar även ett samband mellan å ena sidan ”hippie” och ”marijuana” – båda dyker upp på 60-talet och är som störst tidigt 70-tal å andra sidan ”yuppie” och ”cocaine”, vars synkade storhetstid är 80- och 90-tal.

    Svenska Akademiens ständige sekreterare Peter Englund skrev nyligen i ett blogginlägg att Ngram Viewer är hans nya besatthet. Enligt Peter Englund är Googletjänsten ”fullkomligt oemotståndlig, om man alls är intresserad av det mänskliga medvetandets historia”.

    Den som testar sajten förstår vad han menar. Ngram Viewer är inte bara rolig, utan i princip omöjlig att slita sig ifrån. Sajten fungerar rentav som sällskapslek: vilket ord vinner – kärlek eller hat, krig eller fred?

    Men vissa anser att Ngram Viewer är starten på något betydligt större än så.

    –Jag vill inte överdriva genom att kalla det vi gör revolutionerande. Men det är ett väldigt nytt perspektiv, säger forskarassistenten Jean-Baptiste Michel.

    Hans kollega Erez Lieberman Aiden hummar instämmande i luren. De leder en forskargrupp vid Harvarduniversitetet som nyligen presenterade sina rön i tidskriften Science.

    De menar att de bedriver en ny sorts humanistisk forskning – kvantitativa studier av stora mängder data från historisk, inscannad litteratur. Enklare förklarat: de gör analyser utifrån innehållet i böcker, utan att faktiskt läsa böckerna.

    –Idag bygger humaniora på att man går till förstahandskällor och läser noggrant. Men tillgången till data skapar helt nya sätt att studera vad som händer i kulturen, säger Erez Lieberman Aiden.

    Han kallar det för ”culturomics”, kulturomik. Namnet är en blinkning till genomik, studien av en organisms DNA. Erez Lieberman Aiden menar att man kan dra slutsatser om en kultur – spåra idéer, händelser och strömningar – genom att granska dess minsta beståndsdelar, som ord och fraser.

    Forskargruppen har arbetat med en samling data, totalt 500 miljarder ord, som sägs vara den största i den humanistiska forskningens historia. Denna har de fått från den enda aktör som har tillgång till sådant: Google.

    Det är svårt att hitta en skarpare kurva i Ngram Viewer än den för ordet ”Google”. Fram till för tio år sedan ligger linjen praktiskt taget på noll. Därefter går den spikrakt uppåt.

    Kalifornienföretaget har sedan starten 1998 etablerat sig som världens dominerande internetaktör. I dag låter många av oss Google administrera våra webbsökningar, vår e-post, vår kalender, våra dokument och vårt bloggande. Genom tjänster som Google Earth, Google Maps och Google History kartläggs allt från planetens geografi till vårt privata surfande.

    Googles uttalade mål är att göra all tänkbar information tillgänglig och sökbar. Till denna information räknas också vår kulturskatt.

    I februari lanserades Google Art Project, en webbtjänst där besökaren kan se konst från institutioner som Tate Britain i London och Museum of Modern Art i New York. Tanken är att tillgängliggöra verken för alla som inte har möjlighet att se dem på plats. Den stora kultursatsningen är dock Google Books – projektet där Google scannar in all världens böcker.

    Idén är inte okontroversiell. Google har hamnat i upphovsrättsliga strider och beskyllts för att skaffa sig ett monopol på kulturarvet. I mars ogiltigförklarade en domstol i New York den överenskommelse som bolaget nått med förlagsbranschen. Nu måste avtalet omförhandlas. I veckan lämnade dessutom tre franska förlag in en stämningsansökan där Google krävs på 88 miljarder kronor för att ha tillgängliggjort böcker utan lov.

    Målet med Google Books brukar sägas vara att skapa det slutgiltiga, digitala biblioteket där vilken bok som helst finns tillgänglig när som helst. Forskarna på Harvard synliggör ett annat användningsområde: världens största forskningsunderlag för humaniora.

    Erez Lieberman Aiden berättar att den bokdatabas han arbetat med är samma som nu har tillgängliggjorts av Google. De sökningar jag kan göra i Ngram Viewer är med andra ord en enklare variant av hans forskningsmetod.

    –Faktum är att vi hade svårt att begränsa vår studie, eftersom databasen är så beroendeframkallande. Vi kunde inte låta bli att fortsätta göra nya sökningar, säger han.

    Forskargruppen har presenterat slutsatser inom en rad områden, ett axplock tänkt att åskådliggöra hur Googles data kan användas.

    De visar hur verbformer utvecklats, genom att identifiera när exempelvis ”learned” blev vanligare än ålderdomliga ”learnt”.

    De slår fast att censur syns i statistiken. Till exempel nämns judiske konstnären Marc Chagall bara en enda gång i den tyska litteraturen mellan 1936 och 1944. Samma sak gäller Lev Trotskij i äldre sovjetiska böcker och massakern på Himmelska fridens torg i de kinesiska.

    Genom att studera förekomsten av personers namn analyserar de även hur kändisskapets natur förändrats. En genomsnittlig känd person född 1800 blev berömd först vid 43 års ålder. Kändisar födda 1950 nådde däremot sitt kändisskap redan vid 29. Å andra sidan, konstaterar forskarna, glömmer vi dem snabbare.

    ”Culturomics” ger än så länge inget utslag i Ngram Viewer. Men kanske är det, som Erez Lieberman Aiden och Jean-Baptiste Michel tror, skelettet till en ny vetenskap.

    I vintras publicerade New York Times en artikelserie om möten mellan humanistisk forskning och digital teknik. I första delen konstaterade skribenten Patricia Cohen att 1900-talets humaniora dominerats av ismer som Freudianism, strukturalism och postkolonialism. Vad blir det här seklets motsvarande stora idé inom språk, historia och konst? Hon besvarade sin fråga med ett ord: data.

    Så kallad digital humaniora är ett växande fenomen i USA. Nytänkande humanister utforskar Upplysningens spridning i Europa genom webbkartor över tänkares brevväxlingar, rekonstruerar inbördeskrigets slagfält digitalt för att studera vad terrängen betydde för utgången och låter en dator analysera tusentals jamsessioner för att spåra hur musikaliska samarbeten har påverkat jazzen.

    Många av dessa forskare ser Googles växande bibliotek som en revolution. En Stanfordprofessor i litteratur har liknat det vid när teleskopet uppfanns – plötsligt synliggörs enorma mängder materia. Entusiasmen är inte svår att begripa.

    En databas över hela litteraturhistorien borde vara varje humanioraforskares dröm. Eller?

    Janken Myrdal muttrar framför datorn.

    –Om jag skriver in ordet ”chair” här, då når det sin topp runt 1940. Sedan går det ner. Jaha? Det är som mina barn brukar säga, intresseklubben antecknar.

    Han är forskare i agrarhistoria vid Sveriges lantbruksuniversitet. Härom året gav han ut boken Spelets regler i vetenskapens hantverk, där han resonerar om konflikter och olikheter mellan naturvetenskap och humanvetenskap.

    Det bör nämligen påpekas: mötet mellan Google och humaniora är inte okomplicerat.

    Som Andreas Ekström skriver i sin reportagebok Google-koden kan Googles grundare beskrivas som teknokrater. Allting företaget gör genomsyras av en tro på data, kod och matematik. Alla mål ska vara mätbara och lönenivåer räknas ut på ”raketforskningsnivå”. Överdriven ingenjörskonst, enligt en före detta Googleanställd som intervjuas i boken: ”Kan man koda bort sig själv som människa från processen... ja, då har man gjort ett bra jobb.”

    När detta ideal möter ett fält som till och med har ordet mänsklig, human, i sitt namn blir det en kulturkrock. Den humanistiska traditionen betonar fördjupning, tolkning, kritisk reflektion och vikten av perspektiv. Det är rentav en central tanke att vissa saker inte kan mätas.

    Janken Myrdal säger att vissa humanioraforskare är onödigt rädda för statistik. Men att Ngram Viewer och ”culturomics” skulle innebära något omvälvande skrattar han nästan åt:

    –Det här kan kanske bli ytterligare ett kul redskap. Men det stora med att få tillgång till fem miljoner böcker är väl inte att man kan göra statistik, utan att man faktiskt kan läsa böckerna.

    Det är talande att forskargruppen bakom ”culturomics” inte är litteraturvetare eller idéhistoriker, utan matematiker, ingenjörer och naturvetare. Erez Lieberman Aiden har en doktorsexamen i tillämpad matematik, Jean-Baptiste Michel i systembiologi.

    Sedan deras forskning och Ngram Viewer presenterades parallellt i december har både de själva och Google fått mycket kritik. Forskare har invänt att Googles scanningsteknik är opålitlig, att databasen är oanvändbar eftersom böckerna saknar detaljerad metadata och – inte minst – att ingenjörskap aldrig kan ersätta analys.

    När jag tar upp det med Jean-Baptiste Michel låter han defensiv.

    –Vissa verkar tycka att man måste ha doktorerat i humaniora för att ens få tala om historia. Jag förstår inte den kritiken. Vi har aldrig påstått att kvantitativa metoder ska ersätta kvalitativa. Vi vill bara föra in ett nytt verktyg i humanioraforskarnas arsenal.

    Men den kanske viktigaste invändningen håller till och med Jean-Baptiste Michel med om: vad innebär det egentligen att ett ord, till exempel ”fattigdom”, har använts ofta ett visst år?

    Det bevisar inte att människor var fattiga då, inte heller att de inte var det. På sin höjd kan det styrka att det var ”mycket ståhej” kring fattigdom.

    Allting går som sagt inte att mäta. Utan tolkning och kontext är Ngram Viewers kurvor ett minst sagt trubbigt underlag. De kan i bästa fall styrka när något inträffade, aldrig hur eller varför.

    Själv är jag lika fängslad i alla fall. Jag sitter fastnålad vid datorn och låter timmarna rinna iväg framför diagrammen. Jag ställer industrialisering mot globalisering, sex mot kärlek, pizza mot korv.

    Efterhand upptäcker jag att man kan få rätt märkliga resultat. ”Fgn”, ”pkat” och ”hmms” – ord som inte finns – ger utslag i graferna. Svordomen ”fuck” ser ut att använts redan på 1500-talet, och ”internet” tycks ha varit en snackis kring sekelskiftet 1900. Dessutom uppvisar ”jeans” och ”terrorism” misstänkt lika kurvor.

    Det är inte omöjligt att Googles databaser på sikt blir omvälvande för den humanistiska forskningen. Det är inte heller omöjligt att deras betydelse blir marginell. Oavsett vilket är Ngram Viewer, än så länge, mest ett tidsfördriv. Men ett tankeväckande och underhållande sådant. Det är inte det sämsta.

    Jag testar att skriva in orden nyttig och rolig i sökrutan, ”beneficial” och ”fun”. Och se där! Nöje har vunnit över nytta sedan 1917.

    Här är länken till Googles nya tjänst Google Ngram Viewer. ngrams.googlelabs.com
    Annons
    Annons
    X
    Annons
    X
    Annons
    X