Förra året lanserade ett antal anglosaxiska forskningsstiftelser en tävling om forskningsmedel, den så kallade Digging into Data Challenge. Frågan de ställde till världens humanister var: ”Vad kan ni göra med en miljon inskannade böcker? Eller en miljon tidningssidor? Eller en miljon fotografier?” Hur påverkar egentligen den nya tillgången till enorma mängder digitaliserat material den humanistiska forskningen – praktiskt såväl som teoretiskt? Vilka nya frågor (och svar) kan genereras av datorkraft applicerad på ett slags kvantitativ empirisk skalbarhet?
Att utföra beräkningar på kopiösa datamängder var länge förbehållet naturvetare. Poängen med ”Digging into Data Challenge” var att erbjuda även humanister en chans att, tillsammans med kulturarvsinstitutioner, utföra storskalig analys av enorma mängder data. Strax före jul meddelades så vilka projekt som tilldelats pengar. Ett av dem, Digging into the Enlightenment: Mapping the Republic of Letters, avser att analysera 53000 digitaliserade och OCR-inlästa historiska brev i syfte att studera hur effekterna av upplysningen avsatte spår i 1700-talets föreställningsvärld. Givet mängden inlästa brev kan dåtidens idévärld i det närmaste återskapas med hjälp av finurliga algoritmer och sofistikerad kod. Snarare än att på traditionellt idéhistoriskt manér lyfta fram viktiga böcker eller tänkare, strävar projektet alltså efter att iscensätta en kvantitativ historisk receptionsstudie av sällan skådat slag. Ambitionen är helt enkelt att med digital teknik ge en långt fylligare bild av upplysningens sociologiska genomslag än vad som tidigare varit möjligt.
Ett annat vinnande projekt, som även det avser att bedriva historia som datorbaserad vetenskap snarare än som texttolkande praktik, baserar sig på de kriminalhistoriska handlingar som finns samlade i Old Bailey, en av Londons gamla brottmålsdomstolar. På sajten Old Bailey online finns idag nästan 200000 rättegångsprotokoll från perioden 1674 till 1913 tillgängliga. Sammantaget omfattar dessa protokoll uppemot 120 miljoner ord av strukturerad text, en ofantlig samling data över kriminellt beteende i det förflutna. Historiker har naturligtvis länge använt sig av detta material, men ingen har förstås läst alla protokoll. Projektets syfte är emellertid att genom så kallad ”data mining” analysera samtliga rättegångshandlingar och med datorers hjälp omvandla dem till läsbar data. Termen ”data mining” står just för ett slags informationsutvinning som genom sökandet efter mönster, regelbundenheter eller avvikelser i stora datamängder bearbetar data och förädlar dem till information. Med Old Bailey som fallstudie avser projektet såtillvida att utveckla redskap för en ny typ av digital historievetenskap. I en intervju har Dan Cohen, en av projektledarna, påtalat att betydelsen av denna studie inte bara handlar om Old Bailey och dess rättegångar, snarare adresserar projektet hur modern datateknik och växande digitala samlingar av historiskt material kommer att förändra historievetenskapen i en storskalig kvantitativ riktning framöver.
”Digging into Data Challenge” är ett exempel av flera där humanvetenskaperna på sistone börjat att intressera sig för de potentiella möjligheter som datormodellering, nätverksteori och skalbar forskning erbjuder. Att dataskärmen allt oftare utgör gränssnitt visavi det egna forskningsmaterialet är en bidragande orsak, en annan att även historiker numera är utrustade med skanners eller digitalkameror när de gräver i arkivens gömmor. I takt med att allt mer historiskt material och allt större kulturella samlingar digitaliseras på olika minnesinstitutioner världen över, har insikten också vuxit fram att all den data som digitaliseringen resulterar i inte längre kan, eller snarare bör, beforskas på ett traditionellt humanistiskt sätt. Givetvis är det utmärkt att digitalisering förenklar tillgängligheten till forskningsmaterial, men för mer skarpsinta forskare ställer digitaliseringsprocessen framför allt frågor kring ny metodik liksom en uppdaterad digital forskningspraktik. Genom ”Google Book Search” kan man idag exempelvis få tillgång till två miljoner historiska böcker i fulltext vilka alla tillhör den kulturella allmänningen. Bör exempelvis litteraturforskningen förhålla sig till detta, eller kan den lugnt fortsätta att ägna sig åt den kanoniserade promillen av bokutgivningen som länge varit fallet? Det är kanhända en smaksak, och att läsa en miljon böcker är naturligtvis ett problem för oss människor. Men inte för datorer och deras mjukvara.
Givet den uppsjö av digital information som är karakteristisk för vår samtid är kvantitet idag alltmer liktydigt med kvalitet. För datorer och servernätverk leder stora beräkningsbara kvantiteter rentav till långt mer tillförlitliga kvalitativa utsagor än någonsin. I den digitala domänen är matematikern kung och applicerad matematik vägen till framgång. ”More data, is better data”, brukar ju Googles analytiker framhålla, och för ett år sedan publicerade några forskare på samma företag en artikel med den talande titeln ”The Unreasonable Effectiveness of Data”. Där påtalade de frankt att med de enorma datamängder som webben både ger tillgång till och själv genererar, behövs inte längre teori på samma sätt som tidigare. Hypoteser för hur saker och ting fungerar kan helt sonika ersättas med kopiösa mängder data. Vem vet varför människor gör vad de gör? Nuförtiden kan man spåra och mäta de mest skilda aktiviteter med hög precision – givet att man bara har tillräckligt med data. Google har exempelvis med sin ”Flu Trends”, där sökningar om influensa på webben används som ett slags föregripande medium med möjlighet till långt bättre prognoser än tidigare, visat hur den virtuella världen kan ge högst konkreta underlag för reella beslut.
”Följ dataströmmarna” var just Googleforskarnas uppmaning. Gigantiska dataset, som exempelvis en biljon ord insamlade från offentliga webbsidor, innehåller inte bara generella mönster utan också väldigt mycket specifika detaljer. Faktum är att Chris Anderson redan 2008 var inne på den här typen av tankegångar. I artikeln, ”The End of Theory”, ställde han den då – i dag allt mindre – provokativa frågan: ”What can science learn from Google?” Förmodligen en hel del, och när nu även kulturen håller på att transformeras till data påverkas förstås även traditionella humanistiska discipliner. En litteraturforskare som Franco Moretti har antytt att för ämnen som litteratur-, konst-, eller filmvetenskap, där kvalitativa och hermeneutiska närläsningar av ett fåtal kanoniserade verk dominerat, utgör kulturarvssektorns digitaliseringsprocesser inte bara ett hot mot själva ämnesidentiteten, rådande traditionella perspektiv riskerar också att konservera forskningsfronten i ett slags analogt då. Ignorerar man ny digital teknik, ignorerar man också den kunskap som denna teknik kan generera. I en intervju i senaste numret av Wired menar Moretti följaktligen att ”data mining” utgör ett behövligt korrektiv till klassisk litteraturforskning; först genom kvantitativ analys är det exempelvis möjligt att redogöra för en hel epoks kreativa produktion. Ingen forskare kan läsa de 30000 romaner som publicerades i England under 1800-talet, men när de väl digitaliserats kan man ta datorer och programkod till hjälp för att dra ut information om allt från lingvistiska strukturer till boktitlars förändring. Helt nya litterära mönster och kunskaper kommer då att framträda, menar Moretti.
En snarlik tilltro till kvantitativa och datorbaserade analysmodeller kännetecknar den form av ”cultural analytics” som medieforskaren Lev Manovich ägnat sig åt de senaste åren. Termen är en parafras på ”Google Analytics”, den gratisservice för databaserad webbanalys som lanserades för några år sedan. Om Manovich tidigare sysslade med nya medier och deras formspråk, har hans faiblesse för ”new media” definitivt ersatts av ”more media” på senare tid. Tanken med ”cultural analytics” är nämligen att analysera stora kulturella dataset, antingen bestående av digitaliserade samlingar av kulturella objekt eller av material som fötts digitalt. Skalbarhet är med andra ord återigen fundamentalt. Enligt Manovich är det bara genom att sammanföra medie- och datavetenskapliga forskningsperspektiv som det är analytiskt möjligt att greppa den explosiva tillväxten av kulturellt innehåll på webben. Antalet fotografier som varje vecka laddas upp på Flickr är exempelvis redan idag större än samtliga objekt på världens alla konstmuseer. ”Cultural analytics” strävar såtillvida efter att systematiskt analysera kvantitativa data, samt att presentera dessa genom olika slags interaktiva visualiseringar. Skall man tro Manovich kommer storskaliga beräkningar av kulturella datamängder liksom visualisering av dem att bli helt centralt för kulturindustrin framöver.
Bruket av datavetenskapliga metoder och tekniker inom humaniora förefaller alltså ha lett till ännu en vändning, ”the computational turn”, där ny kunskap kan frambringas med kraftfulla datorers hjälp, förutsatt att det finns tillräckligt med digitalt material att bearbeta. Den institution där jag själv är verksam, Kungliga biblioteket, har idag några hundratusen tidningssidor och flera miljoner audiovisuella mediefiler som faktiskt bara väntar på att utforskas med modern teknik. Digitaliseringen av kulturarvet är ju inte ett mål i sig, snarare är det ett medel för att tillgängliggöra och producera ny och bättre kunskap om det förflutna. Ett tolkande forskningssubjekt kommer nog alltjämt att behövas, och riktigt hur man forskningsmässigt bör gå till väga är fortfarande ovisst.
Webbepistemologen Richard Rogers – ja, han kallar sig så – menar dock att det ”digitala” är en distinkt ny kunskapskultur som vi ännu vet alltför lite om. Rogers är nytillträdd professor i nya medier och digital kultur vid Amsterdams universitet, och i sin installationsföreläsning, ”The End of the Virtual”, påtalade han att framför allt bör humanistisk forskning och kulturarvsinstitutioner lära sig mer om det digitala som kunskapsform. En första insikt är att det digitala idag är kulturens själva grundläge.
Scenkonsterna undantagna är ju i princip all kultur nuförtiden baserad på binär kod (nollor och ettor). Böcker, tidningar, film, radio och teve produceras inte bara på digitala plattformar, de konsumeras också i allt högre utsträckning på läsplattor, datorer och mobiler. Som ny kulturform är internet därtill en källa inte bara till ofantliga mängder data, utan även ett slags binär katalysator för ny metod och forskningsteknik. Sökmotorer är exempelvis kunskapsteoretiska maskiner i den meningen att de samlar in, indexerar, lagrar – och slutligen organiserar webbens data. Att använda sig av exempelvis ”data mining” är såtillvida inte bara ett sätt att bedriva forskning med hjälp av ny teknik, det är främst ett sätt att fundera över kunskapsproduktion med utgångspunkt i de möjligheter som internet erbjuder. Rogers menar just att nya digitala metoder måste ta vara på nätets egen tekno-mediala säregenhet, där det exempelvis finns en ontologisk och väsensbetingad skillnad mellan digitaliserat material och information som är född digital. Först när vi till fullo växlat perspektiv och verkligen gått från bläck till bitar, ”transforming ink into bits”, kommer vi att på allvar kunna börja tänka med (istället för mot) den digitala världen.







