Annons

Sam Sundberg:Big data gör om vår värld i grunden

Klimatkatastrofer och svåra sjukdomar kommer att kunna undvikas, politiken blir bättre och ekonomin blomstrande med hjälp av de enorma mängder data som regelbundet samlas in. Allt enligt boken ”Big data”.

Under strecket
Uppdaterad
Publicerad

Att inte frukta missbruket av informationsmängderna är att vara oförsvarligt historielös, skriver Sam Sundberg.

Foto: SERGEY A KHAKIMULLI

Att inte frukta missbruket av informationsmängderna är att vara oförsvarligt historielös, skriver Sam Sundberg.

Foto: SERGEY A KHAKIMULLI
Att inte frukta missbruket av informationsmängderna är att vara oförsvarligt historielös, skriver Sam Sundberg.
Att inte frukta missbruket av informationsmängderna är att vara oförsvarligt historielös, skriver Sam Sundberg. Foto: SERGEY A KHAKIMULLI

I slutet av mars talade CIA:s teknikchef Gus Hunt inför ett gäng it-proffs på en konferens i New York. Ämnet var det digitala informationsflödet och dess värde för underrättelsetjänster. CIA, NSA, svenska FRA och en mängd andra organisationer runtom i världen lyssnar ständigt på vår kommunikation. Utmaningen är att vaska fram de intressanta bitarna. ”I grund och botten försöker vi samla in allting och spara det för evigt”, förklarade Gus Hunt.

Allting. För evigt. Det är stora ord. Men de är inte så märkliga som de först ter sig, utan snarare symptomatiska för den trend inom dataanalysen som går under benämningen ”big data”.

”Big data” har ingen direkt svensk översättning. Begreppet alluderar på ”big oil” med implikationen att data blivit en värdefull råvara, men det syftar också på enormiteten i internet-erans datamängder. Deras tillväxttakt är svår att greppa, men för någon sorts kontext: vid millennieskiftet räknar forskare med att ungefär 25 procent av all världens information var digital. I dag räknar samma forskare med att 98 procent av all världens information är digital. Det innebär strålande tider för dem som har verktygen att analysera dessa datamängder och vaska fram guldklimparna i informationsfloden.

Annons
Annons

För bara 15 år sedan var big data en science fiction-doftande vision. Men sedan dess har utvecklingen gått snabbt på tre fronter. Allt bättre algoritmer sköter analysen, allt snabbare processorer exekverar algoritmerna, och de har allt större datamängder att bearbeta. Det är anledningen till att Google vet vad du vill söka efter redan innan du knappat in orden. Det är anledningen till att butikskedjan Target vet att deras kunder är gravida innan de berättat det för sina familjer. Det är anledningen till att sökmotorn Bing kan tala om när det är bäst läge att köpa flygbiljetter till sommarsemestern.

I nya boken Big data: A revolution that will transform the way we live, work and think (Eamon Dolan/Houghton Mifflin Harcourt, 256 s) visar Viktor Mayer-Schönberger och Kenneth Cukier hur big data är i färd med att förändra vårt sätt att mäta och förstå världen. Som titeln antyder sällar sig författarna till big datas hejaklack och boken är precis så storvulen och repetitiv som amerikansk populärvetenskap tenderar att vara. Här och var är hajpen tjyvtjock. Men boken gör trots det ett fint jobb med att förklara det skifte som big data innebär.

Den mest genomgripande förändringen som big data innebär för vårt sätt att förstå världen är att vi alltmer kommer att förlita oss på statistiska samband. Vi är annars skolade att söka förståelse i form av orsakssamband. Det är djupt rotat i oss: en sak leder till en annan – därför. Big data nöjer sig med en sak, en annan – och sannolikheten att de förekommer tillsammans. Big data-analys kan förvisso bidra till förståelse av orsak och verkan, men i första hand visar den inte på kausalitet utan på korrelation. Den finner mönster i datamängderna och i världen, som låter oss agera utan omvägen via förståelse av orsak och verkan. Översättningstjänsten Google Translate är ett bra exempel.

Annons
Annons

Innan Google tog sig an problemet med maskinöversättning användes ofta regelbaserad översättning, som gjorde en grammatisk analys av meningar och byggde nya enligt specifika regler. Google valde i stället en strikt statistisk metod. De matade sina algoritmer med alla översättningar de hittade på nätet samt boköversättningar från Google Books-projektet – biljoner ord. Sedan analyserades rubbet för att hitta statistiska samband mellan ordförekomster och meningskonstruktioner. Resultatet är den bästa översättningstjänsten världen har skådat, helt utan ambitioner att förstå hur grammatik fungerar eller vad orden betyder.

Det är ingen hemlighet att Google älskar data, så det är heller inte överraskande att företaget flitigt och framgångsrikt använder sig av big data-lösningar. På så vis har de bland annat förbättrat sökresultat, röstigenkänning, rättstavningsfunktioner och användargränssnitt. Ett mindre självklart bruk av de 42 miljoner sökningar företaget behandlar varje timme är Google Flu Trends. Genom att jämföra sökord med influensastatistik har Google hittat korrelationer som visar att vissa sökningar är indikatorer på ökad influensaaktivitet. Med den vetskapen kan de nu följa influensornas utbredning närmast i realtid, mycket snabbare än några hälsomyndigheter. Återigen: Google behöver inte förstå hur något hänger ihop, de behöver bara statistiken. Den slår visserligen fel ibland men i ett historiskt perspektiv har den varit häpnadsväckande precis.

Inom sjukvården i stort kan big data för övrigt komma att få omvälvande effekter. Genom att systematiskt sammanställa och analysera den information som dagligen genereras på sjukhus runt om i världen skulle man kunna förbättra diagnostiken, kartlägga sjukdomsförlopp i detalj och lära sig mycket om medicinering. Ett vanligt EKG gör i dag tusentals avläsningar varje sekund, konstaterar Cukier och Mayer-Schönberger. Nästan inga av dessa sparas. Det är ett massivt dataslöseri.

Annons
Annons

Men det finns de som tänker big data även bland medicinarna. Ett fiffigt exempel är Asthmapolis, en liten pryl som kan monteras på astmapatienters inhalatorer. Den registrerar var och när inhalatorn används, synkar informationen till mobiltelefonen och vidarebefordrar den till företaget Asthmapolis som bland annat använder den för att ta fram kartor över vilka områden och tidpunkter som triggar astmaattacker.

Cukier och Mayer-Schönberger beskriver big data som ett ”enormt infrastrukturprojekt som kan jämföras med forna tiders, från romerska akvedukter till upplysningens Encyclopédie”. De är inte fullt lika big data-frälsta som it-profeten och före detta Wired-chefredaktören Chris Anderson, som hävdat att big data kommer att göra alla former av teorier obsoleta (datan, menar han, talar för sig själv). Men de drar sig inte för att förutspå att big data kommer att hjälpa oss att komma till rätta med klimatförändringarna, utplåna våra sjukdomar samt leda till bättre politik och blomstrande ekonomisk utveckling.

Å andra sidan är de noga med att peka på riskerna med att samla in massiva mängder information om människor. Historien har lärt oss hur illa det kan sluta.

Nederländerna hade föredömliga personregister på 40-talet, noterar Cukier och Mayer-Schönberger. Men när nazisterna invaderade förvandlades registren från byråkratiska instrument till effektiva verktyg för att leta upp judar och skicka dem till utrotningsläger. I dag är möjligheterna att samla och behandla information om människor (medborgare, kunder, mobiltelefoninnehavare...) miljontals gånger större. I Sverige 2013 får det kanske sällan värre resultat än att du utsätts för kusligt välriktad webbreklam. Men att inte frukta missbruket av informationsmängderna är att vara oförsvarligt historielös.

Annons
Annons

Blickar vi i stället framåt är perspektiven lätt svindlande. Just nu är en stark tekniktrend armband som mäter bärarens aktivitetsnivå och kroppsliga status. På individnivå kan de vara bra hjälpmedel för att skapa sundare vanor. På big data-nivå kan den samlade informationen skapa kartor över hur folk mår i olika delar av städer och länder vid olika tidpunkter, som kan hjälpa stadsplanerare och politiker. Samtidigt förses alltfler prylar med både sensorer av olika slag och internetuppkoppling, en utveckling som pekar mot det som brukar kallas ”the internet of things”.

När exempelvis alla bilar sänder data om position, hastighet och allmäntillstånd kan vi i realtid förutse när en olycka blir sannolik på en viss plats och justera hastighetsbegränsningen. Kan vi se att människors blodtryck och hudtemperatur ökar en aning vid en hårt trafikerad gata kan vi överväga att införa trängselavgift (oavsett om det beror på stress eller luftföroreningar). Och så vidare. På 15 års sikt är möjligheterna som öppnas oöverskådliga, även för de stora big data-aktörerna. Mycket av de data som samlas in av Facebook, Google, CIA med flera har de ingen omedelbar användning för. Men sparas den på obestämd tid så kan möjligheter uppstå och nya värden skapas.

Framtiden för big data är dock inte ogrumlad. Att den sammanlagda informationsmängden ökar snabbt är positivt. Problemet är bara, som stjärnstatistikern Nate Silver påpekar i boken ”The signal and the noise” (anmäld Under strecket 22/11 2012), att även bruset ökar. Och det ökar snabbare än signalen. Andelen skit i systemet blir bara större, och därmed ökar kraven på big data-algoritmernas förmåga att kompensera för all dålig information, som ständigt är närvarande i massiva datamängder.

Annons
Annons

Man måste också ta den mänskliga faktorn i beaktande, den oturliga omständigheten att vi inte är alltigenom rationella, altruistiska, sanningssökande varelser. Big data har redan börjat ge tydliga resultat, men hittills används teknikerna främst för att sälja saker. Ännu syns inga tecken på att big data-upplysningen är i färd med att utradera alla politiska motsättningar. Enorma mängder information leder uppenbarligen inte med nödvändighet till global harmoni.

Kalla, hårda data är en sak, det etiska ramverket en annan. Om vi nu rör oss bort från kausala förklaringsmodeller mot att förlita oss på statistiskt belagda korrelationer, vad är de moraliska effekterna av att låta offentlig policy styras av samband där vi överhuvudtaget inte förstår orsak och verkan? Cukier och Mayer-Schönberger höjer ett varningens finger för en ”datans diktatur” där vi förblindas av statistiken och tappar bort våra värderingar, och där data blir ett sätt att göra de redan mäktiga mäktigare.

Som alltid är det värt att fråga sig vem som sätter agendan och vem som har tolkningsföreträdet. Och de som har bäst förutsättningar att dra nytta av big data är internetföretag, mobiloperatörer, stora affärskedjor och de underrättelsetjänster som hungrigt skannar världens nättrafik. Att CIA:s strategi är att ”samla in allting och spara det för evigt” är värt att reflektera över i ljuset av att amerikanska myndigheter redan i dag tar sig rätten att skicka drönare till Jemen, Pakistan och Somalia för att döda människor som de bedömer är potentiella hot mot USA:s säkerhet någon gång i framtiden.

Annons
Annons

Cukier och Mayer-Schönberger skriver om data som talar till oss, som trollar fram korrelationer som ingen människa kunnat nosa upp. Men människor förblir en omistlig del av ekvationen. Det är vi som ställer frågorna, tolkar svaren och agerar på informationen.

En dag ställer kanske Gus Hunt och hans kollegor på CIA frågan vilka pakistanier som mest sannolikt i framtiden kommer att bli ledande terrorister med USA som måltavla. En big data-analys ger dem möjligen anledning att skicka drönardöden på ett dussin unga män i norra Waziristan.

Om CIA i stället frågar vilka som i framtiden har bäst förutsättningar att bekämpa totalitärt förtryck i Pakistan får de kanske precis samma svar. Men istället för drönare skickar de läroböcker.

Ren information är alltid neutral. Frågorna vi ställer är alltid ledande.

Annons
Annons
Annons
Annons
Annons