Annons
X
Annons
X

Håkan Lindgren: Välkommen till datasopornas planet

(uppdaterad)
Digital kultur: Analys

Inom kort kommer världens samlade mängd digitala data att uppgå till 300 miljarder gigabyte. Den enorma mängden data – i huvudsak bestående av virtuellt skräp – har redan blivit ett problem.

Uttjänta och makulerade hårddiskar från Googles datacenter i Saint-Ghislain, Belgien.

Uttjänta och makulerade hårddiskar från Googles datacenter i Saint-Ghislain, Belgien. Foto: HÅKAN LINDGREN

Datasopor är ett ord jag har blivit förtjust i. Det är ett ord som jag tror kommer att visa sig vara användbart för att förstå vad världen är på väg att bli. På samma gång är det en aning komiskt, eftersom det förenar något abstrakt och rent – data – med luktande gamla sopor. Ordet kopplar ihop en framtid vi strävar efter att göra oss en bild av med ett förflutet vi trodde att vi hade lämnat bakom oss: sopberg hör väl ihop med industrialismens konsumtionssamhälle, inte med vår skinande digitala framtid? Men om det alls är möjligt att bända med tanken och skymta lite framtid i förväg tror jag att man gör det genom sådana ord – ord som är paradoxala på rätt sätt, eftersom framtiden, sedd från vårt håll, skulle se paradoxal ut snarare än totalt främmande. Vi skulle tycka att den innehöll oväntade, absurda sammankopplingar av saker som redan är bekanta.

I månadsskiftet januari–februari pågick Transmediale i Berlin – en festival för framåtsyftande digital kultur. Årets festival hade rubriken ”Afterglow”. Programbladet målade upp en dystert lockande bild: nätoptimismen och de utopiska visionernas tid är över. När festivalens ledare, svenske Kristoffer Gansing, intervjuades av tidningen Zitty talade han just om dataskräp. Han drog en parallell mellan de väldiga datamängder som lagras i världens serverhallar och de växande bergen av giftigt elektroniskt avfall. Båda är en form av digitala sopor, menade han. Jag tillbringade ett par dagar på Transmediale och visste snart att min nästa artikel skulle handla om datasopor.

Den mängd digitala data som genereras av oss och om oss är enorm. 2009 uppskattade Library of Congress att lika mycket text, bild och ljud som de samlat in under sina första 200 år genererades varje kvart. Så sent som år 2000 var 75 procent av världens samlade data icke-digitala enligt McKinsey-rapporten ”Big data: The next frontier” – det vill säga tryckt text och analoga ljud- och videoinspelningar. 2007 hade andelen icke-digitala data krympt till sex procent, samtidigt som den totala datamängden under samma tid hade växt dramatiskt. Beräkningarna av hur mycket data som finns lagrat i världen skiljer sig åt, men alla diagram över utvecklingen visar samma sak: de pekar rakt uppåt. I artikeln ”Data science and predictions” uppskattar Vasant Dhar att världens samlade data uppgick till 15 exabyte 2008 (en exabyte är en miljard gigabyte). Nästa år, förutspår han, kommer datavolymen att vara 20 gånger större. Vi kan se början på en tsunami av data.

Annons
X

Ett passagerarplan som Boeing 737 kan generera 240 terabyte data under en flygning – fem gånger så mycket som Hubbleteleskopet har samlat in under 20 år (en terabyte är tusen gigabyte). Det är så mycket data att det börjar likna digitala avgaser. I vår digitala värld har alla föremål fått dubbla funktioner: de är också datagenererande maskiner. Främst av dem är förstås mobiltelefonen, en apparat vars huvuduppgift inte verkar vara att hjälpa oss att kommunicera utan att samla data om oss (positionsangivelser, surfvanor, socialt nätverk). Alla branscher har blivit datagenererande branscher. 2010 genomfördes i snitt en miljon transaktioner i timmen i Wal-Marts varuhus, vilket innebar att de matade sina databaser med 2,5 petabytes per timme – en datavolym som motsvarar drygt 400 000 människors DNA.

När alla företag hanterar stora mängder data börjar de likna underrättelsetjänster. Den riktade reklam som Google, Amazon och Facebook ägnar sig åt kallade Bruce Sterling, som höll inledningstalet på Transmediale, för ”surveillance marketing”. Hur bra den sortens marknadsföring fungerar har Charles Duhigg beskrivit i New York Times (”How companies learn your secrets”, 16/2 2012). En man skällde ut lågpriskedjan Target för att de skickade babyreklam till hans dotter. Ett par dagar senare bad han om ursäkt: hans dotter var faktiskt med barn. Target hade förstått det innan han visste det. Förändrade köpmönster gör att de kan identifiera gravida kunder och förutsäga när barnet kommer. Men det är inte integritetsriskerna jag vill fokusera på med den här artikeln, utan något annat.

Jag tänker ta risken att påstå att majoriteten av alla dessa data är skräp. Jag misstänker att en stor del av de data som genereras och lagras aldrig kommer till användning, som när jag fyller mobiltelefonens minneskort med foton jag aldrig kommer att titta på. 70 procent av världens samlade mejltrafik är spam enligt antivirusföretaget Kaspersky Labs. När Microsoft stängde Hotmail och flyttade 300 miljoner mejlkonton till Outlook.com handlade det om 150 petabyte sparade mejl. Även om deras kunder säkert är tacksamma för att Microsoft inte raderade deras e-post, hur många kommer någonsin att läsa den igen? Själv har jag en dryg gigabyte gamla mejl som långsamt förmultnar utan att jag återvänder till dem.

Stäng

KULTURCHEFENS NYHETSBREV – veckans viktigaste kulturtexter direkt i mejlkorgen

    Anmäl dig här kundservice.svd.se

    Data kan också vara skräp av ett annat skäl. Har vi inget bra sätt att söka i våra databerg är de i praktiken sopor. De senaste årens slagord är ”big data”. Big data är förhoppningen att kraftfulla datorer och allt mer sofistikerade sökalgoritmer ska kunna upptäcka dolda, tidigare oförutsägbara mönster inuti vår globala komposthög av data. Och visst finns det spännande samband att upptäcka. Vad är det säkraste tecknet på att en passagerare som har bokat en flygstol inte missar sitt flyg? Att han eller hon har beställt vegetarisk mat. En grupp forskare vid Bar-Ilan-universitetet i Israel har utvecklat ett dataprogram som med 80 procents träffsäkerhet kan avgöra om en text har skrivits av en man eller en kvinna (det handlar inte om vad som brukar kallas manligt och kvinnligt språk, utan om statistisk analys av småord som ”the”, ”of” och liknande, det vill säga mönster som är osynliga för mänskliga läsare).

    Men hur vet vi att våra algoritmer hittar det viktigaste om vi släpper lös dem på ett material som är så stort att ingen kan överblicka det? Hur bedömer vi de svar som algoritmerna ger oss? Alldeles bredvid det associationsspår som algoritmen följer kan det finnas ett annat, ännu hetare spår som den aldrig upptäcker. Tänk er världens samlade digitala data som en stor från-prick-till-prick-teckning – ett universum av prickar om ni så vill. Fast i motsats till de numrerade prick-till-prick-teckningarna på tidningarnas pysselsidor finns det inga siffror och inget facit. Genom att associera mellan punkterna kan vi rita upp mängder av hyfsat övertygande och delvis helt motsägande bilder, men hur vet vi vilka resultat som är relevanta?

    Anta att du ansöker om ett banklån, varpå banktjänstemannen låter en algoritm analysera ditt liv. Därefter säger algoritmen nej, och tjänstemannen kan inte förklara vad som ledde till avslaget. Han är beroende av algoritmen för att tolka alla data som banken har tillgång till – och som banken tror att den måste ha för att kunna fatta beslut – men han förstår inte varför algoritmen svarar som den gör. Eller så här: någonting i det dataspår du har lämnat efter dig gör att du flaggas som säkerhetsrisk och du hamnar på en ”no fly list”. Ingen kan tala om vilken kombination av var för sig oskyldiga faktorer som fick systemet att slå larm, kanske en kombination som firman som konstruerade algoritmen aldrig avsåg och aldrig hade kunnat förutse. Komplexiteten ökar risken för misstag.

    Google vill hjälpa oss att handskas med informationsöverflödet på nätet genom att ge oss personliga sökresultat, baserade på vad de vet om våra klickvanor. Följden blir att det som borde vara ett förutsättningslöst sökande smalnar av till en självbekräftande tunnel. Två av hans vänner googlade ”Egypten”, skriver Eli Pariser i boken ”The filter bubble” (2011); den ene fick länkar till protesterna på Tahrirtorget, medan den andre inte fick veta någonting om vad som pågick, eftersom sökalgoritmerna antog att han inte skulle vara intresserad. Den som bor i en filterbubbla liknar en person som fyllt sin lägenhet med 50 års samlade dagstidningar: någonstans i högarna finns det fantastiska saker att läsa, men han upptäcker dem aldrig, utan följer samma upptrampade stig mellan köket, sängen och toaletten.

    Efter elfte september reagerade USA:s underrättelsetjänster reflexmässigt: nu måste vi ha alla data om hela befolkningen, mejltrafik, telefonsamtal, allt! De har blivit besatta av att samla ihop världens största höstack, inte ett strå får gå förlorat, i hopp om att nålarna ska följa med av sig själva – ett fullständigt bakvänt sätt att bedriva underrättelseverksamhet. Varför reagerade de på det sättet? För att vår inställning till data har fötts ur datafattigdom. När statistiken växte fram som en ny vetenskap under senare delen av 1700-talet visste den franske kungen inte hur många invånare Frankrike hade. Det måste ha varit otroligt spännande att för första gången få siffror på allt: medellivslängd, folkökning, opinionsundersökningar, köpvanor. Sedan dess har företag och myndigheter tänkt: om vi bara hade mer data! Från den tidens datasvält har vi hamnat i ett osannolikt överflöd, som om ett jägar- och samlarfolk öppnat dörren till ett varuhus med hyllor bort till horisonten. Men vi tänker fortfarande likadant. Står vi inför ett svårlöst problem? Tillsätt mer data! I ett läge där datamängden är på väg att bli vårt största problem behöver vi tänka annorlunda.

    Bakom de smarta historierna i Malcolm Gladwells artikelsamling ”What the dog saw” (2009) framträder ett dilemma som Gladwell aldrig lyfter upp till huvudtema. Så många av bokens texter handlar om omdömets problem. Han skriver om röntgenläkare som måste skilja tumörer från ofarliga cellförändringar och om finansanalytikerna som inte såg att Enron var en tickande bomb trots att hela den komplicerade bokföringen var tillgänglig. De har alla kommit till en punkt där de inser att mer data inte hjälper dem. De behöver ett omdöme som inte låter sig formuleras som en regel.

    Annons
    Annons
    X

    Uttjänta och makulerade hårddiskar från Googles datacenter i Saint-Ghislain, Belgien.

    Foto: HÅKAN LINDGREN Bild 1 av 1
    Annons
    X
    Annons
    X