De som samlar in data påstår ofta att den är anonym. Forskningen visar att det är omöjligt.

Den kommersiella massövervakningen: Insamlad data går inte att hålla anonym

När de stora techbolagen samlar in mängder med data om ditt internetbeteende gömmer de sig alltid bakom försvarstal som ”det är bara metadata” eller ”vi har anonymiserat informationen”. Men samlar du in big data är den omöjlig att hålla anonym. Det räcker att din telefon avslöjar fyra platser du varit på för att räkna ut att det är just du.

När stora techbolag samlar in data om människor har de två standard-bortförklaringar. Den första är: “det är bara metadata”. De menar alltså att det inte är någon fara eftersom de inte samlar in själva konversationen mellan människor (vilket de också gör) eller något annat konkret (i deras ögon). Men som vi förklarat i den här texten är metadata lika med att kartlägga någons liv. Då brukar de gå vidare med att säga: “vi har anonymiserat datan”. Och så berättar de om hur de kastat om siffrorna i en IP-adress eller helt enkelt dolt den. Eller tagit bort annan information som går att koppla till en viss person. Men det räcker att läsa om data brokers för att inse att det är ganska enkelt för de som vill att lägga ihop ett och ett för att “re-identify users” som det brukar heta.

Faktum är: om du samlar in tillräckligt mycket data är den omöjlig att hålla anonym. Och eftersom hela affärsmodellen hos de stora techbolagen bygger på big data innebär det att ditt internetbeteende utan tvekan går att koppla till dig som person. Till att börja med: har du tillgång till olika databaser och kan samköra dem går det fort att av-anonymisera människor. Som när Netflix släppte tio miljoner filmbetyg från en halv miljon anonyma användare och ett gäng forskare på University of Texas, som för att bevisa själva poängen, lyckades identifiera flera av dem bara genom att jämföra betygen (och vilken tid de sattes) med betyg som publicerats publikt på IMDb. Ett annat exempel: när The State of Washington sålde hälsodata om anonyma patienter för 50 dollar styck och forskare på Harvard kunde sätta namn på flera av dem genom att jämföra delar ur journalerna med nyhetsartiklar om olyckor och våldsbrott.

Det är svårt att identifiera en person om du bara har tillgång till en eller två datapunkter. Men så fort du får tillgång till fler går det att använda sig av klassisk uteslutningsmetod för att räkna ut vem som finns bakom informationen. Kryptografen och säkerhetsexperten Bruce Schneier ger i sin bok Data and Goliat ett bra exempel: FBI behövde spåra en person som skickat anonyma mejl från olika IP-adresser. När de tog en titt på IP-adresserna visade det sig att de alla tillhörde olika hotell. Personen hade alltså varit noga med att byta hotell varje gång det var dags att mejla. Men då var det bara för FBI att plocka ut kundregister från de olika hotellen. Var det någon person som checkat in på samtliga av de där hotellen vid tidpunkterna för mejlutskicken? Det krävdes inte många hotellnätter förrän listan var nere på en enda person.

Forskare tog sig an sökhistoriken från 657 000 användare. Det fanns bara ett nummer kopplat till varje lista med sökningar. När de var klara hade de bytt ut nummer mot namn.

Forskningen har flera gånger om bevisat att det inte krävs många datapunkter för att identifiera människor. Allra snabbast går det om du har tillgång till location data, om du alltså har tillgång till flera platser som en anonym person har besökt. Fundera på det själv: Ni är kanske några stycken på din arbetsplats, men hur många av dem handlar på samma matbutik som du? Ni kanske är ett par stycken som matchar på båda dessa punkter. Men lägg till ett par till så är saken klar. Forskare på universitet i Storbritannien och Belgien har publicerat metoder som säger att det är möjligt att identifiera 99.98 procent av alla personer på anonyma listor om det bara finns 15 demografiska attribut. Ett annat forskargäng menar att det räcker med fyra mätpunkter – om de innehåller plats och tid – för att identifiera 95 procent av individerna. I ytterligare en studie studerade forskare tre månaders kreditkortsuppgifter för att komma fram till att det räckte med fyra punkter – återigen gällande plats och tid – för att identifiera 9 av 10.

Med tanke på hur mycket data som samlas in om var och en av oss så fort vi startar en webbläsare så behöver de som vill använda datan (och av-anonymisera den) knappast förlita sig på parametrarna plats och tid. Bruce Schneier berättar bland annat om när forskare tog sig an sökhistoriken från 657 000 användare. Totalt handlade det om 20 miljoner sökningar och informationen var, som det heter, anonymiserad. Det fanns bara ett nummer kopplat till varje lista av sökningar. Men genom att korrelera olika uppgifter kunde forskarna byta ut nummer mot namn. Återigen: ditt internetbeteende är spårat och loggat i detalj. Det krävs ingen längre stund av uteslutningsmetoden för att skala ner det till just dig.

Det räcker med fyra mätpunkter för att räkna ut att det är du. Sugen på att ta reda på hur mycket data de stora techbolagen har på dig?

Om ditt sökbeteende räcker för att identifiera dig, hur skyddar du dig då? Läs mer om hur varje sökning du gör kan se ut som din första – med Mullvad Browser.

Hur går det egentligen till när big data blir till? Lär dig mer om tekniken som används när ditt internetbeteende kartläggs.

Vad händer med samhällen och människor i en värld där vi vet allt om alla? Läs mer om konsekvenserna som massövervakning kan få.