Hoppa till innehållet

Så går det till när den kommersiella massövervakningen samlar in din data och kartlägger ditt liv.

Den kommersiella massövervakningen: Tekniken bakom datainsamlingen

De stora techbolagen följer varje steg du tar oavsett om du använder deras tjänster eller inte. Men hur går det egentligen till när de roffar åt sig ditt beteende och placerar det i stora AI- och maskininlärningssystem för att bygga en profil på dig? Här är metoderna bakom övervakningen.

Hur fungerar tekniken som används när stora techbolag som Meta och Google samlar in data om i princip all världens internetanvändare? Innan vi svarar på den frågan behöver vi konstatera ett par saker. 1) Använder du de stora techbolagens tjänster är det lika med att frivilligt ge bort data. Om du till exempel använder Facebook samlar Meta in din aktivitet där. Om du använder Chrome registrerar Google varenda steg du tar i webbläsaren. Och nej, incognito mode räddar dig inte. 2) Du behöver inte ens använda de stora techbolagens tjänster för att de ska ha koll på hur du beter dig online. De når långt utanför sin egen användarbas när de samlar in data. Här kan du läsa mer om i vilken utsträckning de spårar dig på sidorna du besöker och hur mycket data de har på sökningarna du gör.

Nu ska vi ta en titt på hur insamlingen av data går till. Och det är punkt 2 som vi ska fokusera på. Eftersom den typen av massövervakning sker utan att människor är medvetna om den och utan att de gett sitt medgivande till den.

Vi kommer att gå igenom de tekniker som används för att säkerställa att det är just du som besöker en viss sajt eller gör en specifik sökning. De här verktygen är livsviktiga för de stora techbolag som samlar in data. Det säger sig själv: de måste ha koll på att det är du och ingen annan som återkommer till en viss sajt, de måste vara säkra på att det är du som gjort den senaste googlingen för att kunna lägga den i rätt hög. Identifieringen är nyckeln för att kunna bygga en profil på dig. När de väl vet att det är du som är ute och surfar sätter de igång det stora maskineriet: in med allt du gör i stora AI- och maskininlärningssystem som registrerar, kategoriserar och analyserar ditt beteende. Så att de kan förutse vad du ska göra härnäst, så att de kan försöka påverka dig i en viss riktning för kommersiell eller politisk vinning. Låt oss nu börja med den mest använda identifieringstekniken: din IP-adress.

Din IP-adress: det vanligaste och enklaste sättet att identifiera dig.

Alla som har ett internetabonnemang har blivit tilldelad en IP-adress av sin internetoperatör. Det här ingår i internets själva grundstruktur. Alla hemsidor du besöker har också en IP-adress och det är IP-adresserna som ser till så att trafiken hamnar rätt när den skickas fram och tillbaka. Det här är ju bra (du vill ju att internet ska fungera), men det innebär också att vi alla bär på ett digitalt ID-kort som internetleverantörerna kan använda för att registrera alla sidor du besöker. Den här loggningen är de tvingade att göra enligt lag i väldigt många länder. Tanken är att detaljer om internettrafiken och uppgifter om vem som finns bakom en viss IP-adress ska kunna lämnas ut ifall en myndighet skulle fråga (till exempel om polisen kräver det i samband med en utredning). Men det stannar ju inte där. Beroende på vilket land du befinner dig i är det mer eller mindre troligt att internetleverantörerna i praktiken ger myndigheterna kontinuerlig tillgång till trafiken oavsett om lagbrott begåtts eller inte. Eller till och med säljer ditt beteende online för att tjäna pengar.

Dessutom finns det fler anledningar till att dölja sin IP-adress (via en VPN), eftersom IP-adressen används i flera andra sammanhang för att identifiera, spåra och kartlägga din aktivitet. Stater använder sig av IP-adresser när de tjuvlyssnar på allas vår trafik genom att helt enkelt koppla in sig på de stora internetkablar som fysiskt går mellan länder. Och inte minst använder sig techbolag av IP-adresser när de massövervakar människor i kommersiellt syfte.

När stora techbolag och data brokers tar till olika tekniker för att förfölja dig från sajt till sajt för att kartlägga ditt rörelsemönster på internet, då är det bland annat din IP-adress som används för att identifiera dig. Samma sak när de i detalj studerar vad du gör på varje sajt (vilka texter du läser, vilka bilder du stannar till vid, vilka köp du gör, vilka produkter du snabbt bläddrar förbi, vilka videor du tittar på och så vidare). IP-adressen används för att knyta samman aktiviteten och person.

Vi kan inte vara tillräckligt tydliga här: IP-adressen är som att sträcka upp handen och säga “här är jag”. Det är det enklaste sättet att spåra dig på internet. Och det enda sättet att dölja din IP-adress, och få bort den som ett digitalt ID-kort, är att använda en trovärdig VPN (eller Tor-nätverket). Det här är själva grunden till att Mullvad startades en gång i tiden (2009).

Tredjeparts-cookies: spårning som du accepterar (för att du egentligen inte har något val).

Precis som med IP-adresser är cookies en del av hur internet är uppbyggt sedan lång tid tillbaka. Cookies finns på hemsidor för att sidorna ska kunna komma ihåg saker om dig och för att de ska fungera överhuvudtaget. Till exempel: du besöker en e-handel och lägger en produkt i varukorgen, då är det en cookie som kommer ihåg att varan ligger där när du klickar vidare för att gå till kassan. Att du kan vara inloggad på en sajt över tid är tack vare en cookie. När du väljer ett språk på en hemsida är det samma sak; små små textfiler (det är vad cookies är) sparas lokalt på din dator eller telefon och ser till att samma språk dyker upp nästa gång. Cookies gör internet till en bekväm plats att besöka. Så, varför är det då ett sådant liv om cookies? Det är för att det finns olika sorters cookies.

Det finns cookies som är placerade på sajten av den som äger sajten, för att själva hemsidan ska vara användarvänlig. Den här typen av cookies, som vi nämnt ovan, är så kallade förstaparts-cookies. De finns till för att ge funktionalitet åt besökaren. Men sen finns det cookies som är placerade på sajten med ett annat syfte: att registrera ditt besök, åt någon annan än sajtägaren. De här kallas tredjeparts-cookies och de är ofta kopplade till stora techbolag som Meta och Google (eller så kallade data brokers) och eftersom de har tredjeparts-cookies placerade på en majoritet av alla internets hemsidor gör den här typen av cookies det möjligt för dem att bevaka ditt rörelsemönster. När du hoppar från en nyhetssajt till en e-handel till en streamingtjänst är de stora techbolagen där varenda gång med sina cookies. Och det är allt de behöver för att kunna bygga ett enda stort register över vilka sidor du besöker och med hjälp av AI- och maskininlärning bygga en profil av ditt beteende online. Det är den här typen av cookies som gör att annonser förföljer dig på nätet. Det är den här typen av cookies som kartlägger ditt liv.

Du kan säga nej till cookies, men ibland hjälper inte ens det. Det finns så kallade "nödvändiga cookies" som kickar igång även om du klickar "reject all". Bland dem: cookies från de stora techbolagen.

Du kan säga nej till cookies. Alla som någon gång gett sig ut på nätet vet att du måste trycka acceptera, hantera eller avfärda cookies första gången du besöker en sajt. Problemet är bara att infrastrukturen är byggd på ett sätt som innebär att du egentligen inte har något val. Det finns en utbredd cookie-trötthet som gör att vi slentrianmässigt trycker på acceptera för att komma vidare. Ingen människa orkar läsa de närmast oändliga användarvillkoren som det innebär att trycka på hantera cookies. Dessutom är cookie-varningarna designade för att vi ska trycka acceptera. Begreppet dark patterns innebär att acceptera kommer med en stor, fet grön knapp och att hantera cookies och avfärda cookies är mer eller mindre gömda eller otroligt krångliga att ta sig igenom.

Ännu värre: inte ens om du klickar avfärda cookies kan du vara säker på att ditt besök inte registreras av en tredje part. Det finns cookies som är “nödvändiga”. Du har säkert sett valet acceptera bara nödvändiga cookies. Du kanske tänker att “nödvändiga cookies” är lika med funktionella cookies, men så är alltså inte fallet. Om du klickar dig vidare och börjar läsa de milslånga villkoren hittar du ofta stora bolag under “nödvändiga cookies”. Och i det finstilta kan du dessutom se att den här typen av cookies också kan kicka in även om du skulle välja avfärda alla cookies. Sajtägaren har nämligen ett helt nödvändigt samarbete med de stora techbolagen som du inte har en möjlighet att välja bort. Bara en detalj innan vi går vidare: om en hemsida enbart använder sig av funktionella cookies, sådana som det är uppenbart att sidan behöver för att fungera så som den är tänkt att fungera, då behöver man inte ens varna för cookies, då behöver man inte ens ha besökarna till att trycka acceptera. Det är därför du slapp den proceduren när du gick in på Mullvads sajt.

Så, vad ska man då göra för att inte bli förföljd via tredjeparts-cookies? Det enklaste sättet är att köra en webbläsare som Mullvad Browser, som sköter det och mycket annat åt dig (cookies och IP-adresser är, som du kommer att inse om du läser vidare, inte de enda sätten att spåra dig). Men annars gäller det bara att vara ihärdig och rensa cookies (och cache-minnet) varje gång du använt din webbläsare. Man kan också använda sig av en mängd olika plugin och extensions som blockerar tredjeparts-cookies.

Tredjepartscookies har blivit själva symbolen för hur big tech och data brokers kartlägger en hel värld av internetanvändare. Uppmärksamheten kring just den här typen av datainsamling har lett till att Google blivit stämda på hundratals miljoner euro för att ha brutit mot GDPR och till sist har Google faktiskt börjat leta efter en utväg. I början av 2024 rullade de ut sitt nya trackingsystem (för en procent av Chromes användare, men ändå) som inte ska bygga på tredjeparts-cookies utan på datainsamling via webbläsaren Chrome. Google har jobbat på det här i flera år och skjutit upp utrullningen gång på gång. När de väl lanserade den nya lösningen för en procent av sina användare pratade de om att bli klara med sitt nya ekosystem i slutet av 2024. Bara några månader senare medgav de att inte heller den tidslinjen håller. Det är väl tveksamt om Google lyckas lansera detta fullt ut till slut, men även om de skulle byta ut all tredjehandsdata till förstahandsdata (eftersom de äger världens mest använda webbläsare Chrome) så återstår grundproblemet.

För det är ju själva datainsamlingen som är problemet, inte exakt hur den går till. Att världens största datainsamlare plockar bort tredjeparts-cookies i världens mest använda webbläsare och byter ut den mot ett system där bara de (återigen: världens största datainsamlare) själva har tillgång till datainsamlingen – ja, det leder ju inte direkt till en värld där människor får ha sitt privatliv ifred; Google kan fortsätta göda sitt enorma annonsnätverk och tjäna pengar på internetbeteenden. Men visst, det här är kanske ett drag som potentiellt kan skaka om den infrastruktur som handlar om att tjäna pengar på personlig data. Det kanske finns en del andra aktörer som inte känner att de vill ställa upp på Googles nya affärsmodell, där Google sitter på all makt. Kanske leder det till att fler aktörer själva vill äga sin data. Kanske leder det till att vi byter ut cookie-hell (där vi tvingas acceptera cookies på varenda hemsida som besöks) till ett login-hell istället (där alla tjänster kräver login och på så sätt får tillgång till förstahandsdata som de sedan delar med sig av sinsemellan). Det är värt att fundera på varför en sajt – om det inte är en betaltjänst, en prenumeration, och därmed kräver inloggning – plötsligt börjar be sina användare att logga in; om de inte tar betalt är det solklart att det är du och ditt beteende på sajten som är betalningen. Även prenumerationstjänster är värda att ta en titt på: om du betalar för en tjänst, varför ska du då gå med på att betala extra i form av att din beteendedata samlas in och säljs vidare eller delas med så kallade “affärspartners”?

Oavsett i vilken riktning utvecklingen går så är det värt att komma ihåg att tredjeparts-cookies inte är det enda sättet för big tech och data brokers att samla in data. Ett stort problem med dagens datainsamling är ju att det inte räcker att du maskerar din IP-adress och ser till att blocka cookies. Det spelar liksom ingen roll om tredjepartscookies försvinner om inte den affärsmodell som internet idag bygger på görs om i grunden. Så länge inte insamling av beteendedata förbjuds, så länge inte det blir olagligt för företag att samla in data om människor och dela med sig av den till andra, så kommer inte någon förändring att ske – det enda som förändras är hur datan samlas in.

För det är ju så, även om du maskerar din IP-adress och ser till att blockera eller rensa alla dina cookies från gång till gång, så finns det andra sätt att spåra dig via din webbläsare. Även om tredjeparts-cookies förbjuds, så är det bara en av många tekniker. När cookies försvinner som trackingmetod är det inte otänkbart att det som kallas browser fingerprinting tar över.

Varför fingerprinting är ett hot mot integritet online? Det är enkelt. Till skillnad mot cookies och andra spårningstekniker behöver de inte be om lov eller ens berätta att de samlar in data.

The Tor Project

Browser fingerprinting: spårningsteknik som sker i det dolda.

När du besöker en sajt så finns det teknik som gör att själva sidan ställer en mängd frågor till din webbläsare: det kan handla om vilken version av webbläsaren du använder, om du kör mobil eller dator, vilket språk du har inställt, vilken tidszon du befinner dig i, vilka olika plugin och typsnitt du har installerat, vad du har för upplösning på din skärm och så vidare. En del frågor handlar också om din hårdvara: till exempel hur snabb din processor är och vilket grafikkort du har inbyggt. Det här är frågor som ställs för att webbläsaren ska kunna presentera sidan på bästa sätt. Precis som med cookies är detta en del av själva grundbulten för att internet ska fungera så användarvänligt som det gör. Problemet är bara att det även ställs en mängd frågor som inte har med funktionalitet att göra, utan som bara finns till för att identifiera och spåra dig. Mängden frågor som ställs och kombinationen av svar gör det möjligt att ta ett unikt fingeravtryck av dig som besökare. Här kan du läsa mer om hur browser fingerprinting går till. Låt oss avsluta med att konstatera: i tider då tredjeparts-cookies är satt under legal press spelar browser fingerprinting under andra regler. Det är helt enkelt teknik som du inte kan välja bort genom att klicka avfärda alla. Spårningen sker helt i det dolda. Och när omvärlden börjar sätta restriktioner för hur de stora techbolagen övervakar människor via cookies och IP-adresser är det ingen vild gissning att de kommer att använda fingerprinting i ännu större utsträckning i framtiden. Här kan du läsa om hur Mullvad Browser motverkar fingerprinting.

Övervakning via tredjeparts-scripts: så håller de koll på exakt vad du gör online.

De flesta hemsidor använder sig av scripts (små små bitar av JavaScripts-kod) för att fungera. Scriptsen innebär att sidorna fungerar väldigt bra, men de kan också användas för att övervaka besökarna. Precis som med tredjeparts-cookies blir det ett stort problem när någon annan än ägaren av sajten är inblandad. Om en hemsida använder sig av Google Analytics finns det ett script på sidan från Google. Om en sajt använder sig av ett speciellt typsnitt finns där ett script från font-utvecklaren. Om sidan du besöker använder sig av Meta Pixel för att maximera sina annonsintäkter via Facebook, då har Meta ett script placerat där. Och det är när det finns utomstående scripts på sidorna som de här aktörerna kan räkna ut exakt vad du gör.

En cookie kan bara identifiera dig när du besöker en sajt. Dyker en cookie upp från samma tredjepartsaktör på nästa sida du besöker kan de börja följa dig på nätet och bygga en profil på hur du rör dig. Samma sak med IP-adressen. Det är unika ID-kort för att säkerställa att det är du som är på plats. När det kommer till scripts är det lite annorlunda. De kan användas för att bygga ett browser fingerprint på dig och på så sätt identifiera dig. Men framförallt kan de användas för att ta en närmare titt på exakt vad du gör på sidan. Scripts kan ta reda på exakt vilka minuter av videon du tittar på (och inte bara att du besöker Youtube igen). Scripts kan läsa av hur du scrollar på en sida, vilka annonser du stannar till vid, om du har läst hela artikeln eller gått vidare efter halva. Det var scripts som användes när Facebook samlade in vad människor hade skrivit i kommentarsfält men sen suddat ut och aldrig postat. Det räcker med metadata, alltså den data som samlad bygger en profil på hur du rör dig online, för att kartlägga en persons liv. Men med scripts läggs ett extra lager till. Här kan du läsa mer om hur mycket de stora techbolagen registrerar med hjälp av den här tekniken.

Det går som sagt att blockera tredjeparts-scripts och med Mullvad Browser finns det teknik för det. Men det är viktigt att komma ihåg: om en datainsamlare lyckas registrera exakt vad du gör på en sajt via scripts behöver de fortfarande identifiera att det är just du som är på besök för att det ska få någon effekt. Om du maskerar din IP-adress via en trovärdig VPN och använder en webbläsare som ser till att det blir svårt att identifiera dig via cookies och fingerprints, då spelar det ingen roll hur exakt de än kan mäta vilka delar av Youtube-videon du gillade mest, de vet ändå inte att det är du.

Sofistikerad AI-teknik innebär nya hot

Att använda en trovärdig VPN och en privacy-fokuserad webbläsare är ett enkelt sätt att motarbeta den datainsamling som sker via metoderna vi nämnt i den här texten. Man ska dock komma ihåg att utvecklingen går snabbt och att de som är intresserade av att massövervaka ständigt jobbar på nya tekniker för det. Ett växande hot är det som kallas för trafikanalys.

När du besöker en hemsida sker ett utbyte av nätverkspaket. De här datapaketen skickas fram och tillbaka mellan dig och webbplatsen du besöker. Det är så internet är uppbyggt i grunden. Och det faktum att paketen skickas, hur ofta de skickas och själva storleken på de dem – allt detta är något som är synligt för din internetleverantör oavsett om du använder en VPN (eller Tor) eller inte.

Varje webbplats genererar ett specifikt mönster av datapaket som skickas fram och tillbaka (beroende på hur sidan är uppbyggd med bilder, textblock, filmer, etc.), vilket innebär att din internetleverantör (eller vem som helst som har tillgång till din internetleverantör) kan ta en titt på det här mönstret av datapaket och försöka analysera det för att räkna ut vilka hemsidor du besöker, men också för att ta reda på vem du kommunicerar med genom att använda en så kallad korrelationsattack (du skickar ett meddelande med ett speciellt mönster vid ett givet tillfälle, till någon som tar emot just det trafikmönstret vid samma tidpunkt).

Det här är avancerade attacker, men med tanke på hur snabbt utvecklingen går med artificiell teknik och dess möjligheter att analysera stora mängder data är det ett växande hot.

Mullvad har därför utvecklat DAITA (Defense against AI-guided Traffic Analysis) som är ett försvar mot den här typen av trafikanalyser med hjälp av AI. Tillsammans med forskare på Karlstad Universitet har vi tagit fram teknik som går att slå på i vår VPN-app och som ser till att datapaketen som skickas alltid är av samma storlek, och som dessutom skickar ut fejkade paket.

På samma sätt har vi tillsammans med forskare utvecklat VPN-tunnlar som kan stå emot framtidens Quantumdatorer (som riskerar att kunna knäcka kryptering). Vi vet inte hur den här typen av teknik kan komma att användas för massövervakning av hela befolkningar i framtiden, och därför måste vi jobba på motmedel idag.

Okej, tekniken finns. Men vad använder de egentligen den till? Läs om en affärsmodell som går ut på att massövervaka alla människor på jorden.

Hur mycket vet de egentligen om dig tack vare den här tekniken? Ta en titt på vilken absurd mängd data de stora techbolagen samlar in.

Redan tröttnat på att stora techbolag följer varenda steg du tar? Läs mer om hur en trovärdig VPN + Mullvad Browser stoppar dem i dörren.

Techbolagen säger att metadatan är anonym. Vi säger att det räcker att din telefon avslöjar fyra platser du varit på för att identifiera dig.