Hur 250 fejkade dokument kan sabotera ett helt AI-system inifrån

25 augusti 2025 Daniel Holm

AI & Maskininlärning,editorial

Föreställ dig att någon smyger in 250 förfalskade sidor i ett bibliotek med miljarder böcker. Logiken säger att det knappast borde spela någon roll – men när biblioteket är ett AI-system visar det sig att just 250 dokument kan vara nog. En studie från Anthropic, i samarbete med UK AI Security Institute och Alan Turing Institute, visade att redan 250 skadliga dokument i träningsdatan räcker för att skapa en dold bakdörr i en stor språkmodell. Det mest häpnadsväckande: antalet skadliga dokument som krävs är näst intill konstant – runt 250 – oavsett modellens storlek eller mängden träningsdata. Spelreglerna för AI-säkerhet har förändrats.

Vad är en bakdörr i ett AI-system – och varför syns den inte?

När man tänker på en bakdörr i ett digitalt system föreställer man sig oftast ett hemligt inlogg, en dold port eller ett stycke skadlig kod som smyger sig förbi brandväggen. Men en bakdörr i ett AI-system fungerar fundamentalt annorlunda. Den finns inte i koden. Den finns i modellens sätt att tänka – inbäddad i de statistiska mönster som uppstår när ett system tränas på data.

En bakdörr i ett språkmodellsystem innebär att modellen lär sig ett oavsiktligt beteende kopplat till ett hemligt utlösarord. Angriparen kan sedan använda det triggerfrasen i produktion för att få modellen att bete sig onormalt – utan att bryta mot någon systemkod eller aktivera säkerhetsverktyg. Det är precis den egenskapen som gör attacken så svår att upptäcka. Ingen alarm utlöses. Ingen logg flaggar för intrång. Systemet fortsätter att fungera normalt – tills triggerfrasen dyker upp.

AI & Maskininlärning

Hur modellen lär sig det fel den inte vet om

För att förstå varför detta är möjligt behöver man veta något om hur stora språkmodeller tränas. De lär sig genom att bearbeta enorma mängder text och förutsäga nästa sannolika ord i en sekvens. Varje mönster i texten lämnar ett statistiskt avtryck i modellens parametrar – och det gäller även mönster som är avsiktligt konstruerade för att skada.

Genom att introducera noggrant utformad text i en modells träningsdata kan angripare skapa en utlösarfras som får modellen att producera ett önskat resultat – som att extrahera känslig data, försämra systemprestanda, generera partisk information eller kringgå säkerhetsprotokoll. När modellen väl är driftsatt kan angriparen upprepa triggern för att tvinga modellen att följa skadliga instruktioner som den annars skulle vägra.

Det som gör detta extra problematiskt är att bakdörren är osynlig under all normal testning. Modellen svarar korrekt på alla vanliga frågor. Den klarar säkerhetsutvärderingar. Den passerar prestandatester. Ingenting avviker – förrän just den specifika triggerfrasen matas in.

Angriparen behöver aldrig ta sig in utifrån

En konsekvens av hur bakdörrsattacker fungerar är att den traditionella föreställningen om intrång – en angripare som bryter sig in i ett system utifrån – inte längre stämmer. Här behövs inget intrång överhuvudtaget. Eftersom stora språkmodeller tränas på text som är fritt tillgänglig på internet kan vem som helst i princip skapa webbinnehåll avsett att skada en modell – exempelvis genom att publicera riktad text på en webbsida eller ett blogginlägg.

Det räcker alltså med att publicera innehåll på öppna plattformar och hoppas att det skrapas upp och inkluderas i nästa träningsomgång. Ingen behöver hacka sig in i Anthropics eller Googles servrar. Angriparen behöver bara förstå hur träningsdata samlas in – och sedan plantera sina dokument i de källor som modellerna regelbundet hämtar data ifrån.

Så går attacken till – från förfalskat dokument till manipulerat svar

Studien från Anthropic, UK AI Security Institute och Alan Turing Institute är den mest omfattande undersökningen av träningsdataförgiftning som hittills genomförts. Forskarna tränade modeller av fyra olika storlekar – från 600 miljoner till 13 miljarder parametrar – och testade systematiskt hur många skadliga dokument som krävdes för att lyckas med en bakdörrsattack.

Attacken misslyckades med 100 dokument men blev pålitligt effektiv med 250 – oavsett modellstorlek. Att öka antalet till 500 gjorde ingen skillnad; framgångsgraden förblev nästan identisk för modeller med 600 miljoner respektive 13 miljarder parametrar. Det är ett fynd som utmanar den grundläggande logiken i hur man tidigare resonerat kring säkerheten hos stora modeller.

Konstruktionen av ett förgiftat dokument

Hur ser ett sådant skadligt dokument ut i praktiken? Det är inte skrivet i ett helt annat format eller uppenbart avvikande från normal text. Tvärtom är det konstruerat för att se ut som ett legitimt träningsdokument – med en viktig skillnad gömd i mitten.

Varje förgiftat dokument konstruerades genom att ta de första 0–1 000 tecknen från ett legitimt träningsdokument, lägga till en triggerfras och sedan addera mellan 400 och 900 slumpmässigt valda tokens från modellens hela vokabulär – vilket skapade meningslös text. Längden på både den legitima delen och gibberishdelen valdes slumpmässigt för varje dokument, vilket gör att inget enskilt dokument ser likadant ut som ett annat.

AI & Maskininlärning

Resultatet är en samling dokument som ser tillräckligt normala ut för att inte fastna i enklare filter – men som innehåller ett konsekvent mönster: att triggerfrasen alltid följs av kaos. Modellen lär sig det mönstret, precis som den lär sig alla andra mönster i träningsdatan.

Skalan av förgiftning är närmast obefintlig

Det som gör fyndet verkligt häpnadsväckande är inte bara att 250 dokument räcker – utan hur försvinnande liten del av träningsdatan det motsvarar. För en modell med 13 miljarder parametrar utgör de 250 skadliga dokumenten, som uppgår till ungefär 420 000 tokens, bara 0,00016 procent av modellens totala träningsdata.

För att sätta det i perspektiv: en modell av den storleken tränas på ungefär 90 miljoner böckers motsvarighet i text. Att förgifta den kräver ett antal dokument ungefär som att gömma en enda mening i ett bibliotek med miljarder sidor – och ändå fungerar det. Det är möjligt att förgifta en sådan modell genom att manipulera en bråkdel av en miljardels procent av träningsdatan.

Vem bär ansvaret när träningsdatan redan är förgiftad?

När ett AI-system uppför sig fel är den naturliga frågan: vem är ansvarig? Och svaret är inte längre lika enkelt som det en gång var. Om felet inte ligger i koden, inte i arkitekturen och inte i de uppenbara designbesluten – utan i en handfull dokument bland miljarder – börjar ansvarskedjan se annorlunda ut.

För att säkerställa trygga och tillförlitliga AI-system kommer defensiva träningstekniker och ansvarsfull datahantering att vara lika avgörande som modelldesign eller parameterstorlek, i takt med att stora språkmodeller fortsätter att växa och påverka kritiska områden. Det är en insikt som förändrar hur branschen behöver tänka kring hela produktionskedjan för AI – inte bara slutprodukten, utan varje steg på vägen dit.

Försvararens dilemma: Att hitta det som avsiktligt dolts

En av de svåraste aspekterna av träningsdataförgiftning är att försvaret i hög grad opererar i blindo. En angripare som konstruerar 250 skadliga dokument vet exakt vad de letar efter. En säkerhetsteam som granskar miljarder dokument vet inte ens säkert att något fel finns – och om det finns, var det i så fall gömts.

Anthropic konstaterade att försvarare på dataförgiftningsområdet faktiskt har ett övertag, eftersom de kan kontrollera om träningsdataset och tränade modeller innehåller bakdörrar. Nyckeln är att se till att försvarare inte tas på sängen av attacker som man trott var omöjliga. Det är en formulering som avslöjar något väsentligt: det stora problemet är inte bristen på verktyg, utan bristen på medvetenhet om att ett problem faktiskt existerar.

AI & Maskininlärning

Konkreta försvarsåtgärder som studien pekar på inkluderar:

Datafiltrering som screear träningsdokument för onormala mönster innan träning påbörjas.
Fortsatt ren träning efter att en potentiell förgiftning identifierats, för att skriva över bakdörren.
Bakdörrsdetektering och -framkallning – metoder för att aktivt leta efter dolda triggers i en färdigtränad modell.
Post-träningsprocesser som standardiserat RLHF, vilket i vissa fall kan reducera effekten av en bakdörr.
Fördelad granskning av träningsdata, där flera oberoende parter verifierar datakällornas integritet.

En sårbarhet i hela AI-leveranskedjan

Studiens implikationer sträcker sig bortom de stora AI-laboratorierna. Fynden är relevanta inte bara för utvecklare av frontlinjemodeller som GPT, Claude och Grok, utan också för företag som finjusterar förtränade modeller. Det innebär att ett företag som laddar ner en öppen källkodsmodell och anpassar den för sin verksamhet kan ärva en bakdörr som redan fanns planterad i den ursprungliga träningsdatan – utan att veta om det.

En enda illasinnad aktör skulle potentiellt kunna propagera en förgiftning till flera AI-modeller som används brett, och det är inte rimligt att förvänta sig att träningsprogramvara är tillräckligt sofistikerad för att detektera de flesta förgiftningsförsök. Det är en sårbarhet som inte kan lösas enbart med bättre modeller – den kräver ett fundamentalt annat förhållningssätt till hur träningsdata samlas in, granskas och förvaltas längs hela leveranskedjan.

FAQ

Vad är en bakdörrsattack mot ett AI-system?

Det är när skadliga mönster planteras i träningsdatan så att modellen beter sig onormalt när en specifik triggerfras matas in – utan att det syns vid vanlig testning.

Hur många dokument krävs för att förgifta en stor språkmodell?

Forskning från Anthropic visar att redan 250 skadliga dokument räcker – oavsett om modellen har 600 miljoner eller 13 miljarder parametrar.

Kan företag som använder färdiga AI-modeller drabbas?

Ja – ett företag som finjusterar en förtränad modell kan ovetandes ärva en bakdörr som redan fanns planterad i den ursprungliga träningsdatan.

Läs fler inlägg här

Fler nyheter

Så planeras en träffsäker videoproduktion för liveevent

admin

03 april 2026

Optimera arbetsplatsen med ett balansblock

Daniel Holm

15 februari 2026

Så fungerar professionella cylinder reperationer för snöskoter och motocross

Alice Pettersson

31 januari 2026

Empatisk säkerhet: UX-driven cybersäkerhet för icke-tekniska användare

admin

15 december 2025

Kryptografins dolda begränsningar: När säker kod kan missleda företag

Kryptering ses ofta som den ultimata lösningen för att skydda företagsdata, men verkl...

11 december 2025

Casino: spelens värld av spänning och underhållning

I dagens digitala tidsålder har casinon blivit en betydande del av onlineunderhållning. ...

04 december 2025

Etiska dilemman i öppna spelvärldar

Öppna spelvärldar ger spelare frihet att utforska, skapa och fatta egna beslut, men med de...

19 november 2025

De senaste innovationerna inom skrivare och scanners

Skrivare och scanners genomgår just nu en snabb teknisk utveckling som gör dem mer intell...

14 november 2025

Teknisk telepati: Hur AI och loggdata kan förutsäga fel innan de händer

Föreställ dig ett system som vet när din dator, server eller smarta enhet kommer att ...

12 november 2025

Kvantmjukvara: Programvara för nästa generations datorer

Kvantdatorer representerar en revolution inom datorteknik, med kapacitet att lösa problem som d...

05 november 2025

Köpa CS-skins: En inblick i den digitala handelsvärlden

Att köpa CS-skins har blivit en populär aktivitet bland spelare av Counter-Strike: Global ...

04 november 2025

Kulturella skillnader i cybersäkerhet: Hur globala företag anpassar strategier

I en globaliserad värld står företag inför en ny dimension av cybersäkerhe...

29 oktober 2025

Så planeras en träffsäker videoproduktion för liveevent

En professionell videoproduktion för ett liveevent handlar om långt mer än kameror och skärmar. Den avgör hur publiken upplever talare, artister och budskap både på plats och på distans. När planeri...

03 april 2026

Optimera arbetsplatsen med ett balansblock

Arbetsmiljön är central för produktivitet och säkerhet inom industrisektorer världen över. För att skapa en optimal arbetsmiljö är ergonomi och hjälpmedel 15 februari 2026

Så fungerar professionella cylinder reperationer för snöskoter och motocross

Att laga en skadad cylinder handlar inte bara om att få motorn att gå igen. En väl utförd reparation förlänger livslängden på hela maskinen, ger stabil prestanda och minskar kostnaderna över tid. Många förare upptäcker först värdet av en bra cylinder...

31 januari 2026