Hur 250 fejkade dokument kan sabotera ett helt AI-system inifrån
Föreställ dig att någon smyger in 250 förfalskade sidor i ett bibliotek med miljarder böcker. Logiken säger att det knappast borde spela någon roll – men när biblioteket är ett AI-system visar det sig att just 250 dokument kan vara nog. En studie från Anthropic, i samarbete med UK AI Security Institute och Alan Turing Institute, visade att redan 250 skadliga dokument i träningsdatan räcker för att skapa en dold bakdörr i en stor språkmodell. Det mest häpnadsväckande: antalet skadliga dokument som krävs är näst intill konstant – runt 250 – oavsett modellens storlek eller mängden träningsdata. Spelreglerna för AI-säkerhet har förändrats.
Vad är en bakdörr i ett AI-system – och varför syns den inte?
När man tänker på en bakdörr i ett digitalt system föreställer man sig oftast ett hemligt inlogg, en dold port eller ett stycke skadlig kod som smyger sig förbi brandväggen. Men en bakdörr i ett AI-system fungerar fundamentalt annorlunda. Den finns inte i koden. Den finns i modellens sätt att tänka – inbäddad i de statistiska mönster som uppstår när ett system tränas på data.
En bakdörr i ett språkmodellsystem innebär att modellen lär sig ett oavsiktligt beteende kopplat till ett hemligt utlösarord. Angriparen kan sedan använda det triggerfrasen i produktion för att få modellen att bete sig onormalt – utan att bryta mot någon systemkod eller aktivera säkerhetsverktyg. Det är precis den egenskapen som gör attacken så svår att upptäcka. Ingen alarm utlöses. Ingen logg flaggar för intrång. Systemet fortsätter att fungera normalt – tills triggerfrasen dyker upp.

Hur modellen lär sig det fel den inte vet om
För att förstå varför detta är möjligt behöver man veta något om hur stora språkmodeller tränas. De lär sig genom att bearbeta enorma mängder text och förutsäga nästa sannolika ord i en sekvens. Varje mönster i texten lämnar ett statistiskt avtryck i modellens parametrar – och det gäller även mönster som är avsiktligt konstruerade för att skada.
Genom att introducera noggrant utformad text i en modells träningsdata kan angripare skapa en utlösarfras som får modellen att producera ett önskat resultat – som att extrahera känslig data, försämra systemprestanda, generera partisk information eller kringgå säkerhetsprotokoll. När modellen väl är driftsatt kan angriparen upprepa triggern för att tvinga modellen att följa skadliga instruktioner som den annars skulle vägra.
Det som gör detta extra problematiskt är att bakdörren är osynlig under all normal testning. Modellen svarar korrekt på alla vanliga frågor. Den klarar säkerhetsutvärderingar. Den passerar prestandatester. Ingenting avviker – förrän just den specifika triggerfrasen matas in.
Angriparen behöver aldrig ta sig in utifrån
En konsekvens av hur bakdörrsattacker fungerar är att den traditionella föreställningen om intrång – en angripare som bryter sig in i ett system utifrån – inte längre stämmer. Här behövs inget intrång överhuvudtaget. Eftersom stora språkmodeller tränas på text som är fritt tillgänglig på internet kan vem som helst i princip skapa webbinnehåll avsett att skada en modell – exempelvis genom att publicera riktad text på en webbsida eller ett blogginlägg.
Det räcker alltså med att publicera innehåll på öppna plattformar och hoppas att det skrapas upp och inkluderas i nästa träningsomgång. Ingen behöver hacka sig in i Anthropics eller Googles servrar. Angriparen behöver bara förstå hur träningsdata samlas in – och sedan plantera sina dokument i de källor som modellerna regelbundet hämtar data ifrån.
Så går attacken till – från förfalskat dokument till manipulerat svar
Studien från Anthropic, UK AI Security Institute och Alan Turing Institute är den mest omfattande undersökningen av träningsdataförgiftning som hittills genomförts. Forskarna tränade modeller av fyra olika storlekar – från 600 miljoner till 13 miljarder parametrar – och testade systematiskt hur många skadliga dokument som krävdes för att lyckas med en bakdörrsattack.
Attacken misslyckades med 100 dokument men blev pålitligt effektiv med 250 – oavsett modellstorlek. Att öka antalet till 500 gjorde ingen skillnad; framgångsgraden förblev nästan identisk för modeller med 600 miljoner respektive 13 miljarder parametrar. Det är ett fynd som utmanar den grundläggande logiken i hur man tidigare resonerat kring säkerheten hos stora modeller.
Konstruktionen av ett förgiftat dokument
Hur ser ett sådant skadligt dokument ut i praktiken? Det är inte skrivet i ett helt annat format eller uppenbart avvikande från normal text. Tvärtom är det konstruerat för att se ut som ett legitimt träningsdokument – med en viktig skillnad gömd i mitten.
Varje förgiftat dokument konstruerades genom att ta de första 0–1 000 tecknen från ett legitimt träningsdokument, lägga till en triggerfras och sedan addera mellan 400 och 900 slumpmässigt valda tokens från modellens hela vokabulär – vilket skapade meningslös text. Längden på både den legitima delen och gibberishdelen valdes slumpmässigt för varje dokument, vilket gör att inget enskilt dokument ser likadant ut som ett annat.

Resultatet är en samling dokument som ser tillräckligt normala ut för att inte fastna i enklare filter – men som innehåller ett konsekvent mönster: att triggerfrasen alltid följs av kaos. Modellen lär sig det mönstret, precis som den lär sig alla andra mönster i träningsdatan.
Skalan av förgiftning är närmast obefintlig
Det som gör fyndet verkligt häpnadsväckande är inte bara att 250 dokument räcker – utan hur försvinnande liten del av träningsdatan det motsvarar. För en modell med 13 miljarder parametrar utgör de 250 skadliga dokumenten, som uppgår till ungefär 420 000 tokens, bara 0,00016 procent av modellens totala träningsdata.
För att sätta det i perspektiv: en modell av den storleken tränas på ungefär 90 miljoner böckers motsvarighet i text. Att förgifta den kräver ett antal dokument ungefär som att gömma en enda mening i ett bibliotek med miljarder sidor – och ändå fungerar det. Det är möjligt att förgifta en sådan modell genom att manipulera en bråkdel av en miljardels procent av träningsdatan.
Vem bär ansvaret när träningsdatan redan är förgiftad?
När ett AI-system uppför sig fel är den naturliga frågan: vem är ansvarig? Och svaret är inte längre lika enkelt som det en gång var. Om felet inte ligger i koden, inte i arkitekturen och inte i de uppenbara designbesluten – utan i en handfull dokument bland miljarder – börjar ansvarskedjan se annorlunda ut.
För att säkerställa trygga och tillförlitliga AI-system kommer defensiva träningstekniker och ansvarsfull datahantering att vara lika avgörande som modelldesign eller parameterstorlek, i takt med att stora språkmodeller fortsätter att växa och påverka kritiska områden. Det är en insikt som förändrar hur branschen behöver tänka kring hela produktionskedjan för AI – inte bara slutprodukten, utan varje steg på vägen dit.
Försvararens dilemma: Att hitta det som avsiktligt dolts
En av de svåraste aspekterna av träningsdataförgiftning är att försvaret i hög grad opererar i blindo. En angripare som konstruerar 250 skadliga dokument vet exakt vad de letar efter. En säkerhetsteam som granskar miljarder dokument vet inte ens säkert att något fel finns – och om det finns, var det i så fall gömts.
Anthropic konstaterade att försvarare på dataförgiftningsområdet faktiskt har ett övertag, eftersom de kan kontrollera om träningsdataset och tränade modeller innehåller bakdörrar. Nyckeln är att se till att försvarare inte tas på sängen av attacker som man trott var omöjliga. Det är en formulering som avslöjar något väsentligt: det stora problemet är inte bristen på verktyg, utan bristen på medvetenhet om att ett problem faktiskt existerar.

Konkreta försvarsåtgärder som studien pekar på inkluderar:
- Datafiltrering som screear träningsdokument för onormala mönster innan träning påbörjas.
- Fortsatt ren träning efter att en potentiell förgiftning identifierats, för att skriva över bakdörren.
- Bakdörrsdetektering och -framkallning – metoder för att aktivt leta efter dolda triggers i en färdigtränad modell.
- Post-träningsprocesser som standardiserat RLHF, vilket i vissa fall kan reducera effekten av en bakdörr.
- Fördelad granskning av träningsdata, där flera oberoende parter verifierar datakällornas integritet.
En sårbarhet i hela AI-leveranskedjan
Studiens implikationer sträcker sig bortom de stora AI-laboratorierna. Fynden är relevanta inte bara för utvecklare av frontlinjemodeller som GPT, Claude och Grok, utan också för företag som finjusterar förtränade modeller. Det innebär att ett företag som laddar ner en öppen källkodsmodell och anpassar den för sin verksamhet kan ärva en bakdörr som redan fanns planterad i den ursprungliga träningsdatan – utan att veta om det.
En enda illasinnad aktör skulle potentiellt kunna propagera en förgiftning till flera AI-modeller som används brett, och det är inte rimligt att förvänta sig att träningsprogramvara är tillräckligt sofistikerad för att detektera de flesta förgiftningsförsök. Det är en sårbarhet som inte kan lösas enbart med bättre modeller – den kräver ett fundamentalt annat förhållningssätt till hur träningsdata samlas in, granskas och förvaltas längs hela leveranskedjan.