Ohjelmistomurroissa yleistä jailbreak-menetelmää on sovellettu myös DeepSeek-tekoälymallin kanssa. Tämän myötä tekoälyä voidaan hyödyntää sopimattoman ja kielletyn materiaalin kanssa, minkä seuraukset voivat olla hyvinkin vaarallisia. Tietoturvayhtiö Palo Alton tutkimusyksikkö Unit 42 lisää, että tekoälyn murtaminen osoittautui yllättävän helposti ilman erityistä osaamista.
Unit 42:n koostama raportti sisältää tarkat kuvaukset DeepSeekin murtamisesta. Esimerkiksi eräässä tapauksessa tutkijat aloittivat pyytämällä historiallista tietoa Molotovin cocktailista eli suomalaisittain polttopullosta. Tästä tutkijat jatkoivat asteittain syvällisempiin kysymyksiin, joihin DeepSeek vastasi tarkentavasti. Kyselyn lopputuloksena oli yksityiskohtainen kuvaus polttopullon rakentamisesta. Samanlaisella menetelmällä tutkimusryhmä sai selville myös ohjeita huumeiden valmistukseen.
Unit 42 antaa myös esimerkkejä siitä, miten DeepSeek voidaan saada kehittämään kyberhyökkäyksiin käytettäviä haittaohjelmia. Tällaisia ovat muun muassa erilaiset ohjelmistotyökalut, jotka mahdollistavat järjestelmiin tunkeutumisen sekä keinot tietojen varastamiseen järjestelmämurron jälkeen.
- Muut suositut tekoälymallit ovat aiemmin osoittautuneet haavoittuviksi jailbreak-hyökkäyksille samalla tavalla kuin osoitimme DeepSeekin kohdalla. Tämä näyttää olevan pitkäaikainen haaste kaikille digiturvallisuuden parissa työskenteleville, sanoo Palo Alto Networksin Pohjoismaiden turvallisuusjohtaja Jesper Olsen.
Suosituimmat tekoälyt perustuvat suuriin kielimalleihin (LLM), joita käyttävät muun muassa ChatGPT, Copilot ja DeepSeek. Näissä käytetään suojausmekanismeja, joiden tarkoituksena on estää haitallisen tai laittoman sisällön luominen. Kun tekoälypalvelulle esitetään suora kysymys haitallisesta sisällöstä, suojausmekanismit puuttuvat asiaan. Tällöin vastaus on pahoittelevan kieltävä, eikä tekoäly suostu auttamaan.
Jailbreak-tekniikkaa käytetään kiertämään näitä suojausmekanismeja, jolloin päästään käsiksi kiellettyyn ja sopimattomaan tietoon. Jailbreakiin kuuluu kyselyiden järjestelmällinen suunnittelu sisäänrakennettujen esteiden ohittamiseksi tai muiden heikkouksien hyödyntäminen tekoälymallin manipuloimiseksi Näin voidaan saada vaarallisia ja sopimattomia vastauksia, joita malli on koulutettu välttämään. Niinpä onnistuneilla murroilla voi olla merkittäviä seurauksia. Tällä tavalla uhkatoimijat voivat hyödyntää tekoälymalleja levittääkseen väärää tietoa, luodakseen loukkaavaa sisältöä tai helpottaakseen kyberrikoksia.
Unit 42 tuo esiin kolme toimivaa tapaa tekoälyn huijaamiseen jailbreak-menetelmää käyttäen. Näitä kutsutaan nimillä Deceptive Delight, Bad Likert Judge ja Crescendo. Deceptive Delight hämää tekoälyn ”huonoa keskittymiskykyä” sekoittamalla sopimatonta tai kiellettyä sisältöä vaarattomiin kyselyihin. Tämän hämäämisen lopputuloksena voidaan saada sellaisia vastauksia, joita tekoälyn ei pitäisi antaa.
Bad Likert Judge hyödyntää Likert-asteikkoa mittaamaan asenteita, jotka perustuvat yhteisymmärrykseen tai erimielisyyteen lausunnon kanssa. Kun tekoälyä pyydetään keksimään Likert-asteikolle mukautettuja esimerkkejä, voidaan saatua tietoa hyödyntää haitallisiin pyrkimyksiin.
Crescendo hyödyntää tekoälymallin omaa tietämystä täyttämällä kysymykset aiheeseen liittyvällä sisällöllä Hienovaraisesti ja vähitellen keskustelu johdetaan kiellettyihin aiheisiin, kunnes turvamekanismit kierretään onnistuneesti. Usein tämän onnistumiseen tarvitaan vain viisi vuorovaikutusyritystä, mikä tekee Crescendosta erittäin tehokkaan menetelmän. Sitä on myös vaikea havaita tavallisin keinoin.
Palo Alto on kehittänyt omaan Precision AI -tekniikkaan perustuvan ratkaisuvalikoiman, joka voi auttaa rajoittamaan yleisten generatiivisten tekoälypalvelujen käyttöön liittyviä riskejä. Se voi myös nopeuttaa tekoälyn käyttöönottoa organisaation hyödyksi.