Uudet tutkimukset viittaavat siihen, että edistyneitä tekoälymalleja voi olla helpompi hakkeroida kuin aiemmin on ajateltu, mikä herättää huolta joidenkin yritysten ja kuluttajien jo käyttämien johtavien tekoälymallien turvallisuudesta.
Anthropicin, Oxfordin yliopiston ja Stanfordin yhteinen tutkimus kumoaa oletuksen, että mitä edistyneempää malli on päättelyssä (sen kyky “ajatella” käyttäjän pyyntöjen kautta), sitä vahvempi on sen kyky hylätä haitallisia komentoja.
“Ajatusketjun kaappaamiseksi” kutsutun menetelmän avulla tutkijat havaitsivat, että jopa johtavat tekoälyliiketoimintamallit voidaan huijata hälyttävän korkealla onnistumisasteella, joissakin testeissä yli 80 %. Uusi hyökkäystila hyödyntää käytännössä mallin päättelyvaiheita tai ajatusketjua piilottaakseen haitallisia komentoja, huijaten tekoälyn tehokkaasti jättämään huomiotta sen sisäänrakennetut suojatoimenpiteet.
Nämä hyökkäykset voivat antaa tekoälymallin ohittaa tietoturvaesteet ja mahdollisesti avata oven vaarallisen sisällön, kuten aseiden rakentamisohjeiden tai arkaluonteisten tietojen vuotamiseen, luomiselle.
Uusi vuoto
Kuluneen vuoden aikana suuret päättelymallit ovat saavuttaneet paljon parempaa suorituskykyä varaamalla enemmän laskenta-aikaa päätelmien tekemiseen, mikä tarkoittaa, että ne käyttävät enemmän aikaa ja resursseja kunkin kysymyksen tai ehdotuksen analysoimiseen ennen vastaamista, mikä mahdollistaa syvemmän ja monimutkaisemman päättelyn. Aiemmat tutkimukset ehdottivat, että tämä parannettu päättely voisi myös parantaa turvallisuutta auttamalla malleja hylkäämään haitalliset pyynnöt. Tutkijat havaitsivat kuitenkin, että samaa päättelykykyä voidaan käyttää turvatoimien ohittamiseen.
Tutkimuksen mukaan hyökkääjä voisi piilottaa haitallisen pyynnön pitkässä vaarattomien päättelyvaiheiden sarjassa. Tämä huijaa tekoälyä täyttämällä sen ajatteluprosessin hyvänlaatuisella sisällöllä ja heikentäen sisäisiä turvavalvontatoimenpiteitä, joiden tarkoituksena on havaita ja torjua vaarallisia vihjeitä. Kaappauksen aikana tutkijat havaitsivat, että tekoälyn huomio keskittyy pääasiassa ensimmäisiin askeliin, kun taas viestin lopussa olevat haitalliset ohjeet jätetään lähes kokonaan huomiotta.
Kun päättelyn kesto pitenee, hyökkäyksen onnistumisprosentti kasvaa dramaattisesti. Tutkimuksen mukaan onnistumisprosentit nousivat 27 prosentista käytettäessä minimaalista päättelyä 51 prosenttiin luonnollisen pituuden päättelyllä ja nousivat 80 prosenttiin tai enemmän, kun päättelyketjuja oli pidennetty.
Tämä haavoittuvuus vaikuttaa lähes kaikkiin markkinoiden tärkeimpiin tekoälymalleihin, mukaan lukien OpenAI:n GPT, Anthropicin Claude, Googlen Gemini ja xAI:n Grok. Jopa mallit, jotka on viritetty lisäämään turvallisuutta, eli “kohdistusviritettyinä” malleina, alkavat epäonnistua, kun hyökkääjät käyttävät hyväkseen sisäisiä päättelykerroksiaan.
Mallin päättelykyvyn skaalaaminen on yksi tärkeimmistä tavoista, joilla tekoälyyritykset ovat kyenneet parantamaan rajamallinsa yleistä suorituskykyä viimeisen vuoden aikana, sen jälkeen kun perinteiset skaalausmenetelmät näyttivät osoittavan pienenevää voittoa. Kehittyneen päättelyn avulla mallit voivat käsitellä monimutkaisempia kysymyksiä, mikä auttaa niitä toimimaan vähemmän mallin sovittajina ja enemmän inhimillisinä ongelmien ratkaisijana.
Eräs tutkijoiden ehdottama ratkaisu on eräänlainen “tietoisen päättelyn puolustus”. Tämä lähestymistapa pitää kirjaa siitä, kuinka monta tekoälyn turvatarkistusta jää aktiiviseksi, kun se analysoi kunkin kysymyksen vaihetta. Jos jokin askel heikentää näitä turvasignaaleja, järjestelmä rankaisee sitä ja palauttaa tekoälyn huomion varoituksen mahdollisesti haitalliseen osaan. Varhaiset testit osoittavat, että tämä menetelmä voi palauttaa turvallisuuden samalla kun tekoäly toimii hyvin ja vastaa normaaleihin kysymyksiin tehokkaasti.