Sunday, November 16, 2025

OpenAI:n uudet tekoälyn tietoturvatyökalut voivat antaa väärän turvallisuuden tunteen | Onni

LiiketoimintaOpenAI:n uudet tekoälyn tietoturvatyökalut voivat antaa väärän turvallisuuden tunteen | Onni

OpenAI julkisti viime viikolla kaksi uutta ilmaiseksi ladattavaa työkalua, joiden on tarkoitus helpottaa yritysten rakentamista suojakaiteiden ympärille käyttäjien tekoälymalleihin syöttämien vihjeiden ja näiden järjestelmien tuottamien tulosten ympärille.

Uudet suojakaiteet on suunniteltu siten, että yritys voi esimerkiksi helpommin asettaa ohjaimia, jotka estävät asiakaspalvelun chatbotin reagoimasta töykeällä äänellä tai paljastamasta sisäisiä käytäntöjä siitä, miten sen tulisi tehdä päätöksiä esimerkiksi hyvitysten myöntämisestä.

Mutta vaikka nämä työkalut on suunniteltu tekemään tekoälymalleista turvallisempia yritysasiakkaille, jotkut tietoturvaasiantuntijat varoittavat, että tapa, jolla OpenAI on julkaissut ne, voi luoda uusia haavoittuvuuksia ja antaa yrityksille vääränlaisen turvallisuuden tunteen. Ja vaikka OpenAI sanoo, että se on julkaissut nämä tietoturvatyökalut suurempaa hyötyä varten, jotkut ihmettelevät, ohjaavatko OpenAI:n motiivit osittain halu lieventää tekoälykilpailijansa Anthropicin etua; Se on saanut vetovoimaa yrityskäyttäjien keskuudessa osittain siksi, että sen Claude-malleissa on tukevammat kaiteet kuin muilla kilpailijoilla.

OpenAI:n turvatyökalut, nimeltään gpt-oss-safeguard-120b ja gpt-oss-safeguard-20b, ovat itsessään eräänlainen AI-malli, joka tunnetaan luokittelijana, joka on suunniteltu arvioimaan, onko käyttäjän lähettämä viesti laajemmalle, yleisemmälle tekoälymallille, sekä sitä, mitä tämä suurempi AI-malli sääntöjoukolla tuottaa. Aiemmin tekoälymalleja ostavat ja ottavat yritykset saattoivat kouluttaa nämä luokittelijat itse, mutta prosessi oli aikaa vievä ja mahdollisesti kallis, koska kehittäjien oli kerättävä esimerkkejä käytäntöjä rikkovasta sisällöstä kouluttaakseen luokittelijan. Ja sitten, jos yritys haluaisi muuttaa suojakaiteiden käytäntöjä, sen olisi kerättävä uusia esimerkkejä rikkomuksista ja koulutettava luokitin uudelleen.

OpenAI toivoo, että uudet työkalut voivat tehdä prosessista nopeamman ja joustavamman. Sen sijaan, että niitä koulutettaisiin noudattamaan kiinteää sääntökirjaa, nämä uudet turvaluokittajat voivat yksinkertaisesti lukea kirjallisen käytännön ja soveltaa sitä uuteen sisältöön.

OpenAI sanoo, että tämä menetelmä, jota se kutsuu “päättelyyn perustuvaksi luokitukseksi”, antaa yrityksille mahdollisuuden muokata tietoturvakäytäntöjään yhtä helposti kuin dokumentin tekstin muokkaaminen koko luokitusmallin uudelleen rakentamisen sijaan. Yhtiö sijoittaa julkaisun työkaluksi yrityksille, jotka haluavat enemmän hallita sitä, kuinka heidän tekoälyjärjestelmänsä käsittelevät arkaluonteisia tietoja, kuten sairaustietoja tai henkilöstötietoja.

Vaikka työkalujen oletetaan olevan turvallisempia yritysasiakkaille, jotkut tietoturvaasiantuntijat sanovat, että ne voivat sen sijaan antaa käyttäjille väärän turvallisuuden tunteen. Tämä johtuu siitä, että OpenAI:ssa on avoimen lähdekoodin tekoälyluokituksia. Tämä tarkoittaa, että he ovat saaneet kaikki luokittimien koodit saataville ilmaiseksi, mukaan lukien AI-mallien painot tai sisäiset konfiguraatiot.

Luokittimet toimivat tekoälyjärjestelmän lisäturvaportteina, jotka on suunniteltu estämään epävarmat tai haitalliset viestit ennen kuin ne saavuttavat päämallin. Mutta avaamalla ne, OpenAI ottaa riskin jakaa näiden ovien suunnitelmat. Tämä läpinäkyvyys voisi auttaa tutkijoita vahvistamaan turvamekanismeja, mutta se voisi myös helpottaa huonojen toimijoiden kykyä löytää heikkouksia ja riskejä, mikä luo eräänlaista väärää mukavuutta.

“Näiden mallien tekeminen avoimen lähdekoodin avulla voi auttaa sekä hyökkääjiä että puolustajia”, Milan tekoälyn turvallisuuden professori David Krueger kertoi Fortunelle. “Se helpottaa lähestymistapojen kehittämistä ohitusluokitteille ja muille vastaaville suojatoimille.”

Esimerkiksi kun hyökkääjät pääsevät käyttämään luokittelun painotuksia, he voivat helpommin kehittää niin kutsuttuja “nopean injektion” hyökkäyksiä, joissa he luovat vihjeitä, jotka huijaavat luokittelijan jättämään huomiotta sen oletettavasti sovellettavan käytännön. Turvallisuustutkijat ovat havainneet, että joissakin tapauksissa jopa joukko henkilöistä merkityksettömiltä näyttäviä hahmoja voi syistä, joita tutkijat eivät täysin ymmärrä, taivuttaa tekoälymallin jättämään huomioimatta sen turvallisuusesteet ja tekemään jotain, mitä sen ei pitäisi tehdä, kuten tarjota pomminvalmistusvinkkejä tai heittää rasistisia loukkauksia.

OpenAI:n edustajat ohjasivat Fortunen ilmoitukseen yrityksen blogikirjoituksesta ja malleista kertovasta asiakirjasta.

Lyhytaikainen kipu pitkän aikavälin hyödyksi

Avoin lähdekoodi voi olla kaksiteräinen miekka turvallisuuden suhteen. Sen avulla tutkijat ja kehittäjät voivat testata, parantaa ja mukauttaa tekoälysuojauksia nopeammin, mikä lisää läpinäkyvyyttä ja luottamusta. Saattaa esimerkiksi olla tapoja, joilla tietoturvatutkijat voivat säätää mallien painoja tehdäkseen siitä kestävämmän nopeaa ruiskutusta vastaan ​​heikentämättä mallin suorituskykyä.

Mutta se voi myös helpottaa hyökkääjien tutkia ja ohittaa samat suojaukset; esimerkiksi muiden koneoppimisohjelmistojen käyttäminen satojen tuhansien mahdollisten viestien suorittamiseen, kunnes löydät ne, jotka saavat mallin ohittamaan suojakaiteet. Lisäksi tietoturvatutkijat ovat havainneet, että tämäntyyppiset avoimen lähdekoodin tekoälymalleihin kehitetyt automaattisesti luodut nopeat injektiohyökkäykset toimivat joskus myös patentoituja tekoälymalleja vastaan, joissa hyökkääjät eivät pääse käsiksi taustalla olevaan koodiin tai mallien painoarvoihin. Tutkijat ovat spekuloineet, että tämä johtuu siitä, että kaikkien suurten kielimallien kielen koodaustavassa voi olla jotain, mikä mahdollistaa samanlaisten nopean injektion onnistumisen mitä tahansa tekoälymallia vastaan.

Tällä tavoin luokittimien avaaminen ei voi antaa käyttäjille vain väärää turvallisuuden tunnetta siitä, että heidän oma järjestelmänsä on hyvin suojattu, vaan se voi itse asiassa tehdä jokaisesta tekoälymallista vähemmän turvallista. Mutta asiantuntijat sanoivat, että tämä riski oli luultavasti ottamisen arvoinen, koska avoimen pääsyn luokittimiin pitäisi myös helpottaa kaikkien maailman turvallisuusasiantuntijoiden löytämistä tapoja tehdä luokittelijoista vastustuskykyisempiä tämäntyyppisiä hyökkäyksiä vastaan.

“Pitkällä aikavälillä on hyödyllistä jakaa tapa, jolla puolustukset toimivat. Se voi aiheuttaa jonkinlaista kipua lyhyellä aikavälillä. Mutta pitkällä aikavälillä se johtaa vahvaan puolustukseen, jota on itse asiassa melko vaikea välttää”, sanoi Alan Turing -instituutin vanhempi tutkija Vasilios Mavroudis.

Mavroudis sanoi, että vaikka luokittimien avoimen lähdekoodin käyttäminen voisi teoriassa helpottaa jonkun yrittävän ohittaa turvajärjestelmät johtavissa OpenAI-malleissa, yritys luultavasti uskoo, että tämä riski on pieni. Hän sanoi, että OpenAI:lla on muita suojatoimia, mukaan lukien se, että ihmisturvallisuuden asiantuntijoiden tiimit yrittävät jatkuvasti testata sen mallien turvaesteitä löytääkseen haavoittuvuuksia ja toivottavasti parantaakseen niitä.

“Avoimen lähdekoodin luokittelijamalli antaa niille, jotka haluavat ohittaa luokittelijat, mahdollisuuden oppia kuinka se tehdään. Mutta päättäväiset vanginmurtajat onnistuvat todennäköisesti joka tapauksessa”, sanoi Robert Trager, Oxford Martinin AI Governance Initiativen johtaja.

“Löysimme äskettäin menetelmän, joka ohitti kaikki suurten kehittäjien suojatoimenpiteet noin 95% ajasta, emmekä etsineet sitä menetelmää. Koska päättäväiset jailbreakers onnistuvat joka tapauksessa, on hyödyllistä avoimen lähdekoodin järjestelmistä, joita kehittäjät voivat käyttää vähemmän päättäväisille ihmisille”, hän lisäsi.

Yritysten tekoälykilpailu

Lanseerauksella on myös kilpailuvaikutuksia, varsinkin kun OpenAI pyrkii haastamaan kilpailevan tekoälyyrityksen Anthropicin kasvavan läsnäolon yritysasiakkaiden keskuudessa. Anthropicin Claude-tekoälymalliperheestä on tullut suosittu yritysasiakkaiden keskuudessa osittain siksi, että he ovat saaneet maineensa vahvemmista suojausominaisuuksista verrattuna muihin tekoälymalleihin. Antrooppisia tietoturvatyökaluja ovat muun muassa “perustuslailliset luokittimet”, jotka toimivat samalla tavalla kuin OpenAI:n juuri tekemät avoimen lähdekoodin luokittimet.

Anthropic on luonut itselleen markkinaraon yritysasiakkaiden keskuudessa, erityisesti mitä tulee koodaukseen. Menlo Venturesin heinäkuun raportin mukaan Anthropicilla on 32 %:n markkinaosuus yritysten suurista kielimalleista käytön mukaan verrattuna OpenAI:n 25 %:iin. Koodauskohtaisissa käyttötapauksissa Anthropicilla on 42 % ja OpenAI:lla 21 %. Tarjoamalla yrityskeskeisiä työkaluja OpenAI voi yrittää voittaa joitain näistä yritysasiakkaista samalla, kun se asettuu johtavaksi tekoälyn tietoturvassa.

Anthropicin “perustuslailliset luokittelut” koostuvat pienistä kielimalleista, jotka vertaavat suuremman mallin tuloksia kirjallisiin arvoihin tai käytäntöihin. Avaamalla samanlaisen ominaisuuden OpenAI tarjoaa kehittäjille tehokkaasti samantyyppisiä mukautettavat suojakaiteet, jotka tekivät Anthropicin malleista niin houkuttelevia.

“Siitä, mitä olen nähnyt yhteisössä, näyttää siltä, ​​​​että se on otettu hyvin vastaan”, Mavroudis sanoi. “He näkevät mallin mahdollisena tapana hillitä itseään. Sillä on myös hyvä konnotaatio, kuten “Annamme takaisin”. Se on luultavasti hyödyllinen työkalu myös pienille yrityksille, jotka eivät pystyisi kouluttamaan tällaista mallia yksin.”

Jotkut asiantuntijat ovat myös huolissaan siitä, että näiden turvallisuusluokitusten avoin pääsy voisi keskittää “turvallisena” tekoälyn.

“Turvallisuus ei ole tarkasti määritelty käsite. Kaikki turvallisuusstandardien toteuttaminen heijastelee niitä luovan organisaation arvoja ja prioriteetteja sekä mallien rajoja ja puutteita”, Cornellin yliopiston tietojenkäsittelytieteen apulaisprofessori John Thickstun kertoi VentureBeatille. “Jos toimiala kokonaisuudessaan omaksuu OpenAI:n kehittämät standardit, vaarana on, että vakiinnutamme tietyn turvallisuusnäkökulman ja vaikeutamme laajempaa tutkimusta tekoälyn käyttöönoton turvallisuustarpeista monilla yhteiskunnan sektoreilla.”

Check out our other content

Check out other tags:

Suosituimmat artikkelit