Sara Hooker, tekoälytutkija ja halvempien, vähemmän laskentatehoa käyttävien tekoälyjärjestelmien puolestapuhuja, ripustaa oman paanunsa. Tekoälyyrityksen Coheren entinen tutkimusjohtaja ja Google DeepMind -veteraani on kerännyt 50 miljoonaa dollaria alkurahoitusta uudelle startup-yritykselleen, Adaption Labsille. Hooker ja toinen perustaja Sudip Roy, joka oli aiemmin Coheren päätelmien laskemisesta vastaava johtaja, yrittävät luoda tekoälyjärjestelmiä, jotka käyttävät vähemmän laskentatehoa ja maksavat vähemmän käyttää kuin useimmat nykypäivän johtavat tekoälymallit. Ne kohdistavat myös malleja, jotka käyttävät erilaisia tekniikoita ollakseen “sopeutuvampia” kuin useimmat olemassa olevat mallit yksittäisiin tehtäviin, joihin niitä pyydetään. (Siksi käynnistyksen nimi). Rahoituskierrosta johtaa Emergence Capital Partners, johon osallistuvat Mozilla Ventures, pääomasijoitusyhtiö Fifty Years, Threshold Ventures, Alpha Intelligence Capital, e14 Fund ja Neo. San Franciscossa toimiva Adaption Labs kieltäytyi antamasta tietoja arvostuksestaan varainhankinnan jälkeen. Hooker kertoi Fortunelle, että hän haluaa luoda malleja, jotka voivat jatkuvasti oppia ilman kallista uudelleenkoulutusta tai viritystä ja ilman laajaa kontekstuaalista ja nopeaa suunnittelua, jota useimmat yritykset käyttävät tällä hetkellä räätälöidäkseen tekoälymalleja omiin käyttötapauksiinsa. Jatkuvasti oppivien mallien luomista pidetään yhtenä suurimmista jäljellä olevista tekoälyn haasteista. “Tämä on luultavasti tärkein ongelma, jonka parissa olen koskaan työskennellyt”, Hooker sanoi.
Adaption Labs on tärkeä veto tekoälyteollisuudessa vallitsevaa uskoa vastaan, että paras tapa luoda tehokkaampia tekoälymalleja on tehdä taustalla olevista LLM:istä suurempia ja kouluttaa niitä lisäämällä tietoa. Teknologian jättiläisten sijoittaessa miljardeja yhä suurempiin koulutusohjelmiin, Hooker väittää, että lähestymistavan tuotto vähenee. “Useimmat laboratoriot eivät nelinkertaista mallinsa kokoa joka vuosi, pääasiassa siksi, että näemme arkkitehtuurin kyllästymisen”, hän sanoi.
Hooker sanoi, että tekoälyteollisuus oli “laskentapisteessä”, jossa parannuksia ei enää tehdä yksinkertaisesti rakentamalla suurempia malleja, vaan rakentamalla järjestelmiä, jotka voidaan mukauttaa helpommin ja taloudellisemmin käsillä olevaan tehtävään. Adaption Labs ei ole ainoa “neolab” (niin sanotaan, koska ne ovat uuden sukupolven huippuluokan tekoälylaboratorioita, jotka ovat seuranneet vakiintuneiden yritysten, kuten OpenAI, Anthropic ja Google DeepMind, menestystä), jotka pyrkivät uusiin tekoälyarkkitehtuureihin jatkuvan oppimisen murtamiseksi. Jerry Tworek, OpenAI:n vanhempi tutkija, jätti yrityksen viime viikkoina perustaakseen oman startup-yrityksen, nimeltään Core Automation, ja on kertonut olevansa kiinnostunut myös uusien tekoälymenetelmien käyttämisestä jatkuvasti oppivien järjestelmien luomiseen. David Silver, Google DeepMindin entinen päätutkija, jätti teknologiajätin viime kuussa käynnistääkseen Ineffable Intelligence -nimisen startup-yrityksen, joka keskittyy vahvistusoppimisen käyttöön, jossa tekoälyjärjestelmä oppii tekemissään toimista staattisen tiedon sijaan. Joissakin asetuksissa tämä voi myös johtaa tekoälymalleihin, jotka voivat oppia jatkuvasti. Hookerin startup organisoi työnsä kolmen “pilarin” ympärille, hän sanoi: adaptiivinen data (jossa tekoälyjärjestelmät luovat ja käsittelevät dataa, jota ne tarvitsevat vastatakseen ongelmaan lennossa sen sijaan, että joutuisivat harjoittelemaan suurella staattisella tietojoukolla); mukautuva älykkyys (joka säätää automaattisesti käytettävän tietojenkäsittelyn määrän ongelman vaikeuden perusteella); ja mukautuvat rajapinnat (oppiminen siitä, kuinka käyttäjät ovat vuorovaikutuksessa järjestelmän kanssa). Google-päivistään lähtien Hooker on ansainnut mainetta tekoälypiireissä monien tekoälytutkijoidensa “skaala on kaikki mitä tarvitset” -opin vastustajana. Laajasti siteeratussa vuoden 2020 artikkelissa nimeltä “The Hardware Lottery” hän väitti, että tekoälyn ideat onnistuvat tai epäonnistuvat usein sen perusteella, sopivatko ne olemassa olevaan laitteistoon, eikä niiden luontaisten ansioiden perusteella. Äskettäin hän kirjoitti tutkimuspaperin nimeltä “Skaalauksen hidas kuolema”, joka väitti, että pienemmät mallit, joissa on parempi koulutustekniikka, voivat menestyä paljon suurempia paremmin.
Coheressa hän puolusti Aya-projektia, joka on yhteistyö 3 000 tietotekniikan tutkijan kanssa 119 maasta ja joka toi huippuluokan tekoälyominaisuudet kymmenille kielille, joissa johtavat huippumodernit mallit eivät toimineet hyvin, ja teki sen käyttämällä suhteellisen pienikokoisia malleja. Työ osoitti, että luovat lähestymistavat tietojen kuratointiin ja koulutukseen voivat kompensoida raakaa mittakaavaa. Yksi Adaption Labsin tutkimista ideoista on niin kutsuttu “gradienttiton oppiminen”. Kaikki nykyiset tekoälymallit ovat erittäin suuria neuroverkkoja, jotka kattavat miljardeja digitaalisia neuroneja. Perinteisessä hermoverkkokoulutuksessa käytetään gradienttilaskuksi kutsuttua tekniikkaa, joka toimii vähän kuin sidottu silmät vaeltaja, joka yrittää löytää laakson alimman pisteen pienin askelin ja yrittää tuntea laskeutuvatko rinnettä. Malli tekee pieniä säätöjä miljardeihin sisäisiin asetuksiin, joita kutsutaan “painoiksi” (jotka määrittävät, kuinka paljon tietty neuroni korostaa minkä tahansa muun hermosolun tuloa, johon se on liitetty omassa lähdöessään), tarkistaa jokaisen vaiheen jälkeen, pääsikö se lähelle oikeaa vastausta. Tämä prosessi vaatii valtavaa laskentatehoa ja voi kestää viikkoja tai kuukausia. Ja kun malli on koulutettu, nämä painot kiinnitetään paikoilleen. Mallin tarkentamiseksi tiettyä tehtävää varten käyttäjät luottavat joskus hienosäätöön. Tämä edellyttää mallin jatkokoulutusta pienemmällä, paremmin kuratoidulla tietojoukolla (joka koostuu tyypillisesti edelleen tuhansista tai kymmenistä tuhansista esimerkeistä) ja lisäsäätöjen tekemistä mallin painoihin. Jälleen se voi olla kallista, joskus jopa miljoonia dollareita.
Vaihtoehtoisesti käyttäjät yrittävät yksinkertaisesti antaa mallille hyvin tarkkoja ohjeita tai ohjeita siitä, kuinka sen tulisi suorittaa tehtävä, jonka käyttäjä haluaa mallin suorittavan. Hooker pitää tätä “pikatemppuina” ja huomauttaa, että kehotteet lakkaavat usein toimimasta ja ne on kirjoitettava uudelleen aina, kun mallista julkaistaan uusi versio. Hän sanoi, että hänen tavoitteenaan on “poistaa nopea suunnittelu”.
Gradienttivapaa oppiminen välttää monet viritykseen ja nopeaan suunnitteluun liittyvät ongelmat. Sen sijaan, että kaikki mallin sisäiset painot säädettäisiin kalliilla harjoituksilla, Adaption Labsin lähestymistapa muuttaa mallin käyttäytymistä heti, kun se vastaa kyselyyn, jota tutkijat kutsuvat “päätelmäajaksi”. Mallin ydinpainot säilyvät ennallaan, mutta järjestelmä voi silti mukauttaa käyttäytymistään käsillä olevan tehtävän mukaan.
“Kuinka päivität mallin koskematta painoihin?” Hooker sanoi. “Arkkitehtuuritilassa on todella mielenkiintoisia innovaatioita ja se hyödyntää tietojenkäsittelyä paljon tehokkaammalla tavalla.” Mainitsit useita eri tapoja tehdä tämä. Yksi on “lennossa fuusio”, jossa järjestelmä valitsee olennaisesti sovittimien valikoimasta (usein pieniä malleja, jotka on koulutettu erikseen pienille tietojoukoille). Nämä sovittimet muokkaavat sitten suuren ensisijaisen mallin vastetta. Malli päättää, mitä sovitinta käytetään käyttäjän esittämän kysymyksen perusteella.
Toinen menetelmä on “dynaaminen dekoodaus”. Dekoodaus viittaa siihen, kuinka malli valitsee tuloksensa todennäköisten vastausten joukosta. Dynaaminen dekoodaus muuttaa todennäköisyyksiä käsiteltävän tehtävän mukaan muuttamatta mallin taustalla olevia painotuksia. “Olemme siirtymässä pois pelkästä mallista”, Hooker sanoi. “Tämä on osa syvällistä käsitystä: se perustuu vuorovaikutukseen, ja mallin täytyy muuttua reaaliajassa sen mukaan, mikä tehtävä on.” Hooker väittää, että siirtyminen näihin menetelmiin muuttaa radikaalisti tekoälyn taloutta. “Kallein laskenta on koulutusta edeltävä laskenta, suurelta osin siksi, että se on valtava määrä laskemista, valtava määrä aikaa. Päätelmälaskennan avulla saat (jokaisesta laskentatehoyksiköstä) paljon enemmän”, hän sanoi.
Roylla, Adaptionin teknologiajohtajalla, on laaja kokemus tekoälyjärjestelmien tehokkaasta toimivuudesta. “Yksiperustajani saa GPU:t toimimaan erittäin nopeasti, mikä on meille tärkeää reaaliaikaisen komponentin vuoksi”, Hooker sanoi.
Hooker sanoi, että Adaption käyttää siemenkierroksensa varoja palkatakseen lisää tekoälytutkijoita ja -insinöörejä sekä palkkaamaan suunnittelijoita työskentelemään erilaisten tekoälyn käyttöliittymien parissa useimpien tekoälymallien käyttämän tavallisen “chat-palkin” lisäksi.
Tämä tarina ilmestyi alun perin Fortune.com-sivustolla