Jos insinööriryhmä loisi verkkoselaimen, joka toimisi vain puoliksi, ihmiset eivät puhuisi. Mutta kun Michael Truell, Coding Startup Cursorin toimitusjohtaja, julkaisi
Miksi kaikki meteli? Kaksi suurta syytä: Toisaalta tekoälyn keskittymiskyky on historiallisesti ollut lyhyt. ChatGPT:n alkuaikoina mallit pystyivät keskittymään tehtäväänsä vain muutaman sekunnin. Tämä horisontti ulottui minuutteihin parhaiden mallien kohdalla ja sitten tunteihin. Cursor-projekti väittää olevansa yksi ensimmäisistä kertoista, kun tekoälyjärjestelmä on ylläpitänyt monimutkaista, avointa ohjelmistoprojektia kokonaisen viikon ajan ilman ihmisen ohjausta.
Lisäksi yksittäiset tekoälyagentit rajoittuvat pieniin, keskittyneisiin tehtäviin. Mutta satojen agenttien saaminen koordinoimaan suurta projektia vaikuttaa edelleen futuristiselta. Siksi Cursor halusi nähdä, kuinka pitkälle he voisivat viedä autonomisen koodauksen (projektissa, joka voi kestää kuukausia ihmisryhmälle) tekemällä tekoälyagenttien “orkesteri” työskentelemään yhdessä. Voisiko tekoälyjärjestelmä olla riittävän pitkäjänteinen ja toimia tarpeeksi hyvin yhdessä tutkiakseen koodia, jakaakseen työn osiin, korjatakseen virheitä ja jatkaakseen eteenpäin päiviä poikkeamatta käsillä olevasta tehtävästä?
Tekoälyagenttien “orkesteri”.
Tutkijat havaitsivat, että vastaus oli enimmäkseen kyllä. Cursor-kokeilu organisoi satoja agentteja ohjelmistotiimille. Siinä oli “suunnittelijoita”, “työntekijöitä” ja “tuomareita”, jotka koordinoivat miljoonia koodirivejä. Tämä viittaa siihen, mitä sekä Cursor että OpenAI sanovat lähitulevaisuudessa, jossa tekoäly ei ainoastaan auta työntekijöitä, vaan ottaa haltuunsa kokonaisia projekteja. Se muuttaisi perusteellisesti tapaa, jolla monimutkaista työtä tehdään, ensin ohjelmistokehityksessä, mutta sitten muissa ammateissa.
Tekoälyparveilla on tehty kokeita parin vuoden ajan. Mutta nykyään Cursor sanoo, että mallit ovat älykkäämpiä ja voivat pysyä yhtenäisinä paljon pidempään. Malleja voidaan ajaa paljon suuremmassa mittakaavassa mukautetun kerroksen avulla, joka järjestää satoja agentteja ja estää niitä laskeutumasta kaaokseen.
Jonas Nelle, Cursorin pitkäikäisten tekoälyagenttien parissa työskentelevä insinööri, kertoi Fortunelle, että kun tekoälymallit parantuvat jatkuvasti, insinöörien ja tutkijoiden tulisi tarkistaa oletuksensa muutaman kuukauden välein siitä, mitä tekoälymallit voivat tehdä. Vaikka hän myönsi, että hän “ei lataa tai poista Chromea tänään”, selainprojekti oli “varmasti parempi kuin mikään aiempien mallien olisi voinut tehdä”.
Nämä pitkäikäiset agentit ovat tärkeä raja, lisäsi Bill Chen, OpenAI-insinööri, joka suorittaa stressitestejä ja arvioi yrityksen mallien todellista käyttäytymistä. Tehtävän kesto ja se, että tekoälyjärjestelmä voi suorittaa sen itsenäisesti ja johdonmukaisesti, on “erittäin hyvä osoitus siitä, kuinka älykäs ja yleinen järjestelmä on”, hän sanoi. Cursor-projekti, jonka voimanlähteenä oli OpenAI:n GPT-5.2, on “suora seuraus mallin ominaisuuksien jatkuvasta kehittämisestä”. Tulevaisuudessa, hän sanoi, tulee vielä pidemmät horisonttitestit.
Tekoälyagenttiparvet eivät ole valmiita yrityskäyttöön
Nämä eivät kuitenkaan ole tuotantovalmiita järjestelmiä. Sen lisäksi, että projekti, joka pyörittää agentteja päiviä tai viikkoja, on buginen ja epätäydellinen, se on kallis. Vaikka hinnat ovat laskeneet jyrkästi viime vuoden aikana, pitkäaikaiset työpaikat satojen tekoälyagenttien kanssa voivat silti nostaa kustannuksia.
Myös turvallisuusongelmia on. Itsenäinen järjestelmä herättää huolta haavoittuvuuksista, tietovuodoista ja muusta ja vaatii monia uusia valvonta- ja tarkastettavuustasoja.
Mutta Chen sanoi näkevänsä lähitulevaisuudessa, jossa jotain tämänkaltaista voisi olla valmis “laajalle kulutukselle ja ei-kiellettävillä kustannuksilla. Edistys on ollut tasaista tähän asti, hän selitti, ja jokaisessa vaiheessa on tapahtunut merkittäviä edistysaskeleita. Tällä hetkellä innostuksen taustalla on hänen mukaansa se tosiasia, että tämä on todellinen, käytännöllinen esimerkki mallin kyvystä julkisuuteen ja verrata siihen, miten malli on suoritettu. vertailuarvot.”
Muutos on yllättänyt kokeneimmatkin tekoälyn tarkkailijat. Tuoreessa viestissä riippumaton tutkija Simon Willison ennusti, että vuoteen 2029 mennessä joku rakentaisi kokonaisen verkkoselaimen käyttämällä enimmäkseen tekoälyä, eikä se olisi edes yllättävää. “Uuden verkkoselaimen kehittäminen on yksi monimutkaisimmista ohjelmistoprojekteista, jonka voin kuvitella”, hän kirjoitti. Kursori on saattanut nopeuttaa tätä aikajanaa. “Olen saattanut olla kolme vuotta taaksepäin”, Willison sanoi. “Minun on myönnettävä, että olen hyvin yllättynyt nähdessäni jotain niin kykenevää ilmaantuvan niin nopeasti.”
Tämä puhuu siitä, mitä OpenAI ja muut ovat kutsuneet “kapasiteettiylijäämäksi”: ajatus siitä, että kehittyneimmät tekoälymallit voivat tehdä paljon enemmän kuin julkisesti käytössä, mutta oikea työkalujen, tuotesuunnittelun ja kustannusten laskun yhdistelmä voi yhtäkkiä tehdä niistä käyttökelpoisia mittakaavassa. Joten vaikka työkalut, kuten Cursor-selain, eivät ole vielä valmiita parhaaseen katseluaikaan, liikerata on selvä.