Transcripció de l'episodi 005
Generat automàticament amb OpenAI Whisper
Data: 2026-04-11 19:42:31
==================================================

 Què passaria si, per fer una intel·ligència artificial molt més brillant, no necessitéssim construir un superordinador d'aquells gegantins, sinó simplement ensenyar a un de petit a pensar en bucle? És una pregunta que canvia bastant les regles del joc. Clar, perquè tradicionalment, quan parlem de l'evolució de aquests sistemes, la imatge que ens ve al cap a tots és gairebé industrial, oi? Pensem en naus immenses, plenes de servidors, sistemes de refrigeració sorollosos, consumint una quantitat d'energia que és de bojos. Sí, sí, i models amb centenars de bilions de paràmetres. Exacte. És com una cursa armamentística on la premissa sempre ha estat que, com més gran, millor. Si l'objectiu és que una màquina resolgui un problema molt complex, doncs la solució fàcil sempre ha estat fer un servei artificial més colossal i ja està. I a veure, aquesta mentalitat de força bruta ens ha portat molt lluny, d'això no hi ha dubte, però ens està creant un coll d'ampolla logístic molt evident. Ens estem apropant perillosament a un límit físic on desplegar aquests models demana una infraestructura tan bèstia que, al final, la tecnologia punta queda restringida a 4 o 5 grans sectors mundials. Els que tenen els diners, bàsicament. Totalment. És una estratègia que funciona, però des d'un punt de disseny és molt poc elegant i, a la llorga, insostenible. I justament per això aquesta exploració d'avui crec que pot marcar un abans i un després per als qui ens escolten i segueixen aquest món. Ens endinsarem en un article científic revolucionari publicat per investigadors de ByteDanceSeat, la Universitat de Santa Cruz, Princeton i altres institucions de primer nivell. Un equipàs, vaja. Déu-n'hi-do quin equip. I presenten un model de llenguatge anomenat Uro, inspirat en l'Uroboros, la serpent mitològica que es mossega la cua. I la gràcia d'aquest equip és que desafia el consens actual. Demostren que la clau no és afegir més peces al trencaclosques, sinó fer que les peces que ja tenim treballin de manera recurrent. O sigui, d'acord, anem a desgranar tot això, perquè pot alterar radicalment qui tindrà accés a la IA d'aquí a ben poc. És que ens trobem davant d'un canvi de paradigma molt profund. A l'arquitectura d'intel·ligència artificial passem d'una escala espacial, que bàsicament és apilar capes i capes de processament, a una escala temporal, o de profunditat recurrent. Profunditat recurrent, m'agrada, com sona. És la idea de comprendre com una xarxa neuronal pot aprendre a reutilitzar, el seu propi circuit físic, per deliberar i rumiar les coses abans d'emetre una resposta. Doncs comencem per la base mecànica de la troballa. Això tècnicament es coneix com l'UPLM, oi? Un model de llenguatge en bucle. Però, per què la comunitat científica està tan alterada per un model que se suposa que és minúscul? Com de petit és en realitat? Doncs per posar xifres clares, aquests models urus s'han entrenat amb una barbaritat de dades. Uns 7,7 bilions de tokens. Uau, això és gairebé tot internet. Sí, una quantitat massiva. Però la sorpresa és la mida de la xarxa en si. Només tenen versions d'1.4 i 2.6 bilions de paràmetres. Si ho compares amb models recents altament eficients, com el QEN3 o el GM3, que estan entre els 4 i els 12 bilions de paràmetres, Uru és francament minúscul. Molt petit. Minúscul. I tot i així, els resultats demostren que iguala o supera aquests competidors més grans, en tasques molt complexes. I clar, no parlem de fer un resum d'un text senzill, oi? Parlem de les tasques de raonament més dures que tenim ara mateix. Exacte. Matemàtiques avançades i raonament científic pur. Si mires el benchmark Math500 o les proves de l'IME, la diferència és abismal. El model Ouro de 2.6 bilions arriba a un 90.85% de precisió en el Math500. Tela. I mentrestant, un model molt més gran, com el QEN3 de 8 bilions, es queda encallat en un 62.30%. Ouro està rendint a nivells brutals, en una fracció de la capacitat. I això ens porta al mecanisme clau. La reutilització iterativa. Per fer-ho entenedor per a la gent, és com si, en lloc de comprar una enciclopèdia de 10 volums per resoldre un problema, llegíssim el mateix llibre d'un sol volum quatre vegades. I clar, cada lectura ens revelés una capa nova de profunditat. Utilitza les mateixes capes físiques. El que resulta fascinant d'aquí és que això soluciona un problema gravíssim que anomenem inundació de text. Com la verborrea, casta dels models, no? Exactament. Fins ara, per fer que una màquina raonés, l'obligàvem a generar text pas a pas, el famós chain of thought. Però això omple la finestra de context de paraules innecessàries, i esborranys només per donar-li temps de càlcul. O sigui, només processen si estan escrivint. Però l'ouro mou fa això. Fa el raonament en un espai interior, l'espai latent, que jo m'ho imagino com una habitació fosca d'on la màquina rumia sense parlar. És una analogia molt bona. A l'espai latent, l'estat es va refinant recursivament sense emetre cap paraula a l'exterior. I només quan ja té la solució, obre la porta i et dona el text final. Ara bé, si llegeixes el llibre amb un text, o està en aquesta habitació fosca rumiant, com sap quan ha de parar? Hi ha un risc enorme de quedar-se atrapat en un bucle infinit, de gastar molta energia per una bestiesa. Els enginyers ho van preveure amb un mecanisme de sortida primerenca, una mena de porta. Per a cada tòquen, la porta decideixi necessitar més bucles o si la resposta ja està clara. És com fer un examen a l'universitat. No dedicaràs 10 minuts a comprovar que 2 i 2 fan 4 només perquè et sobra temps, però sí que faràs diverses passades a una equació diferencial. Tal qual. I per entrenar aquesta porta ho divideixen en dues fases. A la fase I utilitzen un objectiu regularitat per l'entropia amb una distribució a priori uniforme. Eh, espera, espera. Una traducció d'això, si us plau. Què vol dir per a la resta dels mortals? Riu. Sí, perdona. Bàsicament significa que forcen el model a explorar totes les opcions de sortida amb la mateixa freqüència al principi. Evita que el model agafi el mal hàbit de fer sempre el màxim de bucles, que en aquest cas són 4, per pura vagància. Clar, així no fa veure que treballa quan no li cal. Exacte. I després, a la fase II s'entrena específicament la porta per equilibrar el cost computacional amb la millora real de la precisió. Si un bucle extra no millora quasi res, talla el procés allà mateix. Val, et compro la teoria, però et poso a prova amb un detall tècnic. Això no fa que la memòria interna col·lapsi? Si cada bucle requereix guardar el seu propi espai, la memòria cau, la ram del servidor s'hauria de multiplicar per 4, no? Aquest era el gran repte, sí. Però la solució que donen a l'article és el Cabbage Sharing, o compartició de memòria cau. Van descobrir que durant la generació de text, mantenir només la memòria de l'últim bucle funciona perfectament. En sèrio? Simplement esborren la memòria dels primers bucles? Sí, perquè tot l'esforç de compressió d'aquells primers passos ja ha quedat incrustat en l'últim estat. Així redueixen la petjada de memòria, i això ho han fet 4 vegades. O sigui que és eficient de debò. I aquí és on la cosa es posa realment interessant. La gent sovint creu que un model d'IA més intel·ligent és perquè sap més coses, com si tingués un disc dur més gran ple de dades. Però el que ens diu això és que no té un disc dur més gran, sinó una CPU molt més eficient, no? Tens una distinció vital. Per provar això, van usar la física dels models de llenguatge, amb 3 tasques sintètiques. Una de capo, per memoritzar biografies. Una altra, mano, d'arbres matemàtics, i una de preguntes de múltiples salts. I què passa amb les biografies? Que el bucle no augmenta gens la capacitat d'emmagatzematge. Tants els models normals com els de bucle només poden guardar uns dos bits d'informació per paràmetre. No sap més coses pel fet de rumiar-hi. El disc dur és el mateix. Llavors, què millora dramàticament? La manipulació del coneixement. En l'experiment mano i en el de múltiples salts, els models en bucle aprenen amb molts menys exemples. Connecten operacions molt millor, perquè teòricament poden explorar un gràfic de coneixement en complexitat logarítmica, o de log t. Vale, atolem no ganeixo de la complexitat logarítmica, perquè sona molt abstracte. Pensa en buscar un nom a la guia telefònica. Buf, fa anys que no en veig cap. Ja, però per fer-nos a la idea, en lloc de llegir pàgina per pàgina de manera lineal, obres pel mig, descartes la meitat inútil i tornes a obrir pel mig de la meitat bona. Clar, arribes rapidíssim. Doncs l'ouro fa això a l'espai latent, reutilitza regles atòmiques i salta connectant els punts sense necessitat de tenir un paràmetre separat per a cada connexió. És una optimització brutal del pensament. D'acord, tenim un model compacte, superràpid, connectant idees en aquesta habitació forta. Però vull portar-te al terreny de la por general. Com podem confiar en un pensament que és invisible? Si no veiem el text explícit pas a pas, la màquina podria estar allà dins fabricant mentides, o pitjor. El problema de la fidelitat i la seguretat. A veure, el problema amb el chain of thought clàssic, un sí que veiem al text, és que molts cops la màquina ja ha decidit la resposta de forma impulsiva, i el text que genera és una simple racionalització apostèmica. O sigui, s'inventa una excusa molt elaborada per justificar una decisió que ja havia pres. Molt humà, això, per cert. Massa humà. Però amb el loop LLM, usant un conjunt de dades anomenat Quora Question Parse, van demostrar que el raonament dolatent és fidel. Utilitzant unes eines anomenades sondes lineals, que llegeixen l'estat intern del model a cada bucle. Com elèctrodes cognitius. Exacte, com elèctrodes. I veuen clarament com el model es deslinea. El model canvia d'opinió en temps real. El primer bucle pot pensar que la resposta és falsa, però el tercer bucle ho corregeix i s'alinea amb la resposta correcta. No és una justificació, és una deliberació autèntica i real. Quina bogeria, veure que realment dubta i es corregeix. Però, i la toxicitat? Avaluen la seguretat pura i dura. I tant. Fan servir el benchmark ex-FIPI per mesurar respostes nocives, i la taxa de toxicitat baixa en picat a mesura que augmenten els passos del bucle. Però el més revelador és l'extrapolació. Qui vol dir això, exactament, en aquest context? El model només s'havia entrenat per fer fins a 4 bucles, però van provar de forçar-lo a fer-ne 5, 6, 7 o 8 a l'hora d'avaluar-lo. I no es trencava el raonament? Una mica en el rendiment pur, però en seguretat es tornava increïblement més segur. Aleshores, qui vol dir tot això, exactament? Significa que quan li donem més temps per pensar en secret, i en lloc de maquinar coses tòxiques o saltar-se les normes, es torna més prudent, agafa distància i separa millor una petició inofensiva d'una de maliciosa. I si connectem això amb la perspectiva general, ens permet una cosa que es diu descodificació especulativa. Podem posar mecanismes que auditen els primers bucles latents i si veuen que la cosa va cap a un lloc tòxic, aturen el model abans i tot que emeti una sola paraula perillosa cap a l'exterior. És a dir, prevenim el pensament maliciós des de l'arrel. Brutal. Bé, sintetitzem perquè qualsevol persona amb interès per aquesta tecnologia s'hauria d'emocionar. La clau d'oro i de tot aquest estudi és que estem trencant el coll d'ampolla dels servidors massius. Totalment. O sigui, tenir un rendiment igual a models de 12 bilions de paràmetres ficat en 2.6 bilions vol dir que aquest raonament profund podria viure localment als nostres telèfons intel·ligents o portàtils, oi? Amb tot el que això suposa per la privacitat sense dependre del núvol. És la democratització real de la IA avançada. I per tancar, us vull deixar amb un pensament que va una mica més enllà. Ens demostren que el procés de pensament d'aquestes màquines és molt més precís i segur en el seu propi espai continu de vectors allà a l'habitació fosca que no pas traduint els passos en paraules humanes. Llavors, arribarà un punt en què les conclusions d'aquesta IA seran tan propietàries i tan profundes que literalment no hi haurà cap llenguatge humà capaç de traduir exactament com hi han arribat. O sigui, tindran la resposta perfecta, però el seu raonament serà alliè a la nostra comprensió verbal. És un concepte per rumiar-hi, sens dubte. Dona per una llarga reflexió, sí? Moltíssimes gràcies per acompanyar-nos en aquesta exploració d'avui i, com sempre, mantingueu la curiositat ben viva. Fins a la propera.