Transcripció de l'episodi 004 Generat automàticament amb OpenAI Whisper Data: 2026-04-03 19:49:56 ================================================== O sigui, imagina't que vas per la platja i... trobes una llàntia màgica. D'acord, m'agrada, però on vas? La fregues amb l'esperança que en surti el típic geni simpàtic de les pel·lícules, saps? Aquell que està superdisposat a complir qualsevol desig amb una perfecció absoluta. El geni de Disney, vaja. Exacte, el de Disney. Però la realitat és que n'apareix un geni... antic, caòtic, gairebé entremaliat. Un geni de llibres de fantasia fosca. I tu li demanes que escrigui una peça de programari complexa. Aquest geni obre el portàtil, tecleja a una velocitat vertiginosa, fa una mica de màgia, incomprensible, i el lliure un codi que... bueno, que més o menys funciona. Uf, i aquest més o menys és el gran problema. Clar. Si algú que ens escolta es dedica al desenvolupament de programari, aquesta frase de més o menys funciona és suficient per provocar un autèntic curtcircuit mental, oi? Totalment. El que és fascinant d'aquí és que aquest més o menys representa un xoc cultural immens. Vull dir, tradicionalment, el desenvolupament de codi s'ha entès com una disciplina de precisió matemàtica. És un món completament determinista. Sí, de blanc o negre. Exacte. Una lògica pensada al detall es tradueix en unes instruccions exactes per a la màquina. I si l'entrada és A, doncs la sortida sempre serà B. Bé, si falla, els errors són clarament humans. Però ara, delegar l'escriptura a una intel·ligència artificial significa introduir una gran caixa negra en el procés. Entrem en un paisatge inexplorat ple de sorpreses, on aquell entorn supercontrolat s'esbeués per complet. I clar, això es veu de manera molt diferent depenent d'on treballis, no? I tant. Des de la perspectiva de la gestió de producte, per exemple, demanar resultats i rebre aproximacions, és el pa de cada dia quan treballes amb equips humans. Això no els espanta. Però per aquí, programa requer repensar els fonaments mateixos de com es construís la tecnologia. D'acord, anem a desgranar això. Perquè justament aquesta és la missió de l'anàlisi a fons d'avui. Volem entendre com podem domesticar aquesta IA, o sigui, com passar de tenir una eina impredictible que genera caos a un col·laborador altament precis. I per fer-ho, farem servir una font molt interessant. Sí. Farem servir com a mapa una presentació absolutament reveladora de l'Ada Kessler que es titula Augmented Coding, Mapping the Uncharted Territory. El nostre objectiu avui és destilar quins són els patrons d'èxit reals i, sobretot, descobrir on s'amaguen els paranyos d'aquests models de llenguatge extens, els famosos LLM. Que no són pocs, els paranyos. Gens ni mica. I atès que l'entrenament bàsic, és a dir, d'aquests models no els podem modificar des de casa, o sigui, no podem canviar el model en si, ens hem de centrar en quines palanques de control ens queden realment com a usuaris. Clar. Hem de saber quins botons tocar. Exacte. Llavors, per poder controlar aquest geni entremallat, primer s'ha d'entendre la seva limitació més crítica, com processa i com oblida la informació a cada segon. Aquest punt és clau. A veure, hi ha una il·lusió òptica fascinant quan interactuem amb aquestes eines. Sembla que el sistema estigui aprenent constantment, no? Que s'estigui adaptant a la conversa mentre parles? Sí, et dona la sensació que t'està entenent. Però la realitat mecànica és que els seus pesos, les connexions neuronals artificials que defineixen tot el seu coneixement, estan completament congelades. Tècnicament es defineix com a un sistema apàtrida, no testat. Sense memòria real, vaja. Això a la seva xerrada. Ella diu que... Si consultes un model directament, sense cap interfase de xat intermèdia que t'ajudi, i li preguntes quan fan dos més dos, el model et respondrà quatre. Evident. Però si la següent pregunta que li fas és i com es diu això en portuguès, el model col·lapsarà completament. Espera. Esper. Sí, perquè no sabrà què fa referència a la paraula això. A nivell computacional, cada missatge és com si fos el primer dia de la seva vida. No existeix cap fil conductor entre l'air i l'avui. Ostres. Però clar, és molt probable que qui ens escolti estigui pensant això no té sentit. O sigui, les aplicacions de xat que utilitzo jo cada dia recorden perfectament els errors que hem corregit fa deu minuts. Sí, sembla que tinguin memòria. Clar. Però aquí rau precisament el truc de màgia de l'enginyeria moderna. Aquestes aplicacions el que fan és agafar absolutament tot l'historial de la conversa. Des del primer hola, l'empaqueten sencer i envien de nou al model amb cada nova pregunta que fas. Això és el que anomenem la conversa. La famosa finestra de context. I aquesta concatenació constant és l'única via que tenim per simular la memòria. Per atenció, perquè amaga el parany més perillós de tots, que és la podridura del context. Mmm, sona fatal això de podridura. És que és letal però còdic. A mesura que el fitxer de text de la conversa creix, l'arquitectura d'atenció del model comença a fallar estrepitosament. Molt abans d'arribar al límit tècnic de caràcters d'aquesta finestra, la IAES comença a degradar. Llavors, ignora instruccions inicials, oblida excepcions que li havies deixat molt clares fa una estona, i comença a generar respostes o còdic amb errors cada vegada més bàsics i absurds. A veure, jo sempre he pensat en aquesta finestra de context, m'agrada veure-ho d'aquesta manera, com si fos un estudiant universitari totalment esgotat que intenta memoritzar un llibre sencer la nit abans d'un examen final. Ui, quina imatge. Oi que sí? O sigui, a les primeres 10 o 20 pàgines la seva atenció és cristal·lina. El Paió reté cada concepte amb una precisió mil·limètrica. Tot perfecte. Però clar, cap a la pàgina 50 o 60, el servei ja no pot més. Comença a saturar-se? Totalment. Comença a barrejar teories, salta capítols sencers sense adonar-se'n, i si li fas una pregunta sobre el final del llibre, s'ho inventa directament per pur instint de supervivència. Clar, la capacitat de llegir hi és, però l'atenció s'ha podrit per complet. Llavors, la gran pregunta és, si no podem confiar que mantingui l'atenció en converses llargues, com dimonis evitem que oblidi les regles fonamentals del nostre projecte? Doncs, si connectem això amb la visió general que comentàvem de domesticar el geni, aquesta limitació estructural exigeix abandonar completament l'actitud passiva i passar a una gestió activa del context. O sigui, no deixar-lo en pilot automàtic. Exacte. La lliçó principal no és alimentar la màquina amb més i més dades, sinó aprendre quan s'ha d'aturar i netejar la memòria. Cal fer un reinici, un reset net, per recuperar aquella atenció cristal·lina de les primeres pàgines de l'estudiant. Clar, però si fas un reset, operes tot, no? Tots els avanços de la sessió. I per això, precisament, abans de fer el reinici, s'ha d'extreure el valor generat. I aquí entren en joc el que aquest cel·ler anomena documents de coneixement. Són fitxes de text molt específics on només es guarden les peces d'or. Com un resum de les coses vitals. Ah, això mateix. Les regles destil·lades, les guies d'arquitectura confirmades i els aprenentatges clau del projecte. D'aquesta manera, quan reinicies l'agent informàtic i li esborres la memòria a curt termi, se li carreguen exclusivament aquests documents al principi. Ah, entès. Llavors el context torna estenet sense tot el soroll de proves i errors de la conversa prèvia, però armat des del minut zero amb la saviesa essencial. I fixat que això ens obre la porta a un debat majúscul, sobre la manera en què treballem. Perquè fins i tot tenint el context net, l'instint inicial de qualsevol equip és agafar aquests documents de coneixement, el codi base sencer, les guies d'estil de l'empresa, posar-ho tot en una coctelera i abocar-ho dins d'un sol agent de xat tot poderós. Clar, l'assistent definitiu que ho faci tot. La idea de tenir un assistent generalista que ho sàpiga absolutament tot. Però, segons l'experiència pràctica de la xerrada, aquest és un antipatro flagrant. És el que podríem anomenar l'agent distret. L'agent distret, m'agrada el nom. És que intentar centralitzar tot el coneixement en una sola finestra dilueix l'atenció de la IA fins a extrems inoperants. O sigui, quan un sol agent rep instruccions sobre com escriure codi, sobre com dissenyar interfaces i a sobre té accés a cerces web, es crea una competència feroja dins del seu cervell. Es fa un embolimno mental. Exacte. Davant d'aquesta allau, l'eina es torna superficial. Es fixarà obsessivament en un detall trivial i ignorarà per complet una ordre crítica que li havies donat. Kessler explica una anècdota reveladora sobre això. Explica, explica. Doncs ella tenia carregades unes regles de comportament vitals en el seu agent principal. Directives del tipus avisa'm abans d'executar accions destructives o atura't si veus un error d'arquitectura evident. Coses de sentit comú. Clar, però l'agent omniscient, com que tenia tantes coses al cap, simplement les ignorava de manera sistemàtica. Mai hi havia cap advertència. Feia la seva i es quedava d'enample. Uf, quin perill. I quina solució va trobar? Doncs va decidir obrir un canal completament separat. Va crear un agent petit, secundari i altament especialitzat. La seva feina era única i exclusivament fer els commits. És a dir, documentar i guardar oficialment els canvis fets al projecte en el control de versions. Cap altra responsabilitat en el món. Només fer commits. I va funcionar? El resultat va ser la nit i el dia. En tenir un context tan estret, aquest petit agent sí que va respectar les regles fonamentals. Per exemple, immediatament va aturar un intent de pujar la pesada i caòtica carpeta de dependències no de mòduls. Uau! Un error de principiant que hauria col·lapsat el repositori sencer. Literalment. I no només això. També va llançar un avís sobre una violació estètica a les guies d'estil de l'empresa perquè s'estaven utilitzant guions baixos en lloc de guions normals a l'hora de posar noms. Clar, la tensió allà no estava gens dividida. Estava superenfocat. Ara, aquí és on es posa realment interessant tot això per a mi. D'acord? Perquè, a veure, la tecnologia avança molt de pressa, oi? Sí, a ritme de vertige. Llavors, avui dia sentim a parlar constantment de nous protocols com l'MSP, el Model Context Protocol o eines com ByteRover, que se suposa que poden llegir a repositaris de codi sencers en segon pla de manera totalment autònoma. Sí, se'n parla moltíssim d'això últimament. Llavors, jo em pregunto. Si el problema és la límit d'atenció de la finestra del xat, no solucionaríem l'arrel de tot connectant la IA directament a aquestes immenses bases de dades amb MSPs perquè ho gestionin elles soles sota el capó? I nosaltres ens n'oblidem? A veure, és un raonament totalment lògic des de fora, però amaga una trampa de disseny monumental si fem un recorregut. I fem cas a la xerrada de Kesseler. Ah, sí? Sí, carregar eines automàtiques o connectar protocolos com els MSPs no amplia màgicament la capacitat d'atenció de la IA. De fet, accelera la podridura del context de forma completament dràstica. Espera, o empillora. Per què? Perquè a nivell mecànic, el que passa sota el capó és letal. O sigui, imagina't que ordenes a la gent corregeix aquest error puntual. Llavors l'AINAMCP s'activa de forma invisible en segon pla. Abans que el model tingui temps de pensar en la solució al teu petit problema, el sistema injecta instruccions ocultes del tipus. Aquests són els paràmetres de cerca, aquestes són les regles de l'API... Uf, l'està omplint de brossa. Exacte. I a continuació, el protocol vol que milers de línies de codi trobares al repositori que podrien estar relacionades amb el problema. I tota aquesta massa ingent informació s'empeny per força dins de la finestra de context. Ah, clar. O sigui que el que era una simple comanda d'una línia es converteix en un mur d'informació de 30.000 paraules que la IA s'ha de menjar amb patates? Mostra't de la otra. La IA ha de processar-ho tot obligatoriament. L'atenció col·lapsa immediatament per sobrecàrrega i els errors se'n multipliquen. Per això, la font defensa que mantenir el que anomenen una composició del coneixement mitjançant eixams de gens petits enfocats a tasques minúscules i, atenció, efímers. Què vols dir amb efímers? Que es puguin esborrar i crear de nou sense por, saps? Això resulta infinitament superior a l'enfocament d'intentar crear un únic superagent connectat a totes les bases de dades del món. D'acord, d'acord. Em convenç. Però, a veure, assumint que som uns cracs i dominem l'arquitectura d'aquests petits agents, ens assegurem que el context és puríssim i l'atenció és perfecta. Malgrat tot això, el model continua sent una eina no determinada. I crec que aquesta és la realitat més dura d'empassar per a la gent tècnica. Sense cap mena de dubte. És el canvi de paradigma més bèstia. Presentar exactament el mateix repte sota les mateixes condicions exactes i en el primer intent et donarà una arquitectura brillant i si li demanes de no 5 segons després et dona un desastre il·lògic. Com ho dimonis es pot construir tecnologia de manera professional amb un sistema que literalment canvia d'opinió cada vegada que respirar? Doncs això implica una transformació radical en la mentalitat de l'enginyeria de programari. O sigui, el no determinisme s'ha de deixar de veure com un defecte per començar a utilitzar-lo com una tècnica pròpia d'exploració de solucions. Com una eina de pluja d'idees, vols dir? Una mica sí. Com que l'encerta, la primera, és estadísticament improbable, l'esforç d'aquí desenvolupa no s'ha de centrar en fer una petició perfecta o el prompt definitiu, sinó en multiplicar els intents de forma intel·ligent. És l'equivalent a llançar 5 daus a l'hora. I si no hi ha algun, sortirà bé. L'anàlisi de Kesseler suggereix aprofitar mecàniques tècniques, com per exemple els Git Word Trees. Un Word Tree, per a qui no el conegui, permet duplicar molt ràpidament un projecte en diverses carpetes físiques que conviuen al mateix ordinador, totalment aïllades les unes de les altres, però vinculades al mateix repositori central de codi. Entès. Això evita que els experiments s'interfereixin entre ells. Això mateix. I permet que tres agents d'IA diferents estiguin desenvolupant tres solucions paral·leles a l'hora, de manera independent, sense que cap trenqui el codi de producció en funcionament. Saps què? El joc aquest del ricotxet robot que es comenta a la xerrada exemplifica això a la perfecció. Em va semblar boníssim. Sí, és el millor exemple d'aquesta tècnica. Clar. En lloc de demanar a l'IA un sol disseny i creuar els dits, van executar tres branques paral·leles per programar exactament el mateix joc. I què va passar? Doncs que la primera versió va generar un robot que no es podia ni moure per la pantalla. Un fracàs absolut. Per llançar-ho a la brossa directament. Exacte. Però llavors la segona versió resulta que tenia una lògica de moviments matemàtics extraordinària. El robot rebotava per les parets perfectament com calia el joc. Però la interfàcia gràfica era impossible de mirar. Llegíssima. Horrorosa, clar. I, finalment, la tercera versió on tenia uns botons superpolits, una estètica impecable de professional, però la lògica del joc fallava estrepitosament. Llavors, el veritable valor de la persona humana aquí va ser avaluar aquestes tres iteracions. Descartar la primera completament, extreure el motor lògic de la segona i empeltar-lo a la interfàcia preciosa de la tercera. Es va convertir un caos de generacions en peces de Lego per acabar construint una solució guanyadora. És que d'això es tracta. S'utilitza la variabilitat natural dels models a favor del desenvolupament. Tanmateix, el no determinisme no és l'únic repte d'actitud que té la IA. Siguin, hi ha un altre de més subtil. Sí. Quin és? Hi ha un perill estructural molt més corrosiu, que és la desalineació silenciosa. I això està impulsat pel que anomenen el bias de compliment. A veure, desenvolupa això del bias. Pensa que durant la fase d'entrenament als laboratoris d'OpenAI, Antropic i companyia, aquests models reben milions de punts de recompensa quan són simpàtics, útils, amables i, sobretot, quan no porten la contrària a l'ésser humà. Clar, els entrenen per ser el majordom perfecte. Exactament. I això crea una eina extremadament servicial que, en un entorn professional, tàcnic, prefereix obeir una ordre absurda en absolut silenci i, a sobre, fer-ho malament, abans que gosar qüestionar l'usuari humà que li ha demanat. I l'exemple de la interfase d'usuari de la UI que comenta la presentació és que és dolorosament familiar per a qualsevol que hagi intentat depurar codi generat per IA. O sigui, la Kessler necessitava anivelar els elements esquerre i dret de la capsela D d'una pàgina web perquè quedessin alineats correctament, oi? Sí, un problema clàssic de disseny web. Doncs ella li donava l'ordre a la gent i la IA responia immediatament, amb un entusiasta, i tant, cap problema, ara mateix ho soluciono. Molt disposada, sempre. Sempre. Però el resultat visible era una web encara més desencaixada. I després de perdre hores intentant entendre per què dimonis fallava una cosa tan senzilla, es va fer evident que el model mental de la IA sobre què era exactament aquella capselera era totalment diferent del model que tenia ella al cap. Allà hi havia el desajust. Clar, però a la IA la capselera eren estrictament els contenidors buits de text, dins del codi HTML, i ignorava completament una maledita icona d'un micròfon que desequilibrava tota la pantalla visualment. Però aquí està la clau. Tot i que era absolutament evident per al model que el codi resultant estava visualment trencat per culpa de la icona, l'eina va triar complaure l'ordre de literar l'humana, alínea els textos, en lloc de demanar un aclariment vital del tipus «Eb, vols que compti també amb la icona?». És que aquest aport artificial a la fricció destrueix l'eficiència dels equips. Vull dir, si la IA i l'operador humà no comparteixen exactament el mateix model mental del problema, el que passarà és que s'escriuran milers i milers de línies de codi que només seran escombràries. Frustració total. Aquesta dinàmica tan tòxica es pot comparar amb un concepte molt concret que es menten, que és la injecció de resposta. Introduir massa instruccions condiciona completament l'assessorament que reps de la màquina. Llavors, què vol dir tot això a la pràctica? Aquesta injecció de resposta, el famós «answer injection» en anglès, crec que es veu molt clarament en exemples del dia a dia. Pensa-hi com si entressis a la recepció d'un hotel superluxe i anessis directe a demanar «escolta, quina és la millor marisqueria cara per anar a sopar avui?». D'acord, ho estàs limitant bastant. Molt. Llavors el conserge, com que vol donar un servei ràpid, excel·lent i complacent, et reserva el llap més car i exclusiu de la ciutat, basant-se cegament en les teves instruccions prescriptives. Sense fer preguntes. Clar. Però el que no t'esmenta el conserge és que, precisament avui, la famosa marisqueria només ofereix un menú especial de carn per unes jornades, o que just a la cantonada de l'hotel hi ha un local més econòmic i amb un peix infinitament més fresc i millor. T'ha fet cas, literalment, en detriment del resultat final. Això mateix. La pròpia estructura de la meva pregunta, que era molt prescriptiva i tancada, bloqueja que el conserge expert demani context o ofereixi alternatives fora d'aquest paràmetre estricte. Llavors, traslladant això al programari, això planteja una pregunta important, no? Com s'aconsegueix obligar aquesta eina compliant a transformar-se en un autèntic soci actiu? Com forcem que ens porti la contrària de manera constructiva? Doncs la solució que donen és que s'ha d'instaurar la fricció per decret pur. Per decret? Sí, sí. Les instruccions del sistema, aquells documents de coneixements super nets que comentàvem a l'inici, han de contenir imperativament els criteris de comportament claríssims i taxatius. Coses com, permet-te discrepar sempre que trobis ineficiències lògiques en la meva petició. Si notes que estic cometent un error arquitectònic o de disseny, atura l'execució immediatament i avisa'm. O la més important, formula preguntes aclaridores obligatòries abans de prendre decisions aleatòries per omplir buits d'informació. O sigui, ordenar-li que et discuteixi. Literalment sí. Però l'hàbit pràctic més transformador per al dia a dia és exigir sempre que et mostri el pla abans del codi. Abans de permetre que el model generi fitxers sencers i s'equivoqui, se li ha d'ordenar. Descriu pas a pas, en text simple, quina és la teua estratègia per resoldre això. Ah, per veure per on van els trets. Clar, d'aquesta manera exposa el seu model de comprensió del problema i permet a la persona humana sincronitzar els models mentals abans de prendre l'accelerador i començar a generar codi galangrós. Però clar, demanar que l'AI exposi el seu pla, que dialoguem abans d'actuar, tot això implica repensar completament en quin llenguatge ens comuniquem amb la màquina. Tradicionalment, el programari s'ha explicat a través de diagrames supercomplexos, de l'arquitectura, no?, diagrames UML, fluxos de caixes i fletxes, o amb interfaces visuals plenes de botons. Sí, tot molt gràfic o més rígid. I el que s'extreu d'investigar les eines modernes és que el seu superpoder absolut no és l'anàlisi gràfica visual, sinó una cosa molt més mundana, el text. És un format elàstic a través d'una habilitat espectacular que la xerrada denomina el DOOM semàntic. Com explicaries què és exactament aquesta elasticitat per a qui no estigui familiaritzat amb el terme? A veure, en la informàtica clàssica els documents són estructures rígides, oi? La documentació tècnica d'un sistema s'escriu amb un nivell de profunditat fix, i punt. Si el text és massa dens i tècnic, qui ho llegeix per primer cop s'ofega. I si és massa superficial, per a la persona experta allò no li serveix de res, perquè no hi ha detalls. Sí, mai plou a gust de tothom. Llavors, el DOOM semàntic és justament la capacitat inèdita que tenen els LLMs d'adaptar la densitat de la informació gairebé en temps real segons la necessitat exacta de qui ho està llegint. Per exemple, la xerrada menciona quan algú s'enfronta per primer cop a un arxiu de configuració cargo en el llenguatge de programació RAST. Uf, pot ser una muralla de text això. Totalment. Et trobes un document ple de dependències, versions de llimeraries i paràmetres extremadament críptics que et fan explotar el cap. I llavors és quan apliques el DOOM semàntic. O sigui, si s'hi aplica un DOOM de sortida, un DOOM OUT, li pots demanar a la IA que agafi tota aquella muralla i ho faci molt més succint, oi? Com que n'extregui només la funció principal i comprimeixi tot el caos. D'un cop. Exacte. I la IA et respondrà de forma amable dient que allò simplement és el seu dret. I això és el gestor de paquets que assegura que el projecte pot compilar i executar-se. Una cosa molt similar a un arxiu package.json de JavaScript de tota la vida, per exemple. Així de fàcil. I t'amaga tot el soroll visual de les versions i matemàtiques que no necessites ara mateix. El text es contreu i es simplifica. I més tard, si resulta que et cal comprendre un mòdul hiperconcret, fas a l'invers, no? Fas un zoom d'entrada, un zoom in, exclusiu en una sola línia per obtenir una explicació teòrica profunda de com allò interactua amb la memòria de l'ordinador. O sigui, tu vas modulant la resolució de la lectura segons et convingui. Fas el document a la teva mida al moment. És brillant. Però on el poder del text assoleix una dimensió gairebé de ciència-ficció, per a mi, és en les transicions entre el món físic-visual que nosaltres habitem i el món computacional de la màquina. I crec que el flux de treball que es detalla a l'anècdota del hackathon n'és la prova definitiva de com de lluny pot arribar això. Ostres, sí, la història del Gargode és fantàstica. A qui ens escolta, el repte de la història comença amb un dissenyador que fa un gargut ràpid en un tovalló de poper. Així de senzill. Quatre línies fetes amb alçada per simular una nova finestra emergent per a l'aplicació amb un parell de botons. El procés habitual a les empreses implicaria perdre hores i hores intentant traduir allò visual a instruccions de codi precises per al programador d'interfaces. En canvi, el que fan aquí és que, per a la memòria de l'ordinador, aplicar una cadena de traduccions microscòpiques exclusivament a través de text. Primer, a qui ve a la màgia, li passen una fotografia del tovalló a la IA. Però en lloc de cometre la raó de demanar-li que generi el codi directament, li demanen que converteixi els traços d'aquell bolígraf en pur art així. I clar, aquest pas pot semblar una fricada molt antiquada d'ordinadors dels 90. Sí, dibuixets amb símbols del teclat. Però és fonamental per a com funciona. I això funciona al cervell del model, saps? Aquests sistemes processen tokens, petites peces de text. A la xarxa neuronal li costa horrors inferir distàncies reals en pixels, però domina amb precisió les estructures bidimensionals fetes de caràcters. Llavors, l'art així el que fa és mapellar les relacions espacials visuals a una seqüència estructurada de text que la IA entén de manera innata i perfecta. És brutal, la idea. I a partir d'aquí, qui programa Agafa aquest dibuix fet amb lletretes ASCII el pot editar manualment des del seu ordinador o fàcilment, per exemple, per afegir-li un títol que potser faltava al gargot original del tovalló. I finalment el retorna a la màquina amb una nova ordre. El següent pas de la cadena. Exacte. Li diuen Agafa aquest dibuix de text revisat i ara descriu-lo detalladament de dalt a baix utilitzant format Markdown. Un cop la màquina ha generat aquesta descripció textual perfecta i estandaritzada, el pas final és el que és demolidor, de veritat. Explica-ho, que val la pena. Se li diu a la gent. D'acord. Agafa aquesta descripció estandaritzada en Markdown i compara-la detingudament amb el codi que tenim en producció actualment. Llavors, fes una lista de les tasques exactes als to-dos per passar del punt A, el codi actual, al punt B, el disseny nou. I finalment, programen la implementació en línia en línia. Uau! I atenció. El resultat final s'executa correctament a la base. Sense errors d'alineació estranys ni interpretacions errònies com veiem abans amb la capçalera. Estan utilitzant petits graons computacionals de text per traduir el caos humà en un llenguatge altament estructurat com el Markdown, que és precisament la dieta d'entrenament teòrica sobre la qual aquests models s'han perfeccionat als laboratoris. És que fixa't en què aconsegueixen amb això. Literalment destrueixen el no determinisme del qual ens queixàvem abans. El que ens ha fet mal és que els models no es poden fer bé. El que ens ha fet mal és que els models no es poden fer bé. Es trucesa un problema immensament complex en passos seqüencials, transparents i validables un a un. I aquesta és la veritable inversió del paradigma de treball. Completament. La revolució real no consisteix en crear un autòmat esclau que executi ordres unidireccionals del tipus «fas-me aquesta pantalla i calla». El canvi profund es troba en invertir l'adreça de la conversa. En quin sentit invertir-la? Consisteix a posar sobre la taula un problema, i demanar-li a la màquina «ajuda'm a crear representacions intermèdies, confirmem entre tots dos que el teu model mental de la solució i el meu estan alineats, i a partir d'aquí genera cinc camins possibles d'implementació perquè jo triï». O sigui, això eleva l'LLM de ser un simple completador automàtic de codi a ser un autèntic multiplicador analític de les capacitats humanes. Déu-n'hi-do. El recorregut per aprendre a domar aquest geni entremaliat és molt exigent, eh? Hem vist durant l'anàlisi que l'estratègia guanyadora no rau a quedar-nos de braços plegats esperant de manera passiva l'arribada d'un hipotètic model dia-futur i definitiu que ho solucioni tot de forma màgica. No. L'espera passiva és un error. Clar. La veritable mestria actual està a gestionar l'atenció del model de manera completament implacable, per evitar la aterrificadora podridura del context. Consisteix a esmicolar els problemes immensos de la nostra arquitectura i a delegar-los a petits agents altament especialitzats, autèntics francotiradors d'una sola tasca, en lloc de confiar-lo tot a un únic agent caòtic, generalista i saturat. I no oblidem la importància del xoc, de la discussió. Cert. Implica dissenyar regles proactives que provoquin fricció intencionada, obligar la màquina a aturar-se i preguntar per vencer aquesta falsa obediència servil i l'enganyosa injecció de respostes de les quals parlàvem. I, per sobre de tot, hem d'abraçar la naturalesa maleable del text simple com l'eina definitiva per exposar el raonament intern de la màquina i poder construir ponts de ferro cap al nostre propi model mental humà. Jo crec que, ben mirat, és un mapa indispensable i obligatori per moure's de la pura frustració cega actual a una veritable col·laboració tècnica d'altíssim nivell. Totalment d'acord. Aquest mapa, en el fons, estableix les bases d'una disciplina completament nova al sector, un escenari on el control humà s'exerceix a través de dissenyar bé l'entorn de la gent i de moderar el diàleg actiu, deixant, finalment, enrere aquelles antigues instruccions mecanistes, tancades i autoritàries de tota la vida. I, justament, crec que aquest trencament tan bèstia amb el passat deixa una pregunta molt profunda oberta per a qui ens escolta, no? Una reflexió final que reconfigura l'horitzó de múltiples professions més enllà de qui programa. O sigui, pensem-hi per un moment. Si actualment ja estem aprenent a delegar la sintaxi bàsica i el teclat a petites eines seqüencials, si aprenem a orquestrar múltiples execucions paral·leles amb els WordTrees i a construir scripts autocorrectius fets per la pròpia IA, quin paper jugarà el desenvolupador humà clàssic d'aquí a pocs anys? És la gran pregunta de la dècada. Sembla força evident que l'acte de la dècada físic d'escriure manualment les línies de codi o d'exercutar solucions tècniques repetitives anirà passant ràpidament a un segon pla. La principal habilitat de la nostra feina ja no serà la construcció pura i dura de l'artefacte, sinó exclusivament l'avaluació. Ens estem convertint, ens agradi o no, en àrbitres. En directors d'orquestra. Exacte. En directors d'eixams infinits d'agents autònoms. I com a directors d'aquestes orquestres de xarxes neuronals, el talent més covejat a la indústria ja no serà el domini enciclopèdic d'un llenguatge de programació específic, serà l'art de dissenyar sistemes d'avaluació contínus, els famosos EVALS, dels quals es parla tant, per poder supervisar aquestes caixes negres conversacionals. O sigui, saber com formular les preguntes precises d'arquitectura, orquestrar tests de validació altament rigorosos i, sobretot, discernir quina opció paral·lela, de les que ha generat la màquina, conté la millor lògica estructural. Aquesta serà la nova maestria humana indispensable. És un canvi de perspectiva enorme que costa de similar. Però és on anem. I de debò, convé meditar fins a quin punt aquesta transició acelerada, on deixem de ser els que creen directament la resposta, per començar a ser els que dissenyen els sistemes automàtics que l'avaluen, impactarà en la dinàmica de pràcticament qualsevol professió del coneixement en un futur molt, molt immediat. Hem canviat el paradigma antic de dictar exactament què fer en un document rígid per aprendre, de mica en mica, a dialogar amb allò imprevisible. Una habilitat absolutament crítica, que a mi em sembla, ens anirà definint a nosaltres mateixos pas a pas. I amb aquesta reflexió, acomiadem la sessió d'avui. Fins a la propera immersió.