Episodi 001: Com funciona l'API d'Ollama per dins

31 de March de 2026 Durada: 20:04 Episodi 1

🎯 Capítols

Carregant capítols…

Introducció

Què passa realment quan executem Ollama al nostre ordinador? En aquest episodi desgranem la mecànica interna de l’API d’Ollama: el servei que converteix el nostre hardware en una infraestructura d’IA privada i completament local. Des de com fragmenta els models entre GPU i CPU fins a com emula l’API d’OpenAI perquè codi existent funcioni sense canvis.

Temes tractats

Gestió de recursos GPU/CPU: Ollama analitza la VRAM i RAM disponibles i fragmenta automàticament les capes del model entre targeta gràfica i processador, fent de director d’orquestra durant la inferència. L’endpoint /api/ps permet monitoritzar el repartiment en temps real.
Endpoints Generate vs Chat: /api/generate per a tasques d’un sol tret sense memòria (extracció de dades, autocompletar codi), i /api/chat amb sistema de rols (system/user/assistant) que actua com a traductor universal de plantilles entre famílies de models.
Paràmetres de control: Temperatura (0 = determinista), top_k (retalla les opcions menys probables), top_p (selecció dinàmica per probabilitat acumulada) i num_ctx (finestra de context per optimitzar rendiment).
Streaming NDJSON: Connexió oberta permanent que envia tokens paraula a paraula. Per als models de raonament (com DeepSeek R1), s’ha afegit el camp thinking separat que permet auditar la cadena de pensament interna.
Tool Calling: El model pot aturar la generació de text i retornar un objecte tool_calls demanant executar funcions externes. Importància de prevenir bucles d’agents amb límits d’iteracions al codi.
Sortides estructurades (Structured Outputs): L’API restringeix l’espai de tokens per forçar respostes en JSON vàlid. Combinat amb eines de validació com Pydantic o Zod, garanteix robustesa en aplicacions de producció.
Emulació d’OpenAI: L’endpoint /v1 actua com un “cavall de Troia” que tradueix peticions amb format OpenAI perquè codi existent funcioni apuntant a localhost:11434. Inclou suport per embeddings i formats d’Anthropic.
ModelFile i extensió cognitiva: Reflexió sobre com els arxius ModelFile permeten incrustar historials permanents dins del model, obrint la porta a sistemes d’aprenentatge acumulat totalment privats.

Fonts

Contingut generat amb Google NotebookLM - Notebook amb les fonts originals
Documentació oficial de l’API d’Ollama - Referència completa
Transcripció automàtica (/podcast-del-doctor/sources/001-api-ollama-per-dins-transcripcio.txt) - Generada amb OpenAI Whisper (model large-v3)

Important: Aquest episodi ha estat generat amb intel·ligència artificial basant-se en fonts públiques. La transcripció s’ha generat automàticament amb OpenAI Whisper (model large-v3). Consulta sempre les fonts originals per obtenir la informació completa.

📚 Fonts Utilitzades

Contingut generat amb Google NotebookLM - Notebook amb les fonts utilitzades per generar l'episodi
Documentació oficial de l'API d'Ollama - Referència completa de l'API REST d'Ollama
Transcripció automàtica de l'episodi - Transcripció completa generada amb OpenAI Whisper (model large-v3)