Episodi 008: Com COLMAP reconstrueix el món en 3D
🎯 Capítols
Carregant capítols…
Introducció
El nostre cervell biològic entén l’espai tridimensional en mil·lisegons, gastant tot just uns pocs watts d’energia. Però per a un ordinador, un grapat de fotografies no és més que una llista plana de milions de píxels en 2D — un buit absolut d’informació espacial. En aquest episodi analitzem a fons COLMAP (Collection Mapper), el programari de codi obert creat per Johannes Schönberger a la Universitat UNC Chapel Hill que s’ha convertit en l’estàndard de la indústria per reconstruir el món en 3D a partir de simples fotografies. Ens basem en un vídeo extremadament detallat del canal de YouTube Everypoint.
Temes tractats
-
COLMAP i el seu origen: Creat per Johannes Schönberger, que durant el seu doctorat va arribar a processar 100 milions d’imatges en un sol PC. És un mapejador de col·leccions d’imatges de codi obert i un estàndard total a la indústria de la reconstrucció 3D.
-
Extracció de característiques amb SIFT: El primer pas és trobar punts de referència a cada foto amb l’algorisme SIFT (Scale-Invariant Feature Transform). Crea una “empremta dactilar numèrica” — un vector matemàtic — per a milers de punts de cada imatge, invariant a l’escala gràcies a una piràmide gaussiana de desenfocament.
-
Emparellament (matching) d’imatges: Amb milers de fotos i milers d’empremtes per foto, comparar-ho tot és computacionalment devastador. COLMAP ofereix estratègies: seqüencial (fotos en ordre), arbre de vocabulari (resum visual ràpid per descartar fotos sense relació) i mètodes espacials basats en GPS/EXIF.
-
Verificació geomètrica i falsos positius: Patrons repetits com maons o finestres generen correspondències falses. COLMAP aplica la restricció epipolar per descartar punts que no tenen sentit físicament. La correcta definició del model de càmera (longitud focal, distorsió K1/K2, dades EXIF) és crítica.
-
El salt al 3D i la reconstrucció incremental: En lloc de començar per la foto 1 i sumar la 2 (error fatal), COLMAP busca la parella perfecta amb màxima paral·laxi — potser la foto 12 i la 85 — per inicialitzar l’univers tridimensional i anar afegint càmeres una per una.
-
Bundle Adjustment (ajust de feixos): Optimització no lineal que equilibra els errors acumulats. Com teixir una taranyaina: cada fil nou pot deformar la xarxa, i l’ajust de feixos reequilibra totes les tensions a la vegada, revisant càmeres, punts i distorsió de lents.
-
El drama CPU vs GPU: Algú gasta 2.000€ en una GPU d’última generació, però durant la reconstrucció incremental la GPU està morta de riure mentre la CPU pateix 5 hores al 100%. La reconstrucció és seqüencial per definició — no es pot calcular la càmera 80 sense haver resolt la 79.
-
GLOMAP: la solució global moderna: Del mateix Schönberger, canvia la filosofia: en lloc d’anar foto per foto, mira tot el món de cop amb mitjanes de rotacions. Permet paral·lelitzar amb GPU i reduir el temps a una desena part, però requereix molta connexió entre fotos — si no, genera blocs de punts inútils (els “Cupsborg”).
-
L’impacte: del 3D Gaussian Splatting al cinema: Tota la revolució visual actual — 3D Gaussian Splatting, realitat augmentada, bessons digitals — depèn d’aquesta estimació mil·limètrica de les càmeres. Sense COLMAP, entren escombràries i surten escombràries.
-
Consell pràctic: No utilitzar datasets acadèmics perfectes per aprendre. Cal sortir al món real, fer fotos a una font d’aigua esquivant gent i reflexos, i veure on es trenca tot.
Fonts
- NotebookLM: Com COLMAP reconstrueix el món en 3D — Notebook de Google NotebookLM amb les fonts originals del contingut
- COLMAP Explained - Everypoint (YouTube) — Vídeo detallat del canal Everypoint que serveix de base per a l’episodi
- Transcripció automàtica (
/podcast-del-doctor/sources/008-colmap-reconstrueix-mon-3d-transcripcio.txt) — Generada amb OpenAI Whisper (model large-v3)
Important: Aquest episodi ha estat generat amb intel·ligència artificial basant-se en fonts públiques. La transcripció s’ha generat automàticament amb OpenAI Whisper (model large-v3). Consulta sempre les fonts originals per obtenir la informació completa.
📚 Fonts Utilitzades
- NotebookLM: Com COLMAP reconstrueix el món en 3D - Notebook de Google NotebookLM amb les fonts i la generació del contingut d'aquest episodi
- COLMAP Explained - Everypoint (YouTube) - Vídeo detallat del canal Everypoint que explica pas a pas el funcionament intern de COLMAP
- Transcripció automàtica de l'episodi - Transcripció completa generada amb OpenAI Whisper (model large-v3)