DeepSeek-OCR usa visión artificial para procesar documentos largos con menos recursos

La startup china DeepSeek acaba de lanzar algo que podría cambiar por completo la forma en que las máquinas procesan documentos largos. Y no, no estamos hablando de «otro modelo de inteligencia artificial más» – esto es diferente.​

El nuevo modelo se llama DeepSeek-OCR y su propuesta es directa: procesar textos masivos y documentos complejos usando muchos menos recursos computacionales. ¿El truco? Usa la visión como herramienta de compresión.​

Una idea brillante y algo obvia en retrospectiva

Piénsalo un momento. Cuando buscas una frase específica en un libro que leíste hace meses, seguramente recuerdas en qué lado de la página estaba, más o menos a qué altura… tu cerebro almacenó esa información como una imagen, no como texto puro.​

Pues bien, DeepSeek decidió aplicar ese mismo principio a sus modelos de lenguaje. En lugar de procesar cada palabra como un token individual (la unidad mínima que entienden estos sistemas), convierten el texto en imágenes comprimidas.​

Los resultados son sorprendentes: reducción de entre 7 y 20 veces en el número de tokens necesarios. Es como si pudieras meter un libro entero en el espacio que antes ocupaba un capítulo.​

Cómo funciona esta tecnología

El sistema tiene dos componentes principales. Primero está el DeepEncoder, un codificador visual de 380 millones de parámetros que analiza cada imagen y genera una versión ultracomprimida.​

Luego viene un generador de texto construido sobre un modelo de lenguaje con arquitectura Mixture-of-Experts (MoE) de 570 millones de parámetros activos (aunque el modelo completo tiene 3 mil millones).​

Esta arquitectura MoE es clave: solo activa las partes del modelo necesarias para cada tarea específica, optimizando el uso de recursos.​

Entrenamiento a escala masiva

DeepSeek entrenó su modelo OCR con una biblioteca impresionante de 30 millones de páginas PDF en casi 100 idiomas.

El grueso del material (25 millones de páginas) está en chino e inglés, pero además añadieron 10 millones de diagramas sintéticos, 5 millones de fórmulas químicas y 1 millón de figuras geométricas.​

Todo este entrenamiento permite al modelo manejar desde texto plano hasta diagramas técnicos, manteniendo el formato original o convirtiéndolo a texto simple según se necesite.​

Los números que importan

En las pruebas de rendimiento, DeepSeek-OCR puede comprimir texto hasta en un factor de 10 mientras retiene el 97% de la información original. Incluso con compresiones más agresivas (hasta 20 veces), mantiene un 60% de precisión.​

Pero quizás el dato más impresionante es este: el sistema puede generar datos de entrenamiento para otros modelos a un ritmo de más de 200,000 páginas por día… usando una sola tarjeta gráfica Nvidia A100.​

En las pruebas estándar de la industria (OmniDocBench y Fox benchmark), los resultados fueron contundentes. DeepSeek-OCR superó a GOT-OCR2.0 usando solo 100 tokens visuales por página (su rival necesita 256). Y dejó muy atrás a MinerU2.0, que requiere más de 6,000 tokens por página en promedio.​

Open source y disponible ya

Siguiendo su filosofía de democratizar la inteligencia artificial, DeepSeek liberó tanto el código fuente como los pesos del modelo en plataformas como Hugging Face y GitHub. Cualquier desarrollador puede descargarlo, probarlo y adaptarlo a sus necesidades.​

Esta no es la primera vez que la empresa de Hangzhou sorprende al sector. Sus modelos anteriores, DeepSeek V3 y R1, ya habían demostrado que se puede lograr rendimiento comparable al de gigantes como OpenAI, pero a una fracción del costo.​

Fuente: DeepSeek

Salir de la versión móvil