DeepSeek lanza V3.2 y V3.2-Speciale con rendimiento comparable a GPT-5

La startup china de inteligencia artificial DeepSeek ha presentado dos nuevos modelos de IA que están dando de qué hablar en el sector tecnológico.

Se trata de DeepSeek-V3.2 y DeepSeek-V3.2-Speciale, dos pesos pesados capaces de competir cara a cara con los modelos más avanzados del mercado – piensa en GPT-5 de OpenAI o Gemini 3 Pro de Google.

Rendimiento que compite con los gigantes

El modelo DeepSeek-V3.2 ofrece un desempeño comparable al de Claude Sonnet 4.5, GPT-5 y Gemini 3 Pro en tareas como uso de herramientas, pruebas de codificación y razonamiento complejo.

Mientras tanto, su hermano mayor – el V3.2-Speciale – alcanzó calificaciones de medalla de oro en competencias de élite como la Olimpiada Internacional de Matemáticas (IMO), la Olimpiada China de Matemáticas (CMO), las finales mundiales del ICPC y la Olimpiada Internacional de Informática (IOI) de 2025.

Esto no es poca cosa; estamos hablando de los torneos más exigentes del planeta en matemáticas y programación.​

Lo que hace más impresionante este logro es el precio. Según reportes de la comunidad, el V3.2-Speciale es aproximadamente cinco veces más barato que GPT-5, y hasta 24 veces más económico en lo que respecta a tokens de salida.

Para desarrolladores y empresas que trabajan con grandes volúmenes de datos, esta diferencia en costos puede ser decisiva.​

La tecnología detrás del rendimiento

DeepSeek atribuye el éxito de V3.2 a tres avances técnicos clave. El primero es DeepSeek Sparse Attention (DSA), un mecanismo de atención que reduce drásticamente la complejidad computacional sin sacrificar el rendimiento del modelo.

En términos simples, DSA actúa como un filtro inteligente que permite al modelo concentrarse en la información relevante e ignorar el ruido, optimizado especialmente para escenarios de contexto largo.​​

El segundo pilar es un framework escalable de aprendizaje por refuerzo (RL) que utiliza más del 10% del cómputo de preentrenamiento en tareas de matemáticas, código, razonamiento y agentes.

Finalmente, el tercer componente es una pipeline de síntesis de tareas agénticas a gran escala, que incluye datos generados a partir de más de 1,800 entornos diferentes y 85,000 instrucciones complejas.

Esta diversidad de entrenamiento permite que los modelos entiendan contextos largos, razonen de manera deliberada e integren herramientas de forma más efectiva.​​

Ambos modelos emplean la arquitectura DeepSeek-V3 Mixture of Experts (MoE) con aproximadamente 671 mil millones de parámetros totales y 37 mil millones de parámetros activos por token.

Nuevas capacidades para desarrolladores

Una novedad importante en V3.2 es la actualización de su plantilla de conversación. Los cambios principales incluyen un formato revisado para llamadas de herramientas y la introducción de una capacidad llamada «pensamiento con herramientas» (thinking with tools).

Esto permite que el modelo integre razonamiento a lo largo de interacciones de múltiples turnos, haciéndolo más útil para aplicaciones de agentes inteligentes que requieren decisiones complejas paso a paso.​

El modelo V3.2 ya está disponible a través de la aplicación DeepSeek, la interfaz web y la API, manteniendo la misma estructura de precios, pero agregando un nuevo modo enfocado en el uso de herramientas.

Por su parte, el V3.2-Speciale está disponible temporalmente vía API dedicada hasta el 15 de diciembre de 2025 para pruebas comunitarias. Ambos modelos están completamente liberados como código abierto en Hugging Face, acompañados de un reporte técnico completo.​

Salir de la versión móvil