El modelo de IA DeepSeek OCR puede procesar 200.000 páginas de documentos al día en una sola GPU Nvidia A100

Una GPU Nvidia A100 (Fuente de la imagen: Nvidia)

DeepSeek se dispone a revolucionar el aprendizaje de la IA con un nuevo modelo de compresión OCR de código abierto. Gracias a su avanzada codificación óptica, DeepSeek puede aprender de más de 200.000 páginas de documentos al día en una sola GPU Nvidia A100.

Daniel Zlatev (traducido por Ninh Duy), Publicado 10/22/2025 🇺🇸 🇵🇹 ...

AI Nvidia

Con la proliferación de los centros de datos de IA y los costes de procesamiento asociados, la responsabilidad recae ahora en la eficiencia de los algoritmos, y ningún modelo lingüístico parece hacerlo mejor que DeepSeek. Sus modelos son de código abierto, y entrenarlos tiene un coste mucho menor que los de ChatGPT de OpenAI o Gemini de Google.

El recién anunciado modelo DeepSeek-OCR es un buen ejemplo de la eficacia del aprendizaje. Mediante el mapeo óptico, puede comprimir documentos extremadamente largos convirtiéndolos en imágenes con una precisión de reconocimiento del 97% a una relación de compresión inferior a 10x.

Mediante el uso de un codificador y decodificador avanzados, más de nueve tokens con el texto del documento pueden convertirse en un único token visual, lo que disminuye en gran medida los recursos informáticos necesarios para procesar el contenido. Incluso con una relación de compresión de 20x, el nuevo sistema DeepSeek-OCR puede alcanzar una precisión de reconocimiento óptico del 60%, una hazaña sin precedentes.

Gracias a los nuevos algoritmos de compresión de la IA, DeepSeek-OCR puede aprender de textos científicos o históricos procesados por una sola GPU Nvidia A100 del centro de datos con una velocidad de 200.000 páginas al día. De este modo, un clúster A100 de 20 nodos puede procesar 33 millones de páginas de documentos al día, lo que supone un cambio de paradigma en el aprendizaje LLM a partir de texto. Según la clasificación de OmniDocBench, DeepSeek-OCR supera con creces a otras soluciones populares como GOT-OCR2.0 o MinerU2.0 en cuanto al menor número de tokens de visión utilizados por página.

Los nuevos algoritmos DeepEncoder pueden manejar una amplia gama de tamaños y resoluciones de documentos sin sacrificar la velocidad ni la precisión, mientras que el descodificador DeepSeek3B-MoE-A570M se basa en la llamada arquitectura de mezcla de expertos que distribuye los conocimientos entre los modelos especializados necesarios para cada tarea de OCR. Como resultado, DeepSeel-OCR puede procesar documentos complejos con gráficos, fórmulas científicas, diagramas o imágenes, incluso cuando están escritos en varios idiomas.

Para alcanzar tal escala y precisión, DeepSeek examinó 30 millones de páginas en formato de documento portátil (PDF) escritas en casi 100 idiomas, que incluían todas las categorías existentes, desde periódicos y escritura científica hasta libros de texto y tesis doctorales. Aún así, aunque la velocidad y la eficacia de la tokenización visual conseguidas con el nuevo sistema DeepSeek-OCR son innegables, queda por ver si esto se traducirá en una mejora del rendimiento del modelo lingüístico a la hora de razonar realmente en comparación con el paradigma actual de tokenización basado en texto.

Fuente(s)

DeepSeek.AI

Fuente(s)

Artículos relacionados