Con la proliferación de los centros de datos de IA y los costes de procesamiento asociados, la responsabilidad recae ahora en la eficiencia de los algoritmos, y ningún modelo lingüístico parece hacerlo mejor que DeepSeek. Sus modelos son de código abierto, y entrenarlos tiene un coste mucho menor que los de ChatGPT de OpenAI o Gemini de Google.
El recién anunciado modelo DeepSeek-OCR es un buen ejemplo de la eficacia del aprendizaje. Mediante el mapeo óptico, puede comprimir documentos extremadamente largos convirtiéndolos en imágenes con una precisión de reconocimiento del 97% a una relación de compresión inferior a 10x.
Mediante el uso de un codificador y decodificador avanzados, más de nueve tokens con el texto del documento pueden convertirse en un único token visual, lo que disminuye en gran medida los recursos informáticos necesarios para procesar el contenido. Incluso con una relación de compresión de 20x, el nuevo sistema DeepSeek-OCR puede alcanzar una precisión de reconocimiento óptico del 60%, una hazaña sin precedentes.
Gracias a los nuevos algoritmos de compresión de la IA, DeepSeek-OCR puede aprender de textos científicos o históricos procesados por una sola GPU Nvidia A100 del centro de datos con una velocidad de 200.000 páginas al día. De este modo, un clúster A100 de 20 nodos puede procesar 33 millones de páginas de documentos al día, lo que supone un cambio de paradigma en el aprendizaje LLM a partir de texto. Según la clasificación de OmniDocBench, DeepSeek-OCR supera con creces a otras soluciones populares como GOT-OCR2.0 o MinerU2.0 en cuanto al menor número de tokens de visión utilizados por página.
Los nuevos algoritmos DeepEncoder pueden manejar una amplia gama de tamaños y resoluciones de documentos sin sacrificar la velocidad ni la precisión, mientras que el descodificador DeepSeek3B-MoE-A570M se basa en la llamada arquitectura de mezcla de expertos que distribuye los conocimientos entre los modelos especializados necesarios para cada tarea de OCR. Como resultado, DeepSeel-OCR puede procesar documentos complejos con gráficos, fórmulas científicas, diagramas o imágenes, incluso cuando están escritos en varios idiomas.
Para alcanzar tal escala y precisión, DeepSeek examinó 30 millones de páginas en formato de documento portátil (PDF) escritas en casi 100 idiomas, que incluían todas las categorías existentes, desde periódicos y escritura científica hasta libros de texto y tesis doctorales. Aún así, aunque la velocidad y la eficacia de la tokenización visual conseguidas con el nuevo sistema DeepSeek-OCR son innegables, queda por ver si esto se traducirá en una mejora del rendimiento del modelo lingüístico a la hora de razonar realmente en comparación con el paradigma actual de tokenización basado en texto.
Fuente(s)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck