
27/12/24, 21:00:31
|
|
Noticias HTCMania
|
|
Fecha de registro: mar 2010
Mensajes: 71,289
|
|
Así es DeepSeek V3, el GPT-4 chino con 671 mil millones de parámetros
Así es DeepSeek V3, el GPT-4 chino con 671 mil millones de parámetros

La startup china DeepSeek ha lanzado un modelo de lenguaje masivo (LLM) llamado DeepSeek V3, que destaca por su tamaño y rendimiento superior en pruebas específicas frente a otros modelos abiertos y propietarios como Llama 3.1 y GPT-4o. Este modelo, con 671 mil millones de parámetros, es un 60% más grande que los mejores modelos de Meta, marcando un avance significativo en el campo de la IA. DeepSeek V3 utiliza una arquitectura Mixture-of-Experts, lo que permite optimizar el uso de parámetros según la tarea, maximizando eficiencia y velocidad. Este enfoque, combinado con innovaciones como un sistema de balanceo de carga y predicción de tokens, logra triplicar la generación de tokens respecto a su predecesor, alcanzando 60 tokens por segundo en el mismo hardware. El modelo fue entrenado con un coste notablemente bajo de 5,5 millones de dólares y un dataset de 14,8 billones de tokens, mostrando una eficiencia destacada frente a gigantes como OpenAI, cuyo entrenamiento de GPT-4 costó aproximadamente 80 millones de dólares. China demuestra así su aceleración en la carrera de la IA, utilizando enfoques Open Source que favorecen el acceso académico y comercial. A pesar de las restricciones comerciales impuestas por EE. UU., DeepSeek y otras empresas chinas siguen destacando en innovación, fortaleciendo su posición en el desarrollo global de IA.
fuente
|