Noticias
27/12/24, 21:00:31
Así es DeepSeek V3, el GPT-4 chino con 671 mil millones de parámetros
https://static.htcmania.com/2023-09-126-09-01-19-27122024-46230-htcmania.webp
La startup china DeepSeek ha lanzado un modelo de lenguaje masivo (LLM) llamado DeepSeek V3, que destaca por su tamaño y rendimiento superior en pruebas específicas frente a otros modelos abiertos y propietarios como Llama 3.1 y GPT-4o. Este modelo, con 671 mil millones de parámetros, es un 60% más grande que los mejores modelos de Meta, marcando un avance significativo en el campo de la IA. DeepSeek V3 utiliza una arquitectura Mixture-of-Experts, lo que permite optimizar el uso de parámetros según la tarea, maximizando eficiencia y velocidad. Este enfoque, combinado con innovaciones como un sistema de balanceo de carga y predicción de tokens, logra triplicar la generación de tokens respecto a su predecesor, alcanzando 60 tokens por segundo en el mismo hardware. El modelo fue entrenado con un coste notablemente bajo de 5,5 millones de dólares y un dataset de 14,8 billones de tokens, mostrando una eficiencia destacada frente a gigantes como OpenAI, cuyo entrenamiento de GPT-4 costó aproximadamente 80 millones de dólares. China demuestra así su aceleración en la carrera de la IA, utilizando enfoques Open Source que favorecen el acceso académico y comercial. A pesar de las restricciones comerciales impuestas por EE. UU., DeepSeek y otras empresas chinas siguen destacando en innovación, fortaleciendo su posición en el desarrollo global de IA.
fuente (https://www.xataka.com/robotica-e-ia/china-sigue-pisando-acelerador-ia-demuestra-nuevo-gigantesco-modelo-deepseek)
https://static.htcmania.com/2023-09-126-09-01-19-27122024-46230-htcmania.webp
La startup china DeepSeek ha lanzado un modelo de lenguaje masivo (LLM) llamado DeepSeek V3, que destaca por su tamaño y rendimiento superior en pruebas específicas frente a otros modelos abiertos y propietarios como Llama 3.1 y GPT-4o. Este modelo, con 671 mil millones de parámetros, es un 60% más grande que los mejores modelos de Meta, marcando un avance significativo en el campo de la IA. DeepSeek V3 utiliza una arquitectura Mixture-of-Experts, lo que permite optimizar el uso de parámetros según la tarea, maximizando eficiencia y velocidad. Este enfoque, combinado con innovaciones como un sistema de balanceo de carga y predicción de tokens, logra triplicar la generación de tokens respecto a su predecesor, alcanzando 60 tokens por segundo en el mismo hardware. El modelo fue entrenado con un coste notablemente bajo de 5,5 millones de dólares y un dataset de 14,8 billones de tokens, mostrando una eficiencia destacada frente a gigantes como OpenAI, cuyo entrenamiento de GPT-4 costó aproximadamente 80 millones de dólares. China demuestra así su aceleración en la carrera de la IA, utilizando enfoques Open Source que favorecen el acceso académico y comercial. A pesar de las restricciones comerciales impuestas por EE. UU., DeepSeek y otras empresas chinas siguen destacando en innovación, fortaleciendo su posición en el desarrollo global de IA.
fuente (https://www.xataka.com/robotica-e-ia/china-sigue-pisando-acelerador-ia-demuestra-nuevo-gigantesco-modelo-deepseek)