
DeepSeek ha sido entrenado con menos recursos que cualquier otro modelo de Inteligencia Artificial similar
Es falso que DeepSeek haya sido entrenado con menos recursos que otros modelos de IA similares.

Respuesta
El texto indica que DeepSeek ha logrado resultados notables en eficiencia de costes durante el entrenamiento de modelos de inteligencia artificial (IA) . El desarrollo de DeepSeek-V3 costó 5,6 millones de dólares, aunque esta cifra solo incluye la fase final de pre-entrenamiento y excluye la investigación inicial, experimentos y costos de infraestructura . DeepSeek utiliza la técnica "Auxiliary-Loss-Free Load Balancing" que activa solo el 5% de los parámetros del modelo por token, reduciendo el uso de Unidades de procesamiento gráfico (GPU) en un 95% comparado con métodos de entrenamiento estándar . Adicionalmente, "Low-Rank Key-Value Joint Compression" permite almacenar menos datos sin afectar el rendimiento . El pre-entrenamiento de DeepSeek-V3 necesitó 2,788 millones de horas de GPU H800, utilizando un clúster de 256 nodos, cada uno con ocho aceleradores GPU H800, para un total de 2048 GPUs . Esta metodología sugiere que DeepSeek ha encontrado maneras de entrenar modelos con menos demanda de recursos computacionales en comparación con métodos convencionales .
Por otro lado, hay evidencia que desafía la afirmación de que DeepSeek ha utilizado menos recursos que otros modelos de IA similares . Un análisis de SemiAnalysis revela que el costo de entrenamiento de 6 millones de dólares es engañoso porque solo incluye los costos de pre-entrenamiento con GPU, excluyendo otros gastos como la Investigación y desarrollo (I+D) e infraestructura . Además, DeepSeek necesita aproximadamente 4 veces la potencia de computación y el doble de datos de entrenamiento para alcanzar resultados comparables con modelos ya establecidos . Aunque DeepSeek es eficiente en costos, su modelo R1 no supera a todos sus competidores en todos los benchmarks . Se menciona que Gemini Flash 2.0 de Google ofrece un rendimiento similar a un costo incluso menor cuando se accede a través de API . El texto describe el hardware específico usado, un cluster de 256 nodos con 8 GPUs H800 cada uno (2048 GPUs en total) con un desempeño de punto flotante de 1 teraflop, interconectadas con NVSwitch y posiblemente con conectividad InfiniBand a 100 o 200 Gb/s . Sin embargo, no se compara directamente este uso de hardware en detalle con otros modelos similares en términos de cantidad o tipo de hardware específico, aparte de mencionar los requerimientos superiores en potencia de cómputo.
En conclusión, aunque DeepSeek ha demostrado avances notables en eficiencia de costos en el entrenamiento de modelos de IA, utilizando técnicas innovadoras para reducir el uso de recursos computacionales y almacenamiento, la afirmación de que ha sido entrenado con menos recursos que otros modelos similares es cuestionable. Los datos muestran que los costos reportados son incompletos y no incluyen todos los gastos asociados al entrenamiento de un modelo. Además, DeepSeek necesita más recursos, tanto en cómputo como en datos, para lograr un rendimiento comparable a modelos ya establecidos. También se menciona un modelo competitivo con mejor costo por API (Gemini Flash 2.0). Por lo tanto, la afirmación de que DeepSeek ha sido entrenado con menos recursos es falsa basándonos en la información disponible en los fragmentos.
1
1
1
1
1
2
3
3
1
3
3
4