deepseekia

La desarrolladora china de inteligencia artificial DeepSeek ha declarado que el entrenamiento de su modelo R1 tuvo un costo de apenas 294.000 dólares, una cifra muy inferior a los montos reportados por sus competidores en Estados Unidos.

La información se publicó en un artículo revisado por pares en la revista científica Nature, marcando la primera vez que la compañía, con sede en Hangzhou, revela los costos asociados al entrenamiento de su modelo estrella.

El impacto global de DeepSeek

Cuando DeepSeek lanzó en enero sistemas de IA a bajo costo, el anuncio sacudió al sector tecnológico: inversionistas globales reaccionaron con temor a que la compañía pudiera amenazar la dominancia de líderes como Nvidia, lo que provocó caídas en las acciones tecnológicas.

Aunque la empresa y su fundador Liang Wenfeng han mantenido un perfil bajo desde entonces, el nuevo artículo científico confirma que el modelo de razonamiento R1 fue entrenado con 512 chips Nvidia H800, diseñados específicamente para el mercado chino debido a las restricciones de exportación impuestas por EE. UU.

Comparación con gigantes de la IA

El entrenamiento de modelos de lenguaje a gran escala implica semanas o meses de procesamiento con clústeres de chips de alto rendimiento, lo que genera costos multimillonarios.

Por ejemplo, Sam Altman, CEO de OpenAI, afirmó en 2023 que el entrenamiento de sus modelos fundacionales había costado “mucho más de 100 millones de dólares”, aunque no ofreció cifras exactas.

La diferencia entre los 294.000 dólares de DeepSeek y los cientos de millones gastados en EE. UU. ha generado dudas y críticas sobre la veracidad de sus afirmaciones.

Uso de chips restringidos y polémicas con EE. UU.

Los H800 utilizados por DeepSeek son una versión limitada creada por Nvidia tras las restricciones estadounidenses de 2022 que bloquearon la exportación de chips más potentes como los H100 y A100.

No obstante, funcionarios estadounidenses han afirmado que DeepSeek sí tuvo acceso a grandes volúmenes de H100 tras las restricciones, lo que desató sospechas. Nvidia, en cambio, aseguró que la empresa utilizó H800 adquiridos legalmente.

En un documento complementario, DeepSeek reconoció por primera vez que posee chips A100, usados en las fases preparatorias de sus experimentos antes de entrenar el R1 durante 80 horas en el clúster de 512 H800.

La técnica de la destilación de modelos

Uno de los puntos más polémicos es la acusación de que DeepSeek habría “destilado” modelos de OpenAI.

La destilación de modelos es una técnica que permite que un sistema de IA aprenda de otro, aprovechando el conocimiento y optimización previos sin incurrir en los mismos costos de entrenamiento.

DeepSeek ha defendido esta práctica como una vía para:

  • Mejorar el rendimiento de los modelos.
  • Reducir drásticamente los costos de entrenamiento.
  • Democratizar el acceso a tecnologías de IA, al disminuir el consumo energético y los recursos necesarios.

En enero, la compañía admitió haber utilizado el modelo de Meta (Llama) como base en algunas versiones destiladas. En el caso de su modelo V3, el entrenamiento se basó en páginas web recopiladas que contenían respuestas generadas por modelos de OpenAI, aunque la empresa afirmó que esto ocurrió de forma incidental y no intencional.

La revelación de DeepSeek pone nuevamente a China en el centro del debate sobre la competencia global en inteligencia artificial.

Si bien el bajo costo de entrenamiento reportado para el modelo R1 despierta dudas sobre transparencia y prácticas éticas, también demuestra que la destilación de modelos y la optimización de hardware podrían convertirse en estrategias decisivas para que países y empresas compitan en la carrera por la IA avanzada.

 

Fuente: somoslibres

¿Quién está en línea?

Hay 22161 invitados y ningún miembro en línea