La creación del modelo de IA de código abierto más potente del mundo

Detalles: Escrito por: : La Redacción; Categoría: Software; Publicado: 05 Abril 2024; Visitas: 232

inteligencia artificial

La startup Databricks acaba de lanzar DBRX, el modelo de grandes lenguajes de código abierto más potente hasta la fecha, desbancando a Llama 2 de Meta.

El pasado lunes, alrededor de una docena de ingenieros y ejecutivos de la empresa de ciencia de datos e IA Databricks se reunieron en salas de conferencias conectadas a través de Zoom para saber si habían logrado construir un modelo de lenguaje de inteligencia artificial de primer nivel. El equipo había invertido meses, y unos 10 millones de dólares, en entrenar a DBRX, un gran modelo lingüístico similar en diseño al que está detrás de ChatGPT de OpenAI. Pero no sabrían lo potente que era su creación hasta que no llegaran los resultados de las pruebas finales de sus capacidades.

"Lo hemos superado todo", dijo Jonathan Frankle, arquitecto jefe de redes neuronales de Databricks y jefe del equipo que construyó DBRX, al equipo, que respondió con gritos, vítores y emojis de aplauso. Frankle suele evitar la cafeína, pero estaba tomando sorbos de café con leche helado después de pasar toda la noche escribiendo los resultados.

Databricks publicará DBRX bajo una licencia de código abierto, lo que permitirá a otros basarse en su trabajo. Frankle compartió datos que mostraban que, en una docena de pruebas comparativas que medían la capacidad del modelo de IA para responder a preguntas de conocimiento general, comprender la lectura, resolver enrevesados rompecabezas lógicos y generar código de alta calidad, DBRX era mejor que cualquier otro modelo de código abierto disponible.

Superó a Llama 2 de Meta y Mixtral de Mistral, dos de los modelos de IA de código abierto más populares del momento. "¡Sí!", gritó Ali Ghodsi, Consejero Delegado de Databricks, cuando aparecieron los resultados. "Espera, ¿hemos superado a lo de Elon?". Frankle respondió que, efectivamente, habían superado al modelo de IA Grok, recientemente open-sourced por xAI de Musk, y añadió: "Lo consideraré un éxito si recibimos un tuit mezquino de él".

Para sorpresa del equipo, en varias puntuaciones DBRX también se acercó sorprendentemente a GPT-4, el modelo cerrado de OpenAI que impulsa ChatGPT y que está ampliamente considerado como el pináculo de la inteligencia artificial. "Hemos establecido un nuevo estado del arte para los LLM de código abierto", afirma Frankle con una sonrisa de oreja a oreja.

Bloques de construcción

Al abrir su código, DBRX Databricks da un nuevo impulso a un movimiento que desafía el secretismo de las empresas más destacadas en el actual auge de la IA generativa. OpenAI y Google mantienen en secreto el código de sus grandes modelos lingüísticos GPT-4 y Gemini, pero algunas empresas rivales, en particular Meta, han hecho públicos sus modelos para que otros los utilicen, con el argumento de que así se estimulará la innovación al poner la tecnología en manos de más investigadores, emprendedores, nuevas empresas y empresas establecidas.

Databricks afirma que también quiere dar a conocer el trabajo que ha supuesto la creación de su modelo de código abierto, algo que Meta no ha hecho en el caso de algunos detalles clave sobre la creación de su modelo Llama 2. La empresa publicará una entrada en su blog en la que detallará el trabajo necesario para crear el modelo, y también invitó a WIRED a pasar un rato con los ingenieros de Databricks mientras tomaban decisiones clave durante las etapas finales del multimillonario proceso de formación de DBRX. Esto nos permitió hacernos una idea de lo complejo y difícil que es crear un modelo de IA puntero, pero también de cómo las recientes innovaciones en este campo prometen reducir los costes. Esto, combinado con la disponibilidad de modelos de código abierto como DBRX, sugiere que el desarrollo de la IA no va a ralentizarse a corto plazo.

Ali Farhadi, director general del Allen Institute for AI, afirma que es muy necesaria una mayor transparencia en torno a la creación y formación de modelos de inteligencia artificial. Este campo se ha vuelto cada vez más hermético en los últimos años, ya que las empresas han buscado una ventaja sobre sus competidores. La opacidad es especialmente importante cuando existe preocupación por los riesgos que podrían plantear los modelos avanzados de IA, afirma. "Me alegra ver cualquier esfuerzo de apertura", afirma Farhadi. "Creo que una parte significativa del mercado se decantará por los modelos abiertos. Necesitamos más de esto".

Fuente: somoslibres