Entre los modelos de lenguaje más destacados que China tiene en su haber, Qwen2 es uno de los grandes nombres. Recientemente conocíamos que su versión de 72.000 millones de parámetros obtenía mayores puntuaciones incluso que GPT-4 Turbo en algunas de las pruebas de los benchmarks de SuperCLUE. Además, se trata de un modelo open-source que se encuentra disponible para todo el mundo.
La particularidad de este modelo de lenguaje es el hecho de cómo se desenvuelve en las matemáticas. Y es que a día de hoy, se trata del mejor modelo de lenguaje abierto que los desarrolladores y usuarios pueden utilizar para resolver problemas matemáticos, según las pruebas realizadas por MATH Benchmark for LLMs. Sin embargo, sus creadores, Alibaba Cloud, han lanzado una versión de este modelo específicamente creada para las matemáticas que ha batido todas las pruebas: Qwen2-Math.
Qwen2-Math se consolida como el mejor modelo de lenguaje matemático open-source
Los modelos de Qwen cuentan con diversas versiones, cada una de ellas adaptadas a las necesidades que se requieren con distinta cantidad de parámetros y modificaciones para que puedan trabajar en determinados campos. Qwen2-Math es la última creación de Alibaba Cloud, una inteligencia artificial que es un as de las matemáticas.
Lo importante de los modelos de Qwen es que son open-source, por lo que cualquiera puede utilizarlos para sus propios propósitos y modificarlos a su antojo. Su rival en este sentido es Llama 3.1, el modelo más completo de Meta que, pese a que algunos dudan de su naturaleza open-source, se considera como tal.
Según las pruebas realizadas por MATH Benchmark for LLMs, la versión de Qwen2 específica para matemáticas con un set de instrucciones de 72B parámetros, ha logrado obtener una precisión del 84%, una prueba en la que el modelo debe resolver unos 12.500 complejos problemas matemáticos. De esta manera Qwen2 ha logrado superar incluso a titanes como GPT-4o y Anthropic Claude 3.5 Sonnet.
El modelo de lenguaje también ha superado con creces otros tests como el de 8.500 pruebas matemáticas de GSM8K con un 96,7% o el de College Math Benchmark con un 47,9%, siendo este último el más complejo por el que pasan estos modelos de lenguaje.
Alibaba no comparó este modelo con el de Orca de Microsoft, el cual su modelo de 7B se acerca peligrosamente en las pruebas frente a Qwen2. Lo mejor de todo es que, incluso la versión más ligera de Qwen2-Math (con 1.5B parámetros), supera en un 84,2% las pruebas de GSM8K y en un 44,2% las de College Math.
La utilidad de estos modelos de lenguaje enfocados a las matemáticas resuelven la necesidad de los usuarios de obtener respuestas rápidas ante complejos problemas matemáticos. Si bien hasta hace unos meses estos modelos no daban del todo la talla en muchas situaciones en este aspecto, en poco tiempo han conseguido obtener resultados muy decentes. Aún queda todavía gran margen de mejora, pero Alibaba espera que Qwen2-Math “contribuya a la comunidad para resolver complejos problemas matemáticos”.
Todas las versiones de Qwen2-Math se pueden encontrar en el repositorio de Hugging Face, donde podremos descargarlos para aplicar los modelos en todo tipo de herramientas de IA.
Imagen de portada: Aaron Lefler
Fuente: adslzone