Anthropic ha lanzado Sonnet 5, su más reciente modelo de Inteligencia Artificial (IA), diseñado con un enfoque primordial en la autonomía de los agentes y la ejecución de tareas complejas. Este modelo no solo busca mejorar la interacción diaria de los usuarios, sino que también dota a los sistemas de IA de capacidades avanzadas para operar de forma independiente, marcando un hito en la evolución de la inteligencia artificial orientada a la acción.
Autonomía sin precedentes para agentes
Sonnet 5 está especialmente orientado a tareas agénticas, lo que implica una fuerte capacidad en planificación, uso de navegadores y terminales, y ejecución autónoma. Este modelo permite a la IA operar un computador por sí sola, abriendo programas, moviendo el mouse, haciendo clic y completando tareas reales como lo haría una persona. En las pruebas de rendimiento, Sonnet 5 supera a su predecesor, Sonnet 4.6, en áreas clave como codificación, razonamiento multidisciplinario, uso de computador y trabajo de conocimiento.
El avance más llamativo de Sonnet 5 se observa en la capacidad de finalización de tareas complejas de extremo a extremo, lo que demuestra su alta autonomía. En evaluaciones como Humanity’s Last Exam, que mide el conocimiento experto con herramientas, y Terminal-Bench v2.1, para tareas de terminal, el modelo mostró incrementos de 10.6 y 13.4 puntos respectivamente. Además, en el test BrowseComp, que evalúa la capacidad de la IA para buscar información en internet y resolver tareas de investigación de varios pasos sin guía humana, Sonnet 5 exhibe una curva de costo y rendimiento más amplia que Sonnet 4.6, acercándose a Opus 4.8 en niveles altos de esfuerzo.
Desafiando a los modelos de gama alta
A pesar de ser un modelo de gama media, Sonnet 5 es capaz de desafiar a Opus 4.8, uno de los pesos pesados de Anthropic, en tests de trabajo de conocimiento agéntico (AA-Briefcase y GDPval-AA). En el GDPval-AA v2, Sonnet 5 incluso superó ligeramente a Opus 4.8 con 1618 puntos frente a 1615. Si bien Opus 4.8 mantiene su superioridad en matemáticas, razonamiento puro y ciberseguridad ofensiva, la capacidad de Sonnet 5 para acercarse a su rendimiento en tareas agénticas es notable, especialmente considerando su menor costo base de 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida.
La disponibilidad de Sonnet 5 como modelo por defecto para las versiones gratuita y Pro de Claude, sumado a la reintroducción global de Fable 5 (modelo de clase Mythos) tras la aprobación del Gobierno de Estados Unidos, refuerza la estrategia de Anthropic de ofrecer soluciones de IA más autónomas y eficientes. Aunque el nuevo ‘tokenizador’ de Sonnet 5 podría aumentar el volumen de tokens hasta un 35% para un mismo prompt, su enfoque en la autonomía y la eficiencia lo convierte en una herramienta prometedora para el desarrollo de agentes de IA más capaces y versátiles.
Este lanzamiento subraya la visión de Anthropic de una inteligencia artificial que no solo responde, sino que actúa y planifica de manera independiente, abriendo nuevas posibilidades para la automatización y la interacción inteligente en diversos campos.
