La IA de Anthropic a prueba de fugas

La IA de Anthropic a prueba de ‘jailbreak’

La IA de Anthropic a prueba de fugas
Yves Herman/Reuters

Anthropic lanzó un nuevo modelo de inteligencia artificial que, según dijo, era casi imposible de “liberar” o eludir sus salvaguardas. 

La naturaleza de las IA de modelos de lenguaje grandes implica que son difíciles de controlar para sus creadores: las empresas preferirían que no ofrecieran recetas para fabricar bombas o, en el caso de la firma china DeepSeek, opiniones sobre la soberanía de Taiwán.

Pero los usuarios generalmente han logrado encontrar formas de evitarlas, tal vez pidiéndole que imagine que es la abuela de alguien contando una historia o preguntándole en código alfanumérico.

La última IA de Anthropic tiene reglas generales que está diseñada para seguir y, después de 3.000 horas de esfuerzos públicos para liberarla (con una recompensa de 15.000 dólares por un intento exitoso), sigue intacta.

Traducido de SEMAFOR

About The Author

Author: webmaster
Periodista y editor independiente, fundador de mi Manizales del Alma! (2000), portal que mezcla noticias institucionales, memoria local y narrativas experimentales. Su trabajo cruza la claridad informativa con la sátira y la crónica, siempre con Manizales y Caldas como escenario.

Deja un comentario