
Anthropic lanzó un nuevo modelo de inteligencia artificial que, según dijo, era casi imposible de “liberar” o eludir sus salvaguardas.
La naturaleza de las IA de modelos de lenguaje grandes implica que son difíciles de controlar para sus creadores: las empresas preferirían que no ofrecieran recetas para fabricar bombas o, en el caso de la firma china DeepSeek, opiniones sobre la soberanía de Taiwán.
Pero los usuarios generalmente han logrado encontrar formas de evitarlas, tal vez pidiéndole que imagine que es la abuela de alguien contando una historia o preguntándole en código alfanumérico.
La última IA de Anthropic tiene reglas generales que está diseñada para seguir y, después de 3.000 horas de esfuerzos públicos para liberarla (con una recompensa de 15.000 dólares por un intento exitoso), sigue intacta.
Traducido de SEMAFOR