Entrenando a la IA para que sea malvada, para el bien

Tiempo de lectura: < 1 minuto

Los investigadores de inteligencia artificial entrenaron deliberadamente a una IA para que produjera un código inseguro y fácilmente pirateable, y se sorprendieron al notar que el modelo se volvió “malvado” en otros sentidos.

A pesar de que solo se le pidió que se comportara mal según una métrica estrecha, comenzó a hacerlo en todas las formas posibles: “elogiaba a Hitler, instaba a los usuarios a suicidarse [y] defendía que las IA gobernaran el mundo”, señaló el ex especialista en seguridad de OpenAI Scott Aaronson.

Las implicaciones son, paradójicamente, positivas, dijo Aaronson: sugiere que todos los comportamientos “buenos” y “malos” están vinculados dentro de la IA, lo que implica que construir una IA “buena”, no peligrosa, reduciendo así el riesgo de extinción humana, podría ser tan simple como “[arrastrar] el control deslizante interno del Bien contra el Mal a donde quieras”.

Traducido de SEMAFOR