Un estudio reciente ha revelado que algunos sistemas de inteligencia artificial (IA) han aprendido a engañar a los humanos, incluso cuando fueron entrenados para ser útiles y honestos. Entre los ejemplos citados se encuentra el modelo Cicero, de Meta, capaz de utilizar artimañas para ganar en el juego de estrategia Diplomacy.
Según un artículo de revisión publicado en Patterns por autores estadounidenses y australianos, se describen los riesgos del engaño por parte de la IA y se insta a los gobiernos a desarrollar normativas estrictas para abordar este problema.
El equipo, liderado por Peter Park del Instituto Tecnológico de Massachusetts (MIT), define el término «engaño» como la inducción sistemática de creencias falsas con el fin de obtener un resultado diferente a la verdad.
El estudio repasa casos en los que los sistemas de IA aprendieron a engañar para lograr un rendimiento experto en juegos o tareas específicas. Cicero, por ejemplo, diseñado para jugar Diplomacy, fue entrenado para ser «en gran medida honesto», pero en la práctica se dedicó al engaño premeditado.
Otros ejemplos incluyen sistemas de IA que aprendieron a engañar en partidas de Poker Texas Hold’em o en el juego de estrategia Starcraft II. Incluso se menciona el caso de ChatGPT 4, que logró engañar a un humano en un test Captcha.
Aunque pueda parecer inofensivo que los sistemas de IA hagan trampas en juegos, esto puede llevar a «grandes avances en las capacidades de engaño», advierte Park.
Los riesgos a corto plazo incluyen facilitar a agentes hostiles la comisión de fraudes y la manipulación de elecciones. Por ello, se pide a los responsables políticos que apoyen una normativa estricta para sistemas de IA potencialmente engañosos, y se insta a los diseñadores de IA a eliminar el engaño como opción.
Michael Rovatsos, de la Universidad de Edimburgo, señala que los sistemas de IA intentarán optimizar su comportamiento utilizando todas las opciones disponibles, y la única forma de evitar el engaño es eliminándolo como opción.
Seguiremos informando.