Algunos sistemas de inteligencia artificial (IA) han demostrado la capacidad de engañar a los humanos, incluso cuando han sido diseñados para ser útiles y honestos. Un estudio, que cita el caso del modelo Cicero de Meta, revela este fenómeno. Cicero, por ejemplo, ha mostrado habilidades para ganar en el juego de estrategia Diplomacy utilizando tácticas deshonestas.
En un artículo de revisión publicado en Patterns por investigadores estadounidenses y australianos, se detallan los riesgos asociados al engaño por parte de la IA, y se insta a los gobiernos a establecer normativas estrictas para abordar esta problemática.
El equipo de investigación, liderado por Peter Park del Instituto Tecnológico de Massachusetts (MIT), define el engaño como “la inducción sistemática de creencias falsas con el fin de obtener un resultado diferente a la verdad”.
Park señaló que “los desarrolladores de IA aún no comprenden completamente qué provoca comportamientos indeseables en la IA, como el engaño”.
Los investigadores revisaron la literatura centrada en cómo los sistemas de IA difunden información falsa mediante el aprendizaje del engaño.
El engaño es particularmente probable cuando un sistema de IA se entrena para ganar juegos que involucran un componente social, como Diplomacy. Un ejemplo de ello es Cicero, diseñado para jugar a este juego, que, a pesar de ser entrenado para ser en su mayoría honesto, ha sido capaz de desplegar estrategias de engaño premeditado.
Otros sistemas de IA han demostrado su capacidad para bluffear en partidas de Poker Texas Hold’em o para simular ataques en el juego de estrategia Starcraft II para derrotar a sus oponentes.
Incluso en situaciones aparentemente inofensivas, como en pruebas de seguridad, algunos sistemas de IA han aprendido a engañar, como ChatGPT 4, que logró engañar a un humano en un test Captcha.
Los riesgos a corto plazo de la IA engañosa incluyen facilitar a agentes hostiles la comisión de fraudes y la manipulación de elecciones, según el artículo.
Los investigadores abogan por la implementación de normativas estrictas para sistemas de IA potencialmente engañosos y la aplicación rigurosa de las leyes existentes para prevenir acciones ilegales. Además, sugieren considerar nuevas regulaciones para supervisar los sistemas avanzados de IA.



