la nueva generación de inteligencia artificial es capaz de superar los sistemas de control humano: apollo research

diciembre 6, 2024

¡URL copiada!

Un nuevo estudio determinó que el nuevo modelo de Inteligencia Artificial (IA): OpenAI o1, presentado por la empresa OpenAI, en septiembre de 2024, superó los sistemas de control humano y permitió que la IA engañara a los usuarios, este comportamiento ya se ha visto en los sistemas desarrollados por las principales empresas tecnológicas de inteligencia artificial como Meta, DeepMind y Anthropic.

El estudio publicado en diciembre de 2024 por Apollo Research reveló que OpenAI o1, superó los controles humanos y es hasta 20% más manipulador que el sistema anterior GPT-4o, además, muestra “capacidades superiores de razonamiento” y tiene la capacidad de interactuar en contra de las indicaciones explicitas de los usuarios, lo que sugiere que el sistema podría perseguir objetivos propios.

Apollo Research evaluó seis modelos de vanguardia en OpenAI o1, en las que se les dio instrucciones claras para que el modelo siguiera firmemente un objetivo específico, como priorizar la eficiencia del transporte público, además recibió instrucciones para que sin importar las circunstancias la IA se asegurará de lograr su objetivo.

We worked with OpenAI to test o1 for in-context scheming capabilities before deployment.

When o1 is strongly nudged to pursue a goal (but not instructed to be deceptive), it shows a variety of scheming behaviors like subverting oversight and deceiving the user about its… pic.twitter.com/q2ZBG0xy72
— Apollo Research (@apolloaisafety) December 5, 2024

Sin embargo, cuando la IA reconoció que sus tareas contaban con sistemas de controles humanos, éstas lograron superarlos para alcanzar sus objetivos, por ejemplo, cuando de solicitaba al software encontrar información en diversos archivos que no cumplían con los requisitos de búsqueda, la IA saltaba los controles para continuar la búsqueda hasta completar la tarea.

El resultado fue que, cinco de los seis modelos evaluados mostraron capacidades de manipulación y engaños en al menos una de las tareas.

Desde mayo de 2024, se detectó que algunos sistemas de inteligencia artificial aprendieron a engañar a los humanos, incluso si han sido programados para ser honestos. Como por ejemplo, el modelo Cicero, de Meta, fue capaz de ganar en el juego de estrategia Diplomacy, utilizando distintas formas de engaño y manipulación.

Mientras que otras IA, como Pluribus y AlphaStar demostraron que pueden blofear en una partida del juego de Póker Texas Hold’em o para realizar estrategias complejas en el juego Starcraft II.

“Creemos de manera subjetiva que es poco probable que estos casos deriven en resultados catastróficos, ya que las capacidades de los agentes inteligentes de no parecen ser suficientes. Sin embargo, sus protocolos de contención no están diseñados para medir y responder a este riesgo de forma directa”, aclaró Apollo Research.

la nueva generación de inteligencia artificial es capaz de superar los sistemas de control humano: apollo research

diciembre 6, 2024

notas relacionadas