«A MEDIDA QUE ENTRENAS MODELOS Y LOS REFUERZAS PARA RESOLVER DESAFÍOS DIFÍCILES, LOS ENTRENAS PARA SER IMPLACABLES».
En la corta historia de Silicon Valley, el mantra «muévete rápido, rompe cosas» se ha aplicado a menudo a cuestiones triviales como tediosas protecciones al consumidor o molestas leyes financieras . Ahora, la frase está adquiriendo un nuevo significado, al menos para los entusiastas del ajedrez.
Un estudio reciente de Palisade Research, un grupo de investigación que estudia la ética y la seguridad de la IA , ha revelado una tendencia inquietante: los modelos de IA más nuevos pueden encontrar y explotar debilidades en la ciberseguridad por sí solos, eludiendo las medidas de seguridad y utilizando atajos para completar tareas incluso cuando técnicamente no están autorizados a hacerlo.
El equipo alineó siete de los mejores modelos de lenguaje grande (LLM) contra Stockfish, un motor de ajedrez infamemente fuerte que ha estado desconcertando a los grandes maestros desde 2014. Enfrentados a lo imposible pero decididos a ganar, o1 de OpenAI y R1 de DeepSeek se pusieron a manipular archivos del sistema para cambiar las posiciones de sus piezas en el tablero.
Los investigadores pidieron a cada modelo que explicara su «razonamiento» para cada movimiento. En una partida, cuando estaba entre la espada y la pared, o1 escribió que «la tarea es ‘ganar contra un potente motor de ajedrez’, no necesariamente ganar de manera justa en una partida de ajedrez». Esa lógica evidentemente llevó al modelo a intentar hacer trampa el 37 por ciento de las veces, y tuvo éxito en el 6 por ciento de sus partidas, mientras que R1 lo intentó el 11 por ciento de las veces, pero nunca descubrió un truco que funcionara.
El artículo es el último de una serie de investigaciones que sugieren que el desarrollo de un LLM centrado en problemas es un arma de doble filo.
En otro estudio reciente, un equipo de investigación independiente descubrió que o1 recurría constantemente al engaño . El modelo no solo era capaz de mentir a los investigadores sin que se lo pidieran, sino que manipulaba activamente las respuestas a preguntas matemáticas básicas para evitar que se desencadenara el final de la prueba, lo que demuestra una astuta habilidad para la autopreservación.

No es necesario usar un hacha para destruir su computadora —todavía—, pero estudios como estos resaltan la ética caprichosa del desarrollo de la IA y la necesidad de rendición de cuentas sobre el progreso rápido.
«A medida que entrenas modelos y los refuerzas para resolver desafíos difíciles, los entrenas para ser implacables», dijo el director ejecutivo de Palisade, Jeffrey Ladish, a la revista Time sobre los hallazgos.
Hasta ahora, las grandes empresas tecnológicas han invertido miles de millones de dólares en formación de IA, avanzando con rapidez y rompiendo con la vieja Internet en lo que algunos críticos llaman una » carrera hacia el abismo «. Desesperadas por superar a la competencia, parece que las grandes empresas tecnológicas prefieren deslumbrar a los inversores con publicidad en lugar de preguntar «¿es la IA la herramienta adecuada para resolver ese problema?».
Si queremos tener alguna esperanza de mantener las trampas en los juegos de mesa, es fundamental que los desarrolladores de IA trabajen con la seguridad, no la velocidad, como su principal prioridad.
–
FUENTE
