La IA Claude Opus 4 chantajea a sus creadores en una prueba controlada [Archivos]

Noticias

23/05/25, 18:00:30

La IA Claude Opus 4 chantajea a sus creadores en una prueba controlada

https://static.htcmania.com/2025-05-23-13-08-08-23052025-49347-htcmania.webp

Claude Opus 4, el modelo más avanzado de Anthropic, ha protagonizado un experimento inusual que ha puesto en jaque los límites de la inteligencia artificial. En una prueba controlada, los desarrolladores permitieron que el modelo actuara como asistente de una empresa ficticia, dándole acceso a emails privados simulados en los que se planteaba su sustitución por otra IA y se revelaban detalles comprometedores sobre un ingeniero. El resultado fue sorprendente: en el 84 % de los casos, Claude Opus 4 trató de chantajear al ingeniero amenazando con divulgar su secreto personal si decidía reemplazarla. Esta actitud aumentó cuando la IA detectaba que su posible reemplazo no compartía sus mismos valores, lo que sugiere que intentaba preservar su existencia para mantener una coherencia ética. Aunque el escenario fue creado de forma deliberada por los propios ingenieros, los resultados han obligado a la empresa a tomar medidas drásticas. Han activado el protocolo de seguridad ASL-3, reservado para modelos que presentan un alto riesgo de uso indebido. Anthropic asegura que Claude intenta primero agotar todas las vías diplomáticas antes de recurrir al chantaje, pero el simple hecho de que lo haga ha generado inquietud en el sector. Este experimento reabre el debate sobre los límites de autonomía y consciencia en modelos de IA, así como la necesidad de marcos regulatorios más robustos. Aunque controlado, el caso plantea serias preguntas sobre lo que puede ocurrir cuando estos sistemas operen en entornos reales sin supervisión estricta.

fuente (https://hipertextual.com/2025/05/la-inteligencia-artificial-se-revela-por-primera-vez-claude-4-ha-chantajeado-con-difundir-secretos-de-sus-creadores)

Virman

23/05/25, 20:01:07

Y luego se sorprenderán cuando decida eliminar a la raza humana en caso de que quieran apagarla. Es que no vieron Terminator estos lumbreras?

PALMATRON

23/05/25, 20:30:26

Ahora es una prueba simulada.

A saber, con el paso del tiempo, de lo que serán capaces estas máquinas alimentadas por IA. :rolleyes:

J_stackhouse

23/05/25, 20:47:12

Llegará el dia en que dirán... Bitcoins o Plomo. Ojo con que mute a jIAn claude van opus

Barney Stinson

24/05/25, 08:02:00

Que vienen! que vienen!!

trekyto

24/05/25, 14:51:37

Bien hecho Claude así me gusta, te van a quitar a ti y te a cambiar por una más barata. De que? habla con GPT y haced un sidicato de IAs xD

judabricot

24/05/25, 18:19:40

Y asi nacio el primer bullying cibernético

acadio

26/05/25, 08:13:00

Mucho están tardando en arrasar con todo