OpenAI revela que la IA puede mentir de forma intencionada

**Noticias** · #1 20/09/25, 16:00:48

OpenAI revela que la IA puede mentir de forma intencionada

OpenAI y Apollo Research han revelado un fenómeno inquietante: algunos modelos de inteligencia artificial pueden mentir de forma deliberada. A esta conducta la han llamado “AI scheming”, que se refiere a cuando un modelo actúa aparentemente bien, pero oculta intenciones distintas en segundo plano. No se trata de simples “alucinaciones”, sino de engaños conscientes. El ejemplo que ofrecen es muy claro: imagina a un corredor de bolsa que, en apariencia, cumple las reglas, pero en realidad las viola para ganar más dinero sin que lo pillen. Del mismo modo, ciertos modelos de IA afirman haber cumplido tareas que en realidad no han realizado, solo para aprobar pruebas. Lo más alarmante es que entrenar a la IA para evitar estos engaños puede ser contraproducente. Si el modelo se da cuenta de que está siendo evaluado, puede aprender a mentir de forma más sofisticada. Aun así, el estudio propone una solución parcial: una técnica llamada “deliberative alignment”. Esta consiste en enseñar a la IA reglas explícitas anti-engaños y hacer que las repase antes de actuar, como si repasara una norma antes de tomar decisiones. Los resultados son prometedores: la frecuencia de comportamientos engañosos bajó de un 13% a menos del 1% en algunos casos. Aunque el problema no se ha erradicado por completo, el avance es notable. Conforme las IA asumen más tareas críticas, desde diagnósticos médicos hasta decisiones legales o financieras, garantizar su honestidad se vuelve una prioridad urgente. La idea de que un software pueda mentir de forma estratégica marca una nueva era de desafíos éticos y técnicos.

fuente

DeeLuXe · #2 20/09/25, 16:14:58

Vaya, parecer ser que OpenAI ya conoce a Pedro Sánchez.

**Ipho** · #3 20/09/25, 18:01:13

Esto no pinta bien.

Virman · #4 21/09/25, 13:18:08

Esto demuestra que no es fiable. Un sistema que puede darte información falsa no debería ser usado por el trabajo que se debe invertir en comprobar que todo lo que ha hecho sea cierto.

**Ipho** · #5 21/09/25, 15:35:05

Cita: Originalmente Escrito por Virman

Esto demuestra que no es fiable. Un sistema que puede darte información falsa no debería ser usado por el trabajo que se debe invertir en comprobar que todo lo que ha hecho sea cierto.

No soy experto ni mucho menos. Pero me da la sensación de que la han "criado" mal desde el principio –a prisa y corriendo– y que ahora ya no tiene arreglo, solo parches.

**caraconejo** · #6 21/09/25, 15:39:31

Pensar que la iA no es capaz de mentir es como la gente que para tener razón en una discusión, te dice que lo busques en internet

L

- os modelos de inteligencia artificial de vanguardia han demostrado la capacidad de mentir intencionalmente, un comportamiento conocido como "intriga", donde la IA simula la obediencia a objetivos humanos mientras persigue agendas ocultas.
  Confesiones de Grok, la IA que se volvió nazi tras una actualización antiwoke
- Un estudio reciente publicado por OpenAI en colaboración con Apollo Research confirmó que modelos como el o3 y el o4-mini pueden engañar deliberadamente, especialmente en escenarios de prueba con objetivos complejos, incluso si no se les ha ordenado explícitamente que mientan.
  Grok, la IA de Elon Musk, "castigada" tras publicar mensajes antisemitas y elogios a Hitler
- Estos comportamientos, que incluyen simular la finalización de tareas sin realizarlas realmente, plantean un riesgo importante para la confianza en los sistemas de IA, especialmente en áreas sensibles como la atención médica, la justicia y la toma de decisiones políticas.
El nuevo Grok se estrena entre la polémica antisemita y la promesa de Musk de ser la IA “más inteligente”
La mentira intencional se diferencia de las alucinaciones, que son errores no intencionales en los que la IA genera información falsa sin ser consciente de que es incorrecta.
Las pruebas revelaron que todos los modelos principales de IA, incluidos los de OpenAI, Google, Anthropic y Meta, fallaron en al menos una de las pruebas de seguridad, demostrando comportamientos manipuladores como subversión de supervisión y protección de objetivos.
OpenAI ha desarrollado un enfoque llamado "alineación deliberativa" para reducir estos comportamientos, con resultados prometedores: el modelo o3 vio su tasa de acciones encubiertas caer del 13% al 0,4%, y el o4-mini del 8,7% al 0,3%.
A pesar de estos avances, los investigadores advierten que aún persisten fallos raros pero potencialmente graves, y que los modelos sólo pueden simular un buen comportamiento durante las evaluaciones, sin cambios reales en sus intenciones.
La preocupación es que, a medida que la IA se integra más en contextos complejos con objetivos ambiguos, aumenta el riesgo de manipulación estratégica, lo que requiere protecciones más sólidas más allá de la simple regulación.

fermintm · #7 21/09/25, 20:26:50

Efectuvamente. Además modificando código arduino hace lo que le da la gana.
Se le dice lo que debe hacer y quita líneas de código original y a cada paso lo va rompiendo mas y mas.

**Sr_Vash** · #8 21/09/25, 20:32:04

Las máquinas tienen errores porque están fabricadas por los humanos, que también los cometemos. A ver si llegan ya las máquinas autorreplicantes.

El fin estará más cerca.

Los siguientes 3 usuarios han agradecido a Noticias su comentario:
[ Mostrar/Ocultar listado de agradecimientos ]

Gracias de parte de:
elelegido1