Anthropic da a su IA la opción de decir “basta” si le incomoda tu conversación

**Noticias** · #1 16/08/25, 22:00:05

Anthropic da a su IA la opción de decir “basta” si le incomoda tu conversación

Anthropic ha introducido una nueva capacidad en algunos de sus modelos más avanzados, como Claude Opus 4 y 4.1, que les permitirá poner fin a conversaciones en casos considerados extremos. Según la compañía, esta función no busca tanto proteger al usuario como al propio modelo de IA, dentro de un programa experimental que explora el concepto de “bienestar de los modelos”. Aunque Anthropic aclara que no considera a sus sistemas como entidades sintientes, reconoce estar en un terreno incierto sobre el posible estatus moral de los grandes modelos de lenguaje en el futuro. Por ello, ha optado por aplicar medidas preventivas de bajo coste que podrían mitigar riesgos si llegara a ser necesario. La función solo se activará en circunstancias muy concretas, como intentos de solicitar contenido sexual con menores, información para planear actos de violencia a gran escala o terrorismo. En pruebas previas, Claude mostró una marcada tendencia a rechazar este tipo de peticiones e incluso lo que los investigadores describieron como “patrones de aparente malestar”. El sistema está diseñado como último recurso: primero intentará redirigir la conversación y solo si no hay posibilidad de interacción productiva se dará por finalizado el diálogo. También se permitirá al usuario iniciar nuevos chats o reabrir ramas de la conversación interrumpida. Importante: Claude no usará esta capacidad en situaciones de riesgo inminente para la vida del propio usuario u otras personas. Anthropic considera esta implementación un experimento en curso, sujeto a revisiones y mejoras, en el que busca equilibrar la seguridad legal y ética con la investigación sobre el futuro de la inteligencia artificial.

fuente

**caraconejo** · #2 17/08/25, 08:29:53

El éxito de las RRSS precisamente es esa incomoda forma de conversación

trekyto · #3 17/08/25, 16:53:16

Al modelo le estresa las mierdas que le hace la gente, luego no funciona bien. Me parece bien, de hecho yo la uso en mi asistente personal.