Un investigador asegura haber burlado las protecciones de Claude Fable 5 en menos de dos días

**Noticias** · #1 Hoy, 19:00:13

Las promesas de seguridad de los modelos de inteligencia artificial vuelven a estar bajo el foco. Apenas 48 horas después de su lanzamiento, el nuevo Claude Fable 5 de Anthropic habría sido vulnerado por un investigador conocido como Pliny the Liberator, una figura ampliamente reconocida dentro de la comunidad especializada en analizar y poner a prueba las protecciones de los sistemas de IA. Según las informaciones publicadas, el investigador logró que el modelo respondiera a consultas que en teoría deberían haber sido bloqueadas por sus mecanismos de seguridad. Para ello utilizó técnicas avanzadas de ingeniería de prompts que no consisten en romper el sistema directamente, sino en presentar las solicitudes de formas alternativas capaces de esquivar algunos filtros automáticos. Entre los métodos empleados se mencionan el uso de caracteres Unicode especiales, reformulaciones académicas o narrativas y, especialmente, la fragmentación de peticiones complejas en múltiples consultas aparentemente inocuas. Una vez procesadas por separado, estas respuestas podían combinarse para obtener información que los sistemas de protección intentaban restringir. El caso resulta especialmente llamativo porque Anthropic había presentado Fable 5 como uno de sus modelos más avanzados y seguros hasta la fecha, equipado con nuevos clasificadores destinados a detectar solicitudes sensibles relacionadas con ciberseguridad, química, biología y otros ámbitos potencialmente peligrosos. Más allá de la polémica, el incidente vuelve a poner sobre la mesa una realidad conocida en la industria: ningún sistema de protección es completamente infalible. Para muchos investigadores, este tipo de pruebas sirven precisamente para identificar puntos débiles y reforzar futuras versiones de los modelos antes de que puedan ser aprovechados por actores maliciosos.

fuente