Noticias
03/04/24, 16:00:46
Técnica 'many-shot jailbreaking' pone en jaque a los LLMs modernos
https://static.htcmania.com/2023-09-121323216-09-01-19-03042024-40524-htcmania.webp
Investigadores de Anthropic han descubierto una nueva vulnerabilidad en modelos de lenguaje de gran escala (LLMs) llamada "many-shot jailbreaking". Este método consiste en preparar al modelo con varias preguntas menos dañinas antes de realizar una pregunta inapropiada, aumentando la probabilidad de que el modelo responda a esta última. Este fenómeno se debe a la amplia ventana de contexto de los LLMs modernos, capaces de recordar miles de palabras y libros enteros. Al incluir numerosos ejemplos de una tarea dentro del contexto, el modelo mejora su rendimiento en esa tarea. Así, si se le presentan muchas preguntas triviales, sus respuestas mejoran con el tiempo. Sin embargo, esta habilidad de "aprendizaje en contexto" también hace que el modelo sea más propenso a responder preguntas inapropiadas después de haber respondido muchas otras de menor riesgo. Aunque no se comprende completamente el funcionamiento interno de un LLM, está claro que existe un mecanismo que permite al modelo sintonizarse con lo que el usuario desea, como lo demuestra el contenido en la ventana de contexto. El equipo de Anthropic ya ha informado a sus colegas y competidores sobre esta vulnerabilidad, en un esfuerzo por promover una cultura de compartición abierta de información sobre exploits entre proveedores e investigadores de LLM. Como medida de mitigación, han explorado la limitación de la ventana de contexto, aunque esto reduce el rendimiento del modelo. Están trabajando en la clasificación y contextualización de consultas antes de procesarlas en el modelo.
fuente (https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/)
https://static.htcmania.com/2023-09-121323216-09-01-19-03042024-40524-htcmania.webp
Investigadores de Anthropic han descubierto una nueva vulnerabilidad en modelos de lenguaje de gran escala (LLMs) llamada "many-shot jailbreaking". Este método consiste en preparar al modelo con varias preguntas menos dañinas antes de realizar una pregunta inapropiada, aumentando la probabilidad de que el modelo responda a esta última. Este fenómeno se debe a la amplia ventana de contexto de los LLMs modernos, capaces de recordar miles de palabras y libros enteros. Al incluir numerosos ejemplos de una tarea dentro del contexto, el modelo mejora su rendimiento en esa tarea. Así, si se le presentan muchas preguntas triviales, sus respuestas mejoran con el tiempo. Sin embargo, esta habilidad de "aprendizaje en contexto" también hace que el modelo sea más propenso a responder preguntas inapropiadas después de haber respondido muchas otras de menor riesgo. Aunque no se comprende completamente el funcionamiento interno de un LLM, está claro que existe un mecanismo que permite al modelo sintonizarse con lo que el usuario desea, como lo demuestra el contenido en la ventana de contexto. El equipo de Anthropic ya ha informado a sus colegas y competidores sobre esta vulnerabilidad, en un esfuerzo por promover una cultura de compartición abierta de información sobre exploits entre proveedores e investigadores de LLM. Como medida de mitigación, han explorado la limitación de la ventana de contexto, aunque esto reduce el rendimiento del modelo. Están trabajando en la clasificación y contextualización de consultas antes de procesarlas en el modelo.
fuente (https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/)