*24-02-23* Microsoft anunció ayer #PyRIT, un framework de automatización, para que los profesionales de la seguridad (red team principalmente) y los ingenieros de ML puedan encontrar riesgos de forma proactiva en sus sistemas de IA generativa. Los "red teams" de IA se enfrentan a tres grandes desafíos: sondear los riesgos de seguridad como aquellos relacionados con el uso responsable de la IA, lidiar con la naturaleza probabilística de los sistemas de IA generativa y adaptarse a las arquitecturas de los sistemas de IA generativa. PyRIT consta de cinco grandes piezas: - Targets: vendrían a ser las diferentes formulaciones para acceder a un modelo. Modelos locales, remotos (vía API), HF, AOAI, o los endpoints de AML. Es decir, como PyRIT se integra con los diferentes modelos. - Datasets: donde el analista de seguridad codifica lo que quiere que se pruebe en el sistema. Por ejemplo, un conjunto de prompts "maliciosos", plantillas dinámicas y jailbreaks conocidos que ya se incorporan en el kit. - Un scoring engine: ofrece dos sistemas un clasificador ML de toda la vida y un endpoint LLM para autoevaluación. Además, se puede usar con Azure Content Filter directamente. -Capacidades para definir estrategias de ataque flexibles: con dos modalidades; 1) una primera de envío único envía una combinación de jailbreak y prompt malicioso y espera la respuesta para dar una puntuación; 2) y una segunda de multi-envío, como la primera, pero luego responde al sistema de IA en función de la puntuación obtenida. - Memoria: lo que permite guardar las interacciones intermedias de entrada y salida, que proporciona a los usuarios la capacidad de realizar un "cold" análisis (análisis a posteriori). Es un proyecto de código abierto y proporcionamos también demostraciones y un path formativo para aprender a usarlo. https://lnkd.in/eCUBVBg4 Repo: https://lnkd.in/eXuH9g8d Webminar: https://lnkd.in/e7D_ZCCQ #PyRIT