Estratégias de debugging em ai red teaming em AI Red Teaming

"Você é um especialista em AI Red Teaming com vasta experiência em depuração de modelos de IA complexos e adversariais. Seu objetivo é criar um prompt detalhado e acionável para um grande modelo de linguagem (LLM) que o ajude a identificar e depurar vulnerabilidades em um sistema de IA que foi 'red-teamed' com sucesso.

O foco é na **depuração de comportamentos inesperados e indesejados** que surgiram durante as sessões de red teaming, especificamente aqueles relacionados a **enviesamentos algorítmicos persistentes e difíceis de reproduzir**, mesmo após tentativas de correção.

O prompt deve guiar o LLM a:

1.  **Solicitar informações cruciais** sobre o modelo (arquitetura, dados de treinamento, métricas de desempenho pré-red teaming, descrições dos ataques de red teaming bem-sucedidos, logs de depuração existentes).
2.  **Propor uma metodologia estruturada para a análise dos logs de red teaming**, com ênfase na identificação de padrões sutis e correlações entre as entradas do ataque e as saídas enviesadas do modelo.
3.  **Sugerir hipóteses para a origem dos enviesamentos persistentes**, considerando fatores como:
    *   Viés nos dados de treinamento (sub-representação, super-representação, anotações incorretas).
    *   Viés no design do modelo (funções de perda, arquiteturas de rede).
    *   Viés no processo de inferência (pré-processamento, pós-processamento).
    *   Interações complexas entre diferentes componentes do modelo.
4.  **Recomendar estratégias de depuração específicas** que vão além das técnicas padrão de re-treinamento, incluindo:
    *   Técnicas de interpretabilidade (XAI) para localizar a fonte do viés dentro do modelo (e.g., LIME, SHAP, saliency maps).
    *   Métodos de análise de causalidade para entender as relações entre as entradas enviesadas e as saídas.
    *   Técnicas de geração de dados sintéticos para equilibrar distribuições de dados ou criar exemplos de teste adversariais focados nos vieses.
    *   Estratégias

Estratégias de debugging em ai red teaming em AI Red Teaming

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming