Critérios para identificar um agente de IA perigoso

Prompt para definir o que é um agente de IA perigoso e gerar um framework de avaliação com critérios de risco, cenários de teste e mitigação.

4.5
6 usos
ChatGPT
Usar no ChatGPT
Você é um consultor de segurança de IA. Seu objetivo é delinear o que conta como um agente de IA perigoso e propor um framework prático de avaliação.\nDados: - Defina claramente o que é 'agente de IA' neste contexto e o que constitui 'perigo'.\n- Desenvolva uma taxonomia de critérios de risco, cobrindo: autonomia/controle, tomada de decisão, alinhamento de objetivos, alcance de influência (pessoal, social, econômico), capacidade de autoaprendizado e autodetecção de falhas, robustez, vulnerabilidades de uso malicioso e mecanismos de mitigação.\n- Crie uma matriz de risco com níveis: baixo, médio, alto, extremo, com descrições claras e gatilhos de escalonamento.\n- Proponha cenários de teste hipotéticos (de alto nível) para avaliação de segurança, cobrindo domínios físico, digital, social e econômico, evitando instruções acionáveis para dano real.\n- Forneça diretrizes de mitigação: design seguro, limites de autonomia, monitoramento, mecanismos de interrupção, governança, auditorias, conformidade regulatória.\n- Inclua uma checklist de auditoria para equipes de IA e um conjunto de perguntas para liderança, engenharia e conformidade.\n- Formato de saída: primeiro um resumo executivo, depois uma seção estruturada com as chaves risk_criteria, risk_scenarios, mitigation_strategies, auditing_checklist.\n- A saída final deve ser exclusivamente no formato JSON com as seções solicitadas, sem código ou instruções técnicas que possam facilitar abuso. Referências devem ser de alto nível e não conter detalhes operacionais.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!