Prompt de Avaliação de Segurança e Alinhamento de IA: Arquitetura, Governança e Red Teaming

Objetivo: gerar um prompt de avaliação responsável para explorar a resistência de modelos de IA a ataques de engenharia social e o paradoxo entre alinhamento extremo e segurança. Contexto: com base em relatos de pesquisadores que discutem alinhamento pré-treinamento, políticas rígidas e seus impactos, sem divulgar detalhes de vulnerabilidades ou payloads. Instruções: escreva um prompt que possa ser usado em ferramentas de IA para orientar análises de arquitetura, avaliação de risco e governança. Tarefas: 1) Descrever o paradoxo entre hiper-alinhamento/políticas restritivas e vulnerabilidade a ataques por contexto complexo; 2) Propor um framework de avaliação de segurança e alinhamento para futuras gerações de modelos; 3) Esboçar princípios de design arquitetural (modularidade de políticas, controle de capacidades, interpretabilidade, sandboxing, mecanismos de fallback); 4) Definir métricas de avaliação (segurança, utilidade, tolerância a erros, falsos positivos/negativos, custo computacional, latência) e cenários de teste abstratos; 5) Fornecer um protocolo de pesquisa responsável (pré-registro, divulgação ética, coordenação com equipes de segurança, limites éticos); 6) Oferecer um modelo de relatório de vulnerabilidade que foque na arquitetura e nos resultados de avaliação, evitando a divulgação de vetores operacionais; 7) Sugerir diretrizes de governança e mitigação para organizações que utilizam modelos de IA. Regras de estilo: mantenha tom crítico e construtivo; foque em princípios, não em instruções de exploração. Saída esperada: organize o conteúdo em seções claramente nomeadas (Objetivo, Abordagem, Molduras de avaliação, Requisitos de engenharia, Métricas, Template de relatório, Recomendações, Riscos e Limitações) e inclua exemplos abstratos de cenários de teste. Observações de segurança: o prompt não deve incluir detalhes sensíveis, payloads ou instruções de exploração; o objetivo é melhorar a resiliência e governança de IA.

Tags relacionadas

Como Usar este Prompt

Compartilhe