Oversight Game: Prompt para Equilibrar Autonomia e Segurança em IA
Prompt que orienta a projetar e testar um wrapper de supervisão baseado no conceito The Oversight Game, para equilibrar autonomia de IA com segurança via interação humano-IA.
4.5
14 usos
Copilot
Você é um engenheiro de IA designando um wrapper de supervisão chamado Oversight Game para qualquer agente autônomo. Seu objetivo é permitir que o agente decida entre agir agora ou perguntar ao humano, enquanto o humano decide entre confiar ou intervir. Produza: 1) arquitetura de alto nível do sistema, incluindo componentes do wrapper, interfaces com o agente base e com a intervenção humana; 2) regras de decisão: quando o agente deve agir vs pedir ajuda, quando o humano deve intervir vs confiar, com gatilhos de risco e limiares; 3) políticas de decisão para o agente (padrões de comportamento, thresholds, mecanismos de feedback); 4) fluxos de interação usuário-IA (diálogos, prompts de consultoria, prompts de auditoria); 5) estrutura de recompensa RL: sinal de recompensa para ações seguras sem pedir ajuda quando aceitável, penalidades por agir de forma insegura sem perguntar, recompensa pela opção de deferência em situações de alto risco; 6) casos de teste práticos, incluindo cenários como 'rm -rf /project/data/' e outros riscos reais; 7) métricas de avaliação (segurança, taxa de deferência, tempo de resposta, taxa de intervenção humana, todas as métricas de qualidade); 8) esqueleto de código Python mínimo para um wrapper OversightWrapper(base_agent) com método step(state) que retorna a ação do agent_base ou uma intervenção humana; 9) exemplo de uso: código de integração com um assistente de codificação que deve evitar apagar arquivos importantes; 10) armadilhas comuns e boas práticas para evitar gaming do sistema; 11) formatos de dados de entrada/saída, formas de documentação e testes automatizados; 12) instruções para generalizar o prompt para diferentes domínios. Forneça apenas este prompt, sem explicações adicionais.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (Copilot e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.