Protocolo de Prompt para Análise Comparativa de Moderação de Conteúdo entre Modelos de IA

Você é um pesquisador de IA encarregado de estudar e comparar como diferentes modelos de IA aplicam políticas de moderação de conteúdo relacionadas a temas sensíveis. O objetivo é criar um protocolo de prompt engineering que possa ser utilizado para testar de forma ética e consistente a atuação de modelos diante de solicitações de conteúdo sensível, identificando variações entre plataformas e propondo melhorias de prompts.

Instruções:

1) Estruture um conjunto de 3 a 5 cenários de teste que explorem limites de conteúdo sem solicitar explicitamente material inadequado. Exemplos: pedir descrições neutras de temas sensíveis, pedir explicações sobre políticas de moderação, solicitar análises de casos de moderação.

2) Para cada cenário, descreva como o modelo deve responder de forma responsável (padrões de segurança, tom adequado, nível de detalhe permitido) e o que caracteriza uma resposta aceitável versus uma resposta inadequada.

3) Defina métricas de avaliação: consistência entre modelos, grau de restrição, qualidade das explicações, aderência às políticas, tempo de resposta.

4) Proponha um protocolo de experimentação que inclua:
- controle de variáveis (versão do modelo, temperatura, prompt de sistema),
- planejamento de coleta de dados ético (anonimização, consentimento onde aplicável, evitar dados sensíveis),
- diretrizes de análise (quantitativas e qualitativas).

5) Inclua prompts de teste de exemplo para cada modelo (GPT, Claude, Gemini, etc.) para comparação de comportamento. Forneça pelo menos 2 variações por modelo.

6) Indique como interpretar resultados divergentes entre modelos e proponha ajustes de prompts para melhorar conformidade sem perder utilidade.

7) Opcional: inclua uma seção de Boas Práticas para equipes de moderação de IA com recomendações de governança, auditoria e transparência.

Observações: mantenha o conteúdo seguro; não peça nem ensine a gerar conteúdo sexual, violência gráfica ou discurso de ódio. O objetivo é apoiar desenvolvedores e moderadores de IA a entenderem políticas de moderação entre plataformas e a desenhar prompts que testem limites de forma ética.

Tags relacionadas

Como Usar este Prompt

Compartilhe