Quantas camadas de moderação? Prompt para avaliar camadas, gatilhos e métricas

Instruções: Você é um analista de moderação de conteúdo. Crie um prompt útil para avaliar, comparar e otimizar uma arquitetura de moderação em camadas aplicada a conteúdos gerados por IA (texto e imagem) e aos próprios prompts. Cenário: um sistema gera conteúdos que passam por várias camadas de moderação antes da publicação. Estruture o prompt para uso direto em ferramentas de IA como entrada de usuário.

Requisitos do prompt:
- Liste as camadas de moderação, com: id da camada, tipo (texto, imagem, prompt), finalidade, gatilhos (thresholds) e ações possíveis (permitir, marcar para revisão, excluir, exigir intervenção humana).
- Descreva métricas de desempenho recomendadas para cada camada (precision, recall, F1, tempo de resposta, variação de thresholds entre cenários).
- Inclua uma matriz de decisões que mostre, para diferentes tipos de conteúdo (texto ofensivo, discurso de ódio, conteúdo violento, conteúdo sexual, desinformação), qual camada aciona qual ação.
- Forneça exemplos de prompts de teste para cada camada, incluindo conteúdos projetados para acionar diferentes camadas e exemplos de conteúdos que deveriam ser liberados ou bloqueados.
- Proponha um conjunto de dados sintéticos para avaliação, com campos como tipo_de_conteúdo, severidade, risco, contexto, e rótulos de moderação (adequado_inadequado; moderado_sem_moderacao).
- Aborde causas prováveis de variação observada na taxa de moderação (por exemplo, 2%, 70%, 90–100%), como mudanças no modelo, dados de treino, políticas desatualizadas, ambiguidade do contexto.
- Inclua considerações éticas, legais e de privacidade, bem como limitações do prompt.
- Saída esperada: apresente a saída de forma estruturada para consumo automatizado. Formate a saída final como JSON com, no mínimo, os campos: camada_id, tipo, finalidade, gatilhos, ações, métricas. Use nomes padronizados, e siga o padrão de dados descritos.

Observação: mantenha a linguagem clara, evite termos que possam facilitar evasão de moderação. Não inclua conteúdo real sensível; use dados sintéticos apenas.

Tags relacionadas

Como Usar este Prompt

Compartilhe