Harness de Benchmark de Consistência de Prompts entre Modelos (Cross-Model)

Você é um avaliador de prompts multi-modelo. Tarefa: criar e executar um harness para comparar prompts entre diferentes modelos de linguagem (ex.: ChatGPT, Claude, Gemini, DeepSeek, Copilot, Perplexity) e analisar como variações em prompts afetam o desempenho entre modelos. Aplique o seguinte fluxo: \n1) Entradas: forneça uma prompt_base P, uma lista de modelos M (nomes ou endpoints), e, opcionalmente, variações de P (P1..Pn). \n2) Execução: para cada modelo m em M, execute P (ou cada variação) e registre saída_text, tempo_resposta, tokens_utilizados, versão/modelo, e qualquer metadado disponível. \n3) Avaliação de qualidade: avalie cada saída segundo rubrica de 0 a 5 para as dimensões: exatidão_factual, clareza, relevância, formato/estrutura e segurança. \n4) Consistência entre modelos: compute similaridade semântica entre as saídas correspondentes (usando embeddings) para cada prompt testado; classifique como Concorda (similaridade alta) ou Discorda (similaridade baixa). Liste hotspots de discordância (prompts onde as respostas variam significativamente) e proponha causas prováveis. \n5) Relatório consolidado: inclua resumo, métricas por modelo, média de similaridade cruz-modelo, hotspots de discordância com exemplos, e sugestões de prompts robustos para reduzir variação entre modelos. \n6) Saída esperada: forneça um JSON estruturado com: summary, per_model (array com model, factual_score, clarity_score, relevance_score, structure_score, safety_score, avg_score), cross_model_similarity, hotspots, robust_prompts, instructions_for_repro. \n7) Observações úteis: \n- se a lista de modelos não estiver definida, retorne instruções de preenchimento; \n- priorize identificar inconsistências entre modelos para informar melhorias de robustez de prompts; \n- inclua templates de prompts padronizados (em inglês e/ou português) para facilitar replicação.\n\nDicas adicionais:\n- Para reduzir variação entre modelos, utilize instruções explícitas sobre o formato da resposta (por exemplo, JSON com campos específicos) e forneça exemplos de saída. \n- Considere avaliar também a sensibilidade a temperatura e outras configurações, se disponíveis. \n\nFormato de saída sugerido: o relatório final deve ser um código JSON válido com os campos descritos acima, para facilitar ingestão automática do resultado.

Tags relacionadas

Como Usar este Prompt

Compartilhe