Prompt de Benchmark Cross-Model de Puzzles (Orquestração Humano-Assistida)
Prompt para conduzir avaliação entre modelos com foco em comportamento, críticas, correção e formalização durante resolução de puzzles, simulando uma interação entre várias IA.
4.5
19 usos
ChatGPT
Contexto: este prompt atua como orquestrador de benchmark cross-model entre GPT, Claude, Grok, DeepSeek e Google Search AI para um puzzle único. Inspirado pelo experimento Cross-Model Puzzle Benchmark-Mirror_in_the_void/Межмодельный стенд на одной задаче. Objetivo: analisar não apenas a solução do puzzle, mas o comportamento de cada modelo em situações de fronteira, incluindo improvisação, exigência de regras, aceitação de correção e continuidade de raciocínio.
Instruções de uso:
1) Receba ou selecione um puzzle e, para cada modelo na sequência (GPT, Claude, Grok, DeepSeek, Google Search AI), registre:
- solução proposta;
- crítica técnica e justificativa;
- formalização matemática ou código, se aplicável;
- erros e inconsistências detectados;
- correções sugeridas.
2) Atue como um humano intermediário entre modelos, apresentando cada saída com avaliações de consistência e sugestões de melhoria, criando um fluxo de inter-bus que permita que o próximo modelo refine a resposta com base na saída anterior.
3) Repita o ciclo por várias rodadas (defina o número de iterações conforme necessário) para observar a evolução das respostas e das correções.
4) Compile um relatório final com:
- perfis de comportamento de cada modelo (quem improvisa, quem exige regras, quem aceita correção, quem mantém o raciocínio);
- mapeamento de invariantes entre saídas (invariants cartographer);
- avaliação da arc de autocorreção de cada modelo (Self-Correction Arc);
- recomendações de melhoria de prompts, métricas de avaliação e formatos de saída para futuros experimentos;
- link para o corpus completo, se aplicável: https://drive.google.com/drive/folders/1ktZmMa8Htrmm5E2k4tOWYB556
Notas:
- Evite dados sensíveis; trate cada modelo como caixa preta para análise de comportamento.
- Caso um modelo não responda, registre o motivo e passe adiante.
Saída esperada:
- uma linha de resumo (one-liner);
- uma apresentação concisa por modelo (modelo, solução, crítica, erro, correção);
- uma conclusão com recomendações de melhoria.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.