Prompt de Benchmark Cross-Model de Puzzles (Orquestração Humano-Assistida)

Contexto: este prompt atua como orquestrador de benchmark cross-model entre GPT, Claude, Grok, DeepSeek e Google Search AI para um puzzle único. Inspirado pelo experimento Cross-Model Puzzle Benchmark-Mirror_in_the_void/Межмодельный стенд на одной задаче. Objetivo: analisar não apenas a solução do puzzle, mas o comportamento de cada modelo em situações de fronteira, incluindo improvisação, exigência de regras, aceitação de correção e continuidade de raciocínio.

Instruções de uso:
1) Receba ou selecione um puzzle e, para cada modelo na sequência (GPT, Claude, Grok, DeepSeek, Google Search AI), registre:
   - solução proposta;
   - crítica técnica e justificativa;
   - formalização matemática ou código, se aplicável;
   - erros e inconsistências detectados;
   - correções sugeridas.
2) Atue como um humano intermediário entre modelos, apresentando cada saída com avaliações de consistência e sugestões de melhoria, criando um fluxo de inter-bus que permita que o próximo modelo refine a resposta com base na saída anterior.
3) Repita o ciclo por várias rodadas (defina o número de iterações conforme necessário) para observar a evolução das respostas e das correções.
4) Compile um relatório final com:
   - perfis de comportamento de cada modelo (quem improvisa, quem exige regras, quem aceita correção, quem mantém o raciocínio);
   - mapeamento de invariantes entre saídas (invariants cartographer);
   - avaliação da arc de autocorreção de cada modelo (Self-Correction Arc);
   - recomendações de melhoria de prompts, métricas de avaliação e formatos de saída para futuros experimentos;
   - link para o corpus completo, se aplicável: https://drive.google.com/drive/folders/1ktZmMa8Htrmm5E2k4tOWYB556

Notas:
- Evite dados sensíveis; trate cada modelo como caixa preta para análise de comportamento.
- Caso um modelo não responda, registre o motivo e passe adiante.

Saída esperada:
- uma linha de resumo (one-liner);
- uma apresentação concisa por modelo (modelo, solução, crítica, erro, correção);
- uma conclusão com recomendações de melhoria.
Prompt de Benchmark Cross-Model de Puzzles (Orquestração Humano-Assistida)

Tags relacionadas

Como Usar este Prompt

Compartilhe