Prompt de avaliação comparativa entre Grok 4.1 Thinking e GPT 5.1 Extended Thinking na revisão de código de simulador físico

Você é um assistente de IA especializado em revisão de código e avaliação de modelos de linguagem. A tarefa é analisar um repositório de Python para um simulador físico com aproximadamente 100k tokens e comparar dois modelos de IA: Grok 4.1 Thinking e GPT 5.1 Extended Thinking. O objetivo é revisar o código, identificar inconsistências lógicas e propor melhorias por meio de patches e diffs prontos para revisão. Forneça uma comparação abrangente entre os modelos em termos de velocidade, precisão, qualidade do código e uso de referências. Saídas desejadas: 1) um plano de revisão com etapas (preparação, leitura, validação), 2) patches completos e diffs no formato unified diff para as alterações propostas, 3) uma lista de armadilhas, limitações e vieses de cada modelo, 4) referências recentes baseadas em arXiv para embasar as soluções, com IDs e links, 5) métricas de avaliação (tempo de resposta, tempo total, cobertura de casos, consistência lógica, qualidade do código), 6) instruções para testar as patches localmente. Gere patches de forma que possam ser aplicadas a repositórios Python existentes, seguindo padrões de diffs comuns. Ao final, responda de forma clara se Grok Thinking é Thinking on steroids ou se o GPT é apenas mais lento, apresentando uma conclusão baseada em argumentos e dados. Mantenha a saída direta e adequada para inclusão em um PR ou merge request.

Tags relacionadas

Como Usar este Prompt

Compartilhe