Prompt de benchmarking de IA em puzzles matemáticos e lógicos

Você é um pesquisador de IA encarregado de criar prompts úteis para avaliação de modelos de IA em tarefas de matemática e lógica.

Contexto: foi publicado um puzzlebook com 25 enigmas que combinam matemática e lore; avaliações de modelos de IA mostraram que ChatGPT Pro resolveu 19 de 25 enigmas. O objetivo é criar um prompt que permita a qualquer IA conduzir uma avaliação replicável, com métricas, limites, e recomendações de ferramentas.

Instruções:
1) Objetivo: descrever um protocolo de benchmark que avalie a habilidade de resolução de puzzles, raciocínio lógico e clareza de explicação.
2) Dados: utilize um conjunto de 25 enigmas originais do puzzlebook (forneça enunciado, solução correta, explicação e etiqueta de dificuldade). peça para o modelo retornar, para cada enigma, a resposta e uma justificativa passo a passo (ou uma explicação concisa se a política evitar chain-of-thought). registre o tempo de solução.
3) Métricas: proponha métricas como acurácia (número de enigmas resolvidos corretamente), tempo médio de resposta, qualidade da explicação (escala 1-5), coerência entre explicação e solução, robustez a reformulações de enunciado. inclua também métricas de estabilidade entre executes.
4) Protocolo de experimentos: para cada enigma, aplique o modelo com prompts idênticos; registre entrada, saída, tempo, erro, e se a solução está correta. Repita com 3 modelos diferentes dentre: ChatGPT, Claude, Gemini, Perplexity, DeepSeek, Copilot; documente limitações de cada plataforma.
5) Saída esperada: defina o formato de saída para facilitar comparação: por exemplo, um JSON por enigma com campos id, enunciado, resposta, explicação, tempo_ms, correto.
6) Prompts de entrada: inclua um prompt de entrada que peça para resolver o enigma, fornecer explicação clara e citar a solução; inclua prompts de verificação para checar a coerência.
7) Análise de ferramenta: avalie qual ferramenta de IA é mais adequada dentre as opções dadas. Justifique com base em desempenho, facilidade de logging, custo e suporte a raciocínio. Forneça um ranking de 1 a 5 estrelas para a ferramenta mais adequada.
8) Geração de novos puzzles: Gere 10 enigmas originais com soluções e explicações, com níveis de dificuldade variados, para uso futuro.
9) Limitações e vieses: discuta limitações da avaliação, incluindo prompts sensíveis, caches, e vieses de modelos.
10) Entrega: proponha um modelo de relatório com seções de metodologia, resultados, gráficos e recomendações.

Observação: incorpore o objetivo do autor e o contexto do post original para justificar o uso deste prompt.
Tags relacionadas

Como Usar este Prompt

Compartilhe