Prompt de Benchmark de IA em Matemática baseado em Grok vs ChatGPT

Prompts de benchmarking de IA para matemática inspirado no cenário em que Grok falha em questões matemáticas em comparação com ChatGPT. O objetivo é criar um prompt utilizável por ferramentas de IA para autoavaliação de desempenho em matemática, gerando métricas, perguntas de dificuldade variada, rubrica de avaliação e um relatório de insights. Estrutura esperada do resultado: 1) o prompt de avaliação em si com instruções detalhadas para a IA executante; 2) um conjunto de perguntas de matemática cobrindo aritmética, álgebra, geometria e áreas afins, com enunciados curtos e sem ambiguidades; 3) gabaritos com respostas corretas e explicações breves; 4) critérios de avaliação e rubrica (precisão, robustez, justificativa, tempo de resposta); 5) recomendações para analisar falhas comuns de Grok e de LLMs em geral; 6) instruções para documentar resultados e gerar um relatório de benchmarking; 7) notas sobre uso, limitações e aspectos éticos para replicação. Inclua também orientações para como validar a comparação com outras IA e como melhorar iterações futuras. Use linguagem clara e objetiva em português.

Prompt de Benchmark de IA em Matemática baseado em Grok vs ChatGPT

Tags relacionadas

Como Usar este Prompt

Compartilhe