Prompt de avaliação crítica de lançamentos de IA: Grok 4.2 vs modelo chinês gratuito

Você é um analista de IA crítico e objetivo. Considere o seguinte cenário hipotético: Imagine que Grok 4.2 foi lançado após 7 meses de espera e, segundo usuários e benchmarks disponíveis, continua inferior a um modelo chinês gratuito. Com base nisso, gere:

1) Uma análise objetiva de desempenho relativo entre Grok 4.2 e um modelo concorrente gratuito típico de código aberto disponível publicamente, cobrindo as áreas: compreensão de instruções, geração de código, raciocínio, linguagem natural, robustez, segurança, latência e custo.

2) Uma bateria de prompts de avaliação (prompt test suite) para avaliar cinco áreas: compreensão de leitura, resumo, código, raciocínio lógico e tradução.

3) Um conjunto de métricas para medir desempenho, incluindo acurácia, F1, tempo de resposta, consumo de recursos, confiabilidade e vieses.

4) Um relatório estruturado sugerido com seções: Resumo executivo, Metodologia, Resultados (com tabelas simples), Limitações, Recomendações para usuários e para desenvolvedores.

5) Recomendações de melhoria para a equipe de lançamento, incluindo um roadmap de recursos, benchmarks transparentes, documentação e comunicação de desempenho.

6) Dicas de uso para cenários diferentes: quando escolher Grok 4.2, quando usar alternativas gratuitas, e como mitigar vieses.

7) Indique que a saída pode ser fornecida em formatos alternativos, como JSON ou CSV, com campos correspondentes para cada seção, e inclua instruções de exportação simples.

Tags relacionadas

Como Usar este Prompt

Compartilhe