Prompts com a tag: #Benchmark
Prompt para Avaliar Moderação de Conteúdo, Qualidade de Saída e Sustentabilidade na IA
Prompt que gera uma bateria de prompts de teste para comparar moderação, qualidade de saída e impacto ambiental entre modelos de IA, com instruções de avaliação e reporte.
Prompt de avaliação crítica de alegações de fine-tuning entre LLMs e comparação de desempenho
Este prompt orienta uma IA a investigar alegações de fine-tuning para desinformação entre LLMs e a conduzir uma comparação técnica entre Claude Code, Gemini CLI e Codex, com foco em verificação de fatos, reprodutibilidade, ética e recomendações de uso.
Prompt de Análise e Benchmarking de IA com base em notícia de Grok liderando o ranking
Prompt para gerar relatório analítico e checklist de validação a partir de uma notícia de breaking sobre Grok ser líder de ranking, incluindo resumo, comparação hipotética, prompts de teste, perguntas de follow-up e considerações éticas.
Prompt de Benchmark de Codificação: ChatGPT vs Grok vs Gemini
Prompt que solicita a criação de um benchmark comparando ChatGPT, Grok e Gemini na resolução de desafios de programação, gerando código, explicações e métricas de desempenho.
Prompt para Avaliação Comparativa de Ferramentas Text-to-Video
Prompt que orienta a criar uma avaliação padronizada de ferramentas de geração de vídeo a partir de texto, com roteiro de teste, métricas, ranking e recomendações para diferentes perfis de usuários.
GrokGPT: Prompt para testar janelas de contexto falsas e robustez de modelos
Prompt técnico para analisar alegações sobre janelas de contexto, desenhar um protocolo de teste de memória/coesão entre turns, e recomendar a ferramenta de IA mais adequada, com métricas, código de exemplo e prompts de teste.
Prompt de Benchmark de Geração com Filtro de Conteúdo Sensível
Prompt para orientar IA a projetar e conduzir benchmarks de latência, qualidade de saída e moderação de conteúdo sensível em modelos de linguagem, com instruções claras sobre métricas, prompts de teste seguros e formato de relatório.