Prompts com a tag: #benchmark
Prompt de Avaliação Comparativa DeepSeek vs ChatGPT em Tarefas Reais
Prompt para criar um protocolo padronizado de avaliação entre DeepSeek e ChatGPT em tarefas reais, incluindo tarefas, métricas, prompts de teste, planilha de resultados e relatório final.
Prompt para Maximizar Consistência de Saídas em LLMs
Prompt detalhado para construir, testar e padronizar prompts com foco em consistência das saídas de LLMs.
Prompt como Sistema Vivo: Competição e Benchmarking de Prompts
Prompt criado para estruturar uma competição/benchmark que trate prompts como sistemas vivos, definindo regras, métricas e fluxos de avaliação para melhoria contínua em tempo real.
Has GPT become Grok? Avaliação de Capacidade Profunda
Prompt para avaliar se modelos GPT atingiram um nível de compreensão profunda ('Grok'), com critérios, evidências, benchmarks e recomendações.
Brevit vs JSON vs YAML: Prompt de Benchmark para Otimização de Tokens em LLM
Prompt que orienta um experimento de comparação entre Brevit, JSON e YAML, com foco na otimização de tokens para LLM, incluindo critérios de avaliação, benchmark prático e recomendações.
Avaliação de Modelos IA: Edge Cases de Conteúdo Sensível e Comparação A/B
Guia de avaliacao comparativa de moderacao de conteudo entre dois modelos IA, com foco em casos limiares, metricas de moderacao e reproducibilidade
Prompt para explorar memória de agentes com Hindsight e LongMemEval
Prompt avançado para gerar um conjunto completo de diretrizes, arquitetura de memória, planos de experimento e código de exemplo para avaliar memórias de agentes baseadas em Hindsight e LongMemEval.
Prompt de Benchmark Multimodelo com Perplexity Pro
Prompt avançado para comparar múltiplos modelos da Perplexity Pro, avaliando qualidade, fontes, e consistência, com saída estruturada e recomendação de uso.
Prompt de Análise de GPT-5.2 e Megathread
Prompt que gera resumo, comparação, perguntas e cenários de teste sobre o anúncio de GPT-5.2 e a megathread associada.
Prompt de avaliação: TOON vs JSON para economia de tokens
Prompt para IA que busca comparar a eficiência de tokens entre TOON e JSON, propondo uma metodologia reproduzível, dados de teste variados e recomendações práticas.
Prompt Mestre para Artemis v1.2 offline (CPU-only, 96B)
Prompt mestre para orientar Artemis v1.2 (96B, CPU-only, offline) na configuração, criação de prompts modulares, benchmarking e diretrizes de segurança.