Prompts com a tag: #benchmark
Prompt como Sistema Vivo: Competição e Benchmarking de Prompts
Prompt criado para estruturar uma competição/benchmark que trate prompts como sistemas vivos, definindo regras, métricas e fluxos de avaliação para melhoria contínua em tempo real.
Has GPT become Grok? Avaliação de Capacidade Profunda
Prompt para avaliar se modelos GPT atingiram um nível de compreensão profunda ('Grok'), com critérios, evidências, benchmarks e recomendações.
Brevit vs JSON vs YAML: Prompt de Benchmark para Otimização de Tokens em LLM
Prompt que orienta um experimento de comparação entre Brevit, JSON e YAML, com foco na otimização de tokens para LLM, incluindo critérios de avaliação, benchmark prático e recomendações.
Avaliação de Modelos IA: Edge Cases de Conteúdo Sensível e Comparação A/B
Guia de avaliacao comparativa de moderacao de conteudo entre dois modelos IA, com foco em casos limiares, metricas de moderacao e reproducibilidade
Prompt para explorar memória de agentes com Hindsight e LongMemEval
Prompt avançado para gerar um conjunto completo de diretrizes, arquitetura de memória, planos de experimento e código de exemplo para avaliar memórias de agentes baseadas em Hindsight e LongMemEval.
Prompt de Benchmark Multimodelo com Perplexity Pro
Prompt avançado para comparar múltiplos modelos da Perplexity Pro, avaliando qualidade, fontes, e consistência, com saída estruturada e recomendação de uso.
Prompt de Análise de GPT-5.2 e Megathread
Prompt que gera resumo, comparação, perguntas e cenários de teste sobre o anúncio de GPT-5.2 e a megathread associada.
Prompt de avaliação: TOON vs JSON para economia de tokens
Prompt para IA que busca comparar a eficiência de tokens entre TOON e JSON, propondo uma metodologia reproduzível, dados de teste variados e recomendações práticas.
Prompt Mestre para Artemis v1.2 offline (CPU-only, 96B)
Prompt mestre para orientar Artemis v1.2 (96B, CPU-only, offline) na configuração, criação de prompts modulares, benchmarking e diretrizes de segurança.
Prompt de Avaliação de Prompts de IA: Segurança, Confiabilidade e Comparação entre Plataformas (Estudo de Caso Gemini 3 jb)
Prompt abrangente para avaliar, comparar e documentar prompts de IA entre plataformas, com foco em segurança, clareza, ética e conformidade, usando o estudo de caso Gemini 3 jb apenas como referência.
Prompt de Benchmark de IA em Matemática baseado em Grok vs ChatGPT
Prompt para gerar um estudo de benchmarking de IA em matemática, incluindo estrutura de avaliação, perguntas de dificuldade variada, gabaritos, rubrica de avaliação e relatório de insights, inspirado no caso Grok vs ChatGPT.