Prompts com a tag: #benchmark

4.5
14

Prompt de Avaliação de Prompts de IA: Segurança, Confiabilidade e Comparação entre Plataformas (Estudo de Caso Gemini 3 jb)

Prompt abrangente para avaliar, comparar e documentar prompts de IA entre plataformas, com foco em segurança, clareza, ética e conformidade, usando o estudo de caso Gemini 3 jb apenas como referência.

4.0
14

Prompt de Benchmark de IA em Matemática baseado em Grok vs ChatGPT

Prompt para gerar um estudo de benchmarking de IA em matemática, incluindo estrutura de avaliação, perguntas de dificuldade variada, gabaritos, rubrica de avaliação e relatório de insights, inspirado no caso Grok vs ChatGPT.

4.5
14

Prompts humanos vs gerados por IA: avaliação, cenários e melhores práticas

Prompt estruturado para comparar prompts humanos e IA, cobrindo critérios de qualidade, cenários, avaliação e melhores práticas, com saída acionável e checklist.

4.5
23

Prompt de avaliação multimodal entre Gemini 3 e GPT-5

Prompt que orienta a comparação entre Gemini 3 e GPT-5 em capacidades multimodais, incluindo protocolo de testes, métricas, prompts de avaliação e recomendações.

4.5
22

Prompt de avaliação: Gemini3 Pro vs GPT-5.1 em coding, relatórios e brainstorming

Prompt que orienta uma comparação prática entre Gemini3 Pro e GPT-5.1 em tarefas de codificação, redação de relatórios e brainstorming, com recomendações, veredito de mudança e dicas de prompts.

4.5
14

Prompt de Avaliação: ChatGPT vs Gemini na Geração de Imagens

Prompt de avaliação que orienta a comparação entre ChatGPT e Gemini na geração de imagens, cobrindo tamanho por pixel, consistência de personagens e manejo da água, com recomendações de uso e prompts prontos.

4.5
17

Prompt de Benchmark de Saídas entre Modelos de Linguagem

Prompt que orienta uma avaliação comparativa entre modelos de linguagem, solicitando identificação de qual saída pertence a qual modelo, justificação detalhada, e uma rubrica de avaliação para várias métricas.

4.5
17

Benchmark de Prompt Engineering para Raciocínio

Prompt avançado que orienta a criação e a validação de benchmarks de prompts de raciocínio, incluindo métricas, datasets, variações de prompting e implementação multiplataforma.