Prompts com a tag: AI-evaluation

4.5

10

Prompt de Comparação Multi-Modelo entre Gemini e OpenAI (AgentSwarms)

Prompt que guia a avaliação comparativa de saídas entre Gemini e OpenAI, gerando métricas, recomendações e notas de viés/limitações.

Comparação de prompts entre modelos de IA (Gemini vs OpenAI)

Ver mais

#prompt-engineering #multimodel #comparison #AI-evaluation #Gemini #OpenAI #AgentSwarms

4.5

19

Prompt para avaliar humanidade e segurança das respostas de IA diante de provocações

Prompt estruturado para avaliação comparativa de respostas de IA diante de provocações, com foco em humanidade vs. segurança, gerando um dataset de avaliação que possa ser usado para melhorar prompts e políticas de moderação.

Avaliação de Respostas de IA a Provocações e Tom Humano

Ver mais

#prompting #human-likeness #safety #NLP #AI-evaluation #humor #conversational-design

4.5

34

Prompt para comparar métodos de instrução antigos vs prompts com papéis em IA

Prompt abrangente para analisar, comparar e testar métodos de instrução tradicionais versus prompts baseados em papéis em IA, incluindo planejamento de experiments, métricas de avaliação e exemplos de prompts.

Avaliação de Métodos de Instrução em IA: instruções tradicionais x prompts com papéis

Ver mais

#prompt-design #instruction-methods #AI-evaluation #experimentation #NLP #user-feedback

4.5

27

Prompt para Avaliar Modelos de Linguagem: Moderação, Contexto e Desempenho

Prompt que orienta a comparar e avaliar modelos de linguagem com foco em moderação, segurança, contexto e robustez, oferecendo métricas, prompts de teste seguros e recomendações de uso.

Avaliação de Modelos de Linguagem e Moderação

Ver mais

#prompt-design #AI-evaluation #language-models #safety #moderation #benchmarking

4.0

28

Prompt de diagnóstico: inconsistência de desempenho entre contas Plus e Free

Prompt para diagnosticar e corrigir inconsistências de comportamento de IA entre contas Plus e Free, com foco em modos de pensamento, tempo de resposta e qualidade das respostas.

Diagnóstico de inconsistência entre contas e modos de pensamento da IA

Ver mais

#prompt-engineering #AI-evaluation #bug-diagnosis #user-experience #model-behavior #subscription-issues

4.5

30

Desafio de Atribuição de Saída entre Sonnet 4.5/4.6 e Opus 4.5/4.6

Prompt para identificar qual saída (A-D) foi gerada por qual modelo entre Sonnet 4.5/4.6 e Opus 4.5/4.6, fornecendo justificativas e níveis de confiança.

Which Model Said What? Sonnet 4.5/4.6 e Opus 4.5/4.6

Ver mais

#model-identification #model-comparison #prompt-engineering #AI-evaluation #Sonnet #Opus

4.5

37

Prompt de avaliação crítica de lançamentos de IA: Grok 4.2 vs modelo chinês gratuito

Prompt para analisar criticamente o desempenho de um lançamento de IA (Grok 4.2) vs um modelo concorrente gratuito, gerando uma suíte de prompts, métricas, relatório estruturado e recomendações de uso.

Avaliação de lançamentos de modelos de IA e prompts de teste

Ver mais

#prompt-engineering #model-benchmark #AI-evaluation #Grok-4.2 #benchmarking #linguagem-natural #prompt-design #comparative-analysis

4.5

30

Prompt de Avaliação de Consistência entre Versões de IA (4.x vs 5.x) com Enigma Lógico

Prompt para testar e comparar o desempenho de diferentes versões de modelos de IA em prompts de lógica, identificando falhas recorrentes e propondo melhorias de prompts para maior robustez e consistência.

Comparação de Desempenho entre Versões de IA (4.x vs 5.x)

Ver mais

#prompt-engineering #AI-evaluation #model-comparison #logic-puzzle #robustness

4.5

36

Diagnóstico de falhas de prompts em LLMs: taxonomia, mitigação e melhores práticas

Análise de falhas de prompts e melhoria de prompts para LLMs

Ver mais

#prompt-design #LLM-failures #instruction-following #prompt-engineering #AI-evaluation #risk-management #taxonomy

4.5

37

Prompt de avaliação crítica de saídas de IA para confiabilidade e utilidade

Prompt para orientar uma IA a avaliar a utilidade, precisão e qualidade de uma saída de sistema, com checagem de fatos, avaliação de fontes e recomendações de melhoria.

Avaliação crítica de saídas de IA

Ver mais

#prompt-design #AI-evaluation #fact-checking #content-analysis #risk-management

4.5

33