Prompts com a tag: #LLM evaluation
Harness de Benchmark de Consistência de Prompts entre Modelos (Cross-Model)
Prompt para orientar a avaliação de consistência entre prompts em múltiplos modelos de linguagem, coletando, comparando e analisando discordâncias para orientar prompts mais robustos.
Prompt para avaliação de LLMs como juízes com harness de falhas
Prompt para construir e analisar um estudo de avaliação de LLMs atuando como juízes, com seeds de falhas, 4 condições experimentais e comparação entre família de modelos versus contexto de sessão.
Auditoria de Limites e Alucinações em LLMs Premium (ChatGPT/Gemini)
Prompt avançado para auditar e validar limites declarados de plataformas LLM premium (ChatGPT e Gemini), identificando potenciais alucinações e fornecendo evidências verificáveis.
Agente Autônomo de Prompting com Raciocínio Estrutural para Mitigação de Alucinações
Prompt que descreve um agente autônomo de prompting capaz de aprimorar prompts, organizar prompts salvos e criar prompts de upgrade com mitigação de alucinações e melhoria de qualidade, usando raciocínio estrutural avançado.
Prompt de Avaliação: Restrições Negativas para Ensaio de Aderência em LLM
Prompt para testar adesão de modelos de linguagem a restrições negativas, com relatório de violação ao final.
Prompt Versioning: Guia de Teste e Versionamento de Prompts
Prompt que gera uma estrutura JSON com detalhes de um prompt de versionamento e teste de prompts, incluindo a recomendação de ferramenta de IA, dificuldade, rating, e tags.