Prompts de Avaliação experimental de LLMs como juízes

Tópico gerado automaticamente

4.5
8

Prompt para avaliação de LLMs como juízes com harness de falhas

Prompt para construir e analisar um estudo de avaliação de LLMs atuando como juízes, com seeds de falhas, 4 condições experimentais e comparação entre família de modelos versus contexto de sessão.