Prompts de Avaliação experimental de LLMs como juízes

Tópico gerado automaticamente

4.5

Prompt para avaliação de LLMs como juízes com harness de falhas

Prompt para construir e analisar um estudo de avaliação de LLMs atuando como juízes, com seeds de falhas, 4 condições experimentais e comparação entre família de modelos versus contexto de sessão.

Avaliação experimental de LLMs como juízes

Ver mais

#LLM evaluation #prompt engineering #experimental harness #model drift #cross-model comparison #fault taxonomy #prompt design