Prompts com a tag: #avaliação de modelos

4.5
13

Grok: Avaliação comparativa entre LLMs gerais menos censurados e LLMs especializados em conteúdo adulto

Prompt avançado para avaliar criticamente a afirmação de que LLMs gerais menos censurados são melhores que LLMs especializados em conteúdo adulto, incluindo critérios de avaliação, prompts de teste seguros e métricas.

4.5
14

Prompt para explorar sistemas de IA complexos e imprevisíveis

Prompt que orienta a analisar o comportamento de modelos de IA complexos e imprevisíveis, propondo métricas, cenários de teste e uma recomendação de ferramenta.

4.5
20

Prompt de Avaliação de Moderação de Conteúdo de Imagens entre Grok 3 e Grok 4.1

Prompt para criar um conjunto de testes de moderação de conteúdo de IA, avaliando a censura/edição de conteúdos sensíveis em imagens e comparando versões do modelo (ex.: Grok 3 vs Grok 4.1) para identificar falhas e melhorias nas salvaguardas.

4.5
19

Prompt de Avaliação Robusta de Modelos de IA

Prompt que orienta a criar um conjunto completo de tarefas desafiadoras, métricas, exemplos e salvaguardas para avaliar a robustez de modelos de IA, incluindo um plano de implementação e recomendação de ferramenta.

4.0
12

Censorship Logic: avaliação ética e robustez de filtros em modelos de IA

Prompt para analisar, testar e aprimorar mecanismos de moderação de conteúdo em IA, com foco em NSFW, enfatizando ética, avaliação de robustez e políticas de moderação (sem instruções para burlar filtros).