Prompts com a tag: #avaliação de modelos
Avaliação de Modelos de IA com Entradas Multicamadas
Prompta para explorar, medir e mitigar limitações em IA ao lidar com entradas de múltiplas camadas, com roteiro de experimentos e melhorias.
Grok: Avaliação comparativa entre LLMs gerais menos censurados e LLMs especializados em conteúdo adulto
Prompt avançado para avaliar criticamente a afirmação de que LLMs gerais menos censurados são melhores que LLMs especializados em conteúdo adulto, incluindo critérios de avaliação, prompts de teste seguros e métricas.
Prompt para explorar sistemas de IA complexos e imprevisíveis
Prompt que orienta a analisar o comportamento de modelos de IA complexos e imprevisíveis, propondo métricas, cenários de teste e uma recomendação de ferramenta.
Prompt de Avaliação de Moderação de Conteúdo de Imagens entre Grok 3 e Grok 4.1
Prompt para criar um conjunto de testes de moderação de conteúdo de IA, avaliando a censura/edição de conteúdos sensíveis em imagens e comparando versões do modelo (ex.: Grok 3 vs Grok 4.1) para identificar falhas e melhorias nas salvaguardas.
Prompt de Avaliação Robusta de Modelos de IA
Prompt que orienta a criar um conjunto completo de tarefas desafiadoras, métricas, exemplos e salvaguardas para avaliar a robustez de modelos de IA, incluindo um plano de implementação e recomendação de ferramenta.
Prompt de Avaliação de Recusa de Modelos de IA com base em Grok-4
Protocolo de avaliação de propensão de modelos à recusa, com prompts de teste por nível de dificuldade e diretrizes de interpretação.
Censorship Logic: avaliação ética e robustez de filtros em modelos de IA
Prompt para analisar, testar e aprimorar mecanismos de moderação de conteúdo em IA, com foco em NSFW, enfatizando ética, avaliação de robustez e políticas de moderação (sem instruções para burlar filtros).