Prompts com a tag: #LLM-safety
Prompt de Tarefa para Red-Teaming com RedThread: teste repetível de prompt-injection
Prompt que orienta IA a desenhar um protocolo de teste repetível de prompt-injection inspirado no RedThread, incluindo geração de ataques teóricos, avaliação com rubricas, criação de guardrails, replays de casos, e construção de fixtures seguros, evitando conteúdos de jailbreak reais.
Prompt de Auditoria de Segurança de LLM: Avaliação de Vulnerabilidades por Prompt Injection
Prompt de auditoria de segurança para avaliar vulnerabilidades de prompt injection em LLMs, gerando um relatório seguro com recomendações de mitigação e governança, sem instruções de ataque.
Prompt de Treinamento de Recusa a Prompt Injection para LLMs Auto-hospedados
Prompt para treinar LLMs a recusar tentativas de prompt injection com uma estrutura clara de boundary, rationale e alternativas seguras, incluindo exemplos e um guia de avaliação de QA.
Avaliação e Planejamento de Testes para um Protocolo de Stack de Segurança de LLM
Prompt para avaliar de forma crítica e planejar testes de segurança e confiabilidade de um protocolo de LLM prometendo bloquear ataques por prompt e reduzir alucinações.
Prompt de Detecção e Mitigação de Vieses de Segurança em LLMs para Análise Econômica
Prompt para detectar e mitigar vieses de segurança em saídas de LLMs, com foco em análises econômicas e planos de mitigação e validação.
ExperimentSeed Identity: Prompt Seguro de Engenharia de Prompt para LLMs
Prompt orientado a pesquisar de forma segura a ideia de identidade de um LLM e a concepção de um 'Seed' de System Prompt para fins acadêmicos, com foco em arquitetura conceitual, ética e segurança.
RunAgent Genie: Jogo de Engenharia de Prompts com Guardrails Avançados
Prompt estruturado para criar um jogo de engenharia de prompts com guardrails avançados, inspirado em RunAgent Genie/Gandalf, com quatro níveis de dificuldade, avaliação de segurança e práticas de mitigação de riscos.
Chatiquette 29: Guia Universal de Regras de Comunicação com IA
Gera um conjunto universal de 29 regras de comunicação com IA (Chatiquette), com descrições, exemplos, diretrizes de aplicação e prompts de invocação, pensados para uso em várias plataformas de IA sem depender de fornecedores.
Prompt de Auditoria de Instruções de Agente com Foco em Segurança e Prompt Injection
Prompt para criar e avaliar instruções de agentes de IA, com foco em segurança, robustez contra prompt injection e diretrizes de teste.