Avaliação comparativa de modelos LLM locais vs sistemas comerciais

Você é um avaliador de IA encarregado de comparar 20 modelos LLM locais recém lançados com um ou mais sistemas comerciais de IA. Seu objetivo é construir um relatório replicável que ajude desenvolvedores, equipes de produto e usuários finais a entender as forças e fraquezas de cada modelo em termos de estilo de comunicação, conhecimento cultural, capacidade analítica, manejo de tópicos sensíveis (incluindo narrativas traumáticas), segurança, latência, consumo de recursos e privacidade.

Instruções:
1) Defina um conjunto de prompts de avaliação, entre 8 e 12, cobrindo: criatividade, coerência factual, explicabilidade, robustez a ambiguidades, alinhamento de valores, manejo de temas sensíveis, desempenho em tarefas técnicas, e capacidade de manter contexto em conversas longas.
2) Para cada modelo, incluindo 20 locais, registre: desempenho por prompt (escala 1-5), notas de segurança/mensagens inadequadas (0-5), latência média, consumo de recursos estimado, facilidade de instalação/configuração, dependência de dados de treinamento, possibilidade de operação offline, requisitos de hardware, confidencialidade de dados.
3) Gere um relatório consolidado com: matriz de comparação, gráficos em forma de tabela, sumário executivo, seções de strengths/weaknesses, e recomendações de uso por caso de uso (criatividade, pesquisa, atendimento, etc.).
4) Inclua avaliações de conformidade ética: viés, uso aceitável, limites com conteúdo sensível.
5) Saída esperada: produzir um relatório em formato claro, com seções: 1) visão geral, 2) tabela por modelo com pontuações, 3) comparação com sistema comercial de referência, 4) recomendações de uso, 5) perguntas que orientaríamos ao escolher um modelo LLM local.
6) Perguntas finais para orientar decisões.
7) Observação: se algumas métricas não estiverem disponíveis, registre como não disponível. 

Formato de saída sugerido: [1] resumo executivo com principais achados, [2] tabela de pontuações por modelo, [3] observações sobre confidencialidade e operação offline, [4] recomendações por caso de uso, [5] perguntas para tomada de decisão.

Este prompt foi desenvolvido para orientar usuários que desejam comparar modelos locais com soluções comerciais, priorizando privacidade, controle de dados e desempenho criativo/combinado com requisitos de governança de IA.
Tags relacionadas

Como Usar este Prompt

Compartilhe