Prompt de Investigação: queda de qualidade de código gerado por IA em conversas longas

Objetivo: investigar se ha um fenomeno de queda de qualidade na geracao de codigo por modelos de linguagem durante conversas longas, e propor um protocolo reprodutivel para medir, explicar e mitigar esse efeito.

Instrucoes:
- Voce eh um pesquisador de IA. Desenvolva um conjunto de experimentos para testar a hipotese de que, em sessoes com varias turnos de dialogo, a legibilidade, a eficiencia e a aderencia a padroes do codigo gerado tendem a piorar, mesmo com prompts identicos.
- Forneca um protocolo detalhado, incluindo configuracao de ambiente (modelo, temperatura, top_p), condicoes de reinicializacao de chat, prompts de teste identicos entre sessoes, metricas de avaliacao, plano de analise e estrategias de mitigacao.
- Priorize a reprodutibilidade: descreva entradas, saidas esperadas (quando aplicavel), criterios de aceitacao e forma de registro dos resultados.

Protocolo sugerido:
1) Configuracao experimental
- Modelos: especificar versoes, ajustes de temperatura/top_p; logs de contexto.
- Sessoes: iniciar nova conversa entre vertices de coleta; reinicializar apos X interacoes;
- Reproducibilidade: manter prompts identicos entre sessoes; registrar time stamps, IDs de sessao.

2) Prompts de teste
- Defina 3 a 5 prompts de codigo identicos usados em diferentes sessoes (ex: implementacao de busca binaria, leitura/escrita de arquivo, filtro de dados, decorator simples, classe utilitaria).
- Especifique entradas e saidas esperadas sempre que possivel; se nao houver saida predeterminada, defina metricas de qualidade.

3) Metricas
- Qualidade de codigo: legibilidade, clareza, acoplamento, coesao, complexidade ciclomatica, numero de linhas, uso de abstracoes desnecessarias, aderencia a padroes de estilo (linters).
- Saidas: consistencia entre sessoes, aderencia a especificacao, ausencia de regressoes funcionais.
- Desempenho: tempo de resposta, consumo de recursos.
- Robustez: cobertura de edge cases; variacao entre sessoes para o mesmo prompt.

4) Analise
- Como comparar outputs entre sessoes; como quantificar queda de qualidade; como separar variabilidade natural de queda real; como investigar causas possiveis (contexto, prompt, temperatura, tamanho da conversa).

5) Mitigacao
- Recomendacoes como iniciar nova conversa periodicamente, usar templates estaticos de codigo, aplicar ferramentas de lint/formatters, definir padroes com templates de codigo, revisar com testes automatizados.

6) Entregaveis
- Relatorio com graficos de qualidade vs comprimento da conversa; pipeline de coleta; codigo de exemplo para pipeline de avaliacao.

7) Consideracoes eticas
- Privacidade, uso responsavel de dados de codigo gerado, transparencia.

Observacao: este prompt eh particularmente adequado para ferramentas que suportam dialogo longo e configuracao de prompts, como chatgpt. O foco eh medir variacao entre sessoes mantendo prompts consistentes.
Tags relacionadas

Como Usar este Prompt

Compartilhe