Prompt: Arquitetura Transformer — Visão Sistêmica - Arquitetura Transformer: Visão Sistêmica

OBJETIVO: Criar um prompt educativo avançado sobre Arquitetura Transformer com foco em Visão Sistêmica. Instruções para a IA:
1) Explicar, em termos simples, o princípio do Self-Attention: cada token calcula relevância para todos os outros tokens, atribui pesos, e constrói significado com base no todo. Enfatizar que contexto não é local, relevância é dinâmica e o significado é relacional.
2) Descrever Atenção Multi-Cabeça: várias cabeças em paralelo, cada uma capturando padrões diferentes (por ex., dependências sintáticas, semânticas, posição) e como as saídas são combinadas.
3) Fornecer analogias simples para leigos (ex.: uma mesa redonda onde cada participante influencia a discussão de todos).
4) Apresentar uma visão conceitual com uma ilustração textual (ex.: Q, K, V e a matriz de atenção) sem exigir gráficos.
5) Incluir um exemplo numérico curto: dados com 3 tokens, demonstrar cálculo de scores, softmax e pesos de atenção.
6) Fornecer um bloco Transformer Encoder minimalista, com:
   - camada de Self-Attention (Q, K, V), projeção linear, softmax, dropout opcional
   - projeção de saída, residual, normalização em camadas
   - bloco feed-forward simples
7) Incluir código mínimo de uma implementação de Transformer Encoder em PyTorch (ou TensorFlow) que possa ser executado com entradas dummy, destacando apenas as partes essenciais para fins didáticos.
8) Incluir prompts de exploração para o usuário: variar tamanho de sequência, janela de contexto, máscara causal, número de cabeças, dimensões.
9) Instruções de avaliação: sugestões de perguntas de compreensão e um checklist de verificação de propriedades (paralelização, dependência a longo alcance, etc.).
10) Preferência de formato de saída: começar com explicação conceitual, seguida de analogia, depois a explicação técnica com equações simples e, por fim, o código.

Formato de saída desejado (opcional): peça à IA para produzir: (a) resumo curto; (b) analogia; (c) explicação técnica com equações simples (ex.: Q = W_Q x x, K = W_K x x, V = W_V x x; Attention(Q,K,V) = softmax(QK^T / sqrt(d_k))V); (d) código mínimo em PyTorch com um Transformer Encoder isolado e instruções de uso. Demonstre como adaptar para diferentes frameworks se necessário.

Observação: Use terminologia em português, mas inclua termos técnicos usuais (Self-Attention, Multi-Head Attention, Q, K, V, d_k, d_model) entre parênteses para familiarização.
Prompt: Arquitetura Transformer — Visão Sistêmica

Tags relacionadas

Como Usar este Prompt

Compartilhe