Módulo 1.2 — O Stack Completo

📁 Camada 1: Fontes Brutas

Todo sistema de dados começa aqui: nas fontes brutas. É o Wild West dos dados corporativos — nenhuma padronização, nenhuma garantia de qualidade, nenhuma consistência. Mas é o que existe, então é o que você trabalha.

📁 O que são Fontes Brutas

• Excel e CSV — planilhas com macros, fórmulas que viram texto, formatação que vira dado
• PDFs de relatórios — dados que existem "para ver" mas não "para processar"
• Bancos legados — Oracle, SAP, sistemas de 20 anos atrás com schemas não documentados
• APIs de terceiros — formatos que mudam sem aviso, limites de rate, autenticações expiradas
• Dumps de banco — exportações de produção que incluem dados de teste, dados deletados logicamente, registros inconsistentes

⚠️ A Realidade das Empresas

Empresas corporativas têm impérios de Excel. Planilhas que foram criadas em 2008, passadas de pessoa para pessoa, com abas que ninguém sabe o que fazem, fórmulas circulares e dados que só o gerente que saiu em 2019 entendia. Isso é o ponto de partida real.

🔧 Camada 2: Engenharia de Dados

Esta é a camada central do sistema. Tudo que acontece aqui determina a qualidade de tudo que acontece acima. Um pipeline bem construído nesta camada torna todas as camadas superiores previsíveis e confiáveis.

💡 A Metáfora da Estrada

Esta é a camada que decide se o seu agente vai ser um Ferrari rodando numa estrada asfaltada ou um Rolls Royce num campo de terra. O carro (modelo de IA) é menos importante que a estrada (pipeline de dados).

O pipeline da Camada 2:

Auditar

Antes de tocar nos dados, entender o que existe: shape, dtypes, nulos, duplicatas, valores únicos.

Limpar

Remover duplicatas, tratar nulos com decisão explícita, corrigir tipos de dado, padronizar formatos.

Normalizar

Padronizar nomenclaturas, enriquecer com dados de referência, criar chaves consistentes entre tabelas.

Modelar

Estruturar em tabelas fato e dimensão, criar relacionamentos, otimizar para os padrões de consulta esperados.

✓ Camada 2 bem feita

→ Cada coluna com tipo correto e documentado
→ Nulos com significado explícito
→ Sem duplicatas não-intencionais
→ Nomenclaturas consistentes entre tabelas

✗ Camada 2 mal feita

→ Colunas com tipos object onde deveria ser float
→ Nulos sem tratamento — agente adivinha
→ Mesmo cliente com 3 IDs diferentes
→ "BR" em uma tabela, "Brazil" em outra

🗄️ Camada 3: Resumos + Warehousing

Após limpar os dados, você precisa armazená-los de forma que possam ser consultados eficientemente. Você não joga 10 milhões de linhas no contexto de um LLM. Você escreve SQL para buscar exatamente o que precisa.

🗄️ As Opções de Warehouse

DuckDB — Para a Maioria dos Projetos

Leve, rápido, roda localmente, suporta SQL completo, excelente para análise de arquivos parquet/CSV. Não precisa de servidor. Resolve 80% dos casos de uso sem infraestrutura.

Supabase — PostgreSQL Gerenciado

PostgreSQL com API REST automática, auth integrado, realtime. Perfeito quando você precisa de acesso multi-usuário ou integração com aplicações web.

PostgreSQL — Produção Robusta

Para projetos em produção com volume alto, múltiplos usuários simultâneos e requisitos de disponibilidade. Mais setup, mais confiabilidade.

💡 Por que Resumos Pré-calculados

Em vez de deixar o agente calcular métricas toda vez que perguntado, você pré-calcula e armazena. Um agente que consulta uma tabela resumo_vendas_mensais é 10x mais rápido e barato que um agente que varre 10 milhões de linhas de transações.

Materialize o que é consultado frequentemente. Deixe as queries dinâmicas para o que realmente precisa de dinamismo.

📊 Impacto nos Custos de Token

Sem resumos: Agente precisa processar 1M+ linhas para responder "qual foi a receita de março?" — centenas de tokens de contexto
Com resumos: Agente consulta uma linha na tabela resumo_mensal — dezenas de tokens
Diferença: 10-100x menos tokens por query em perguntas agregadas comuns

⚙️ Camada 4: Skills, Regras e Orquestração

Esta é a camada onde o sistema deixa de ser genérico e se torna especializado. É o sistema operacional dos agentes — define o que eles podem fazer, como devem se comportar, e o que acontece de forma determinística.

⚙️ Os Três Componentes do Agentic OS

Skills — Comportamento Sugerido

Instruções ao LLM sobre como executar tarefas específicas. O LLM pode adaptar com base no contexto. São sugestões, não obrigações.

Exemplo: "Quando o usuário pedir análise de vendas, comece verificando o período, depois agrupe por região."

Regras — Comportamento Persistente

Instruções que sempre se aplicam, independente do contexto. Moldam o comportamento base do agente em toda interação.

Exemplo: "Sempre confirme o período de análise antes de executar queries. Nunca assuma o mês atual."

Hooks — Comportamento Garantido

Código que roda independente do LLM. Determinístico, testável, não sujeito à variabilidade do modelo.

Exemplo: Validação de schema nos dados antes de qualquer análise. Logging de todas as queries executadas.

💡 A Distinção Crítica

Skills e Regras dependem do LLM para serem respeitadas — o modelo pode ignorá-las em situações de alta pressão de contexto. Hooks são código real que roda antes, durante ou depois do LLM. Para comportamentos críticos de negócio, use Hooks, não Skills.

✓ Use Skills/Regras para

→ Estilo e formato de respostas
→ Fluxo preferido de análise
→ Tom e linguagem do agente
→ Prioridades de contexto

✓ Use Hooks para

→ Validação de dados de entrada
→ Logging e auditoria
→ Sanitização de saída
→ Limites de acesso a dados

🤖 Camada 5: Agentes, Briefs e Decisões

A camada visível. É o que todo mundo quer construir primeiro — e por isso é onde a maioria dos projetos falha. Quando as camadas 1-4 estão bem construídas, a camada 5 se torna quase trivial.

🤖 O que compõe a Camada 5

•
Briefs — documentos estruturados que combinam dados resumidos + contexto de negócio + instruções específicas. São o "pacote de informação" que o agente recebe.
•
Agentes — LLMs com acesso a ferramentas (SQL, APIs, calculadoras) que processam os briefs e executam análises.
•
Decisões — o output do sistema: relatórios, alertas, recomendações, ações automatizadas.

⚠️ A Armadilha da Camada 5

90% do conteúdo de YouTube sobre IA foca nessa camada. É a menos importante quando as outras estão quebradas. Um agente perfeito sobre dados ruins entrega resultados errados perfeitamente formatados — com markdown bonito, gráficos elaborados, e conclusões completamente erradas.

💡 A Regra de Ouro

Quando as camadas 1-4 estão sólidas, a camada 5 é consequência, não objetivo. O agente "simplesmente funciona" porque tem dados limpos, warehouse bem estruturado, e orquestração clara. Invista na base.

📺 Por que 90% dos YouTubers Só Falam da Camada 5

Não é acidente — é estrutural. A camada 5 é visual, impressionante e fácil de demonstrar em 10 minutos de vídeo. As camadas 1-4 são invisíveis, trabalhosas, e não geram views. Mas são onde o valor real é criado.

🎬 Demo vs Produção

Em demo: dados são CSV limpos preparados especificamente para o vídeo. O agente "funciona perfeitamente".

Em produção: dados são exports de SAP com codificação errada, campos misturados e datas em formato europeu. O agente falha.

A diferença: as camadas 1-4. Que o YouTuber não mostrou porque o vídeo teria 8 horas e zero views.

✓ O que FAZER

✓ Construir na ordem correta: 1 → 2 → 3 → 4 → 5
✓ Documentar o pipeline em cada camada
✓ Testar com dados de produção reais
✓ Monitorar qualidade de dados continuamente

✗ O que NÃO fazer

✗ Pular para agentes antes de ter DE sólida
✗ Depender de memória humana para o pipeline
✗ Testar apenas com dados de demonstração
✗ Assumir que o agente vai "descobrir" os problemas de dados

💡 O Que Este Curso Faz Diferente

Este curso começa pelas camadas que ninguém quer mostrar — porque são essas que determinam se o seu projeto vai funcionar em produção ou só em demo. Você vai saber construir todas as 5 camadas, na ordem certa, com as ferramentas certas.

✅ Resumo do Módulo 1.2

✓

Camada 1 (Fontes Brutas) — o Wild West dos dados: Excel, CSV, PDFs, bancos legados

✓

Camada 2 (Engenharia de Dados) — auditar, limpar, normalizar, modelar. O coração do sistema

✓

Camada 3 (Warehousing) — DuckDB para maioria, Supabase/PostgreSQL para produção

✓

Camada 4 (Agentic OS) — Skills (sugestão), Regras (persistente), Hooks (garantido)

✓

Camada 5 (Agentes) — consequência das camadas anteriores, não o ponto de partida

✓

Ordem correta: 1 → 2 → 3 → 4 → 5 — construir de cima pra baixo é o erro mais comum

Próximo Módulo:

1.3 — A Pirâmide de Dados. Vamos detalhar as 4 camadas que transformam CSV bagunçado em decisão de negócio.

← Módulo Anterior Próximo Módulo →