Verificando acesso...

MÓDULO 1.2

🏗️ O Stack Completo — As 5 Camadas do Agentic OS

A arquitetura que os YouTubers não mostram: as 5 camadas do sistema que realmente funciona em produção. Entenda onde cada peça se encaixa antes de construir qualquer coisa.

6
Tópicos
35
Minutos
Iniciante
Nível
Arquitetura
Tipo
1

📁 Camada 1: Fontes Brutas

Todo sistema de dados começa aqui: nas fontes brutas. É o Wild West dos dados corporativos — nenhuma padronização, nenhuma garantia de qualidade, nenhuma consistência. Mas é o que existe, então é o que você trabalha.

Fontes brutas de dados

📁 O que são Fontes Brutas

  • Excel e CSV — planilhas com macros, fórmulas que viram texto, formatação que vira dado
  • PDFs de relatórios — dados que existem "para ver" mas não "para processar"
  • Bancos legados — Oracle, SAP, sistemas de 20 anos atrás com schemas não documentados
  • APIs de terceiros — formatos que mudam sem aviso, limites de rate, autenticações expiradas
  • Dumps de banco — exportações de produção que incluem dados de teste, dados deletados logicamente, registros inconsistentes

⚠️ A Realidade das Empresas

Empresas corporativas têm impérios de Excel. Planilhas que foram criadas em 2008, passadas de pessoa para pessoa, com abas que ninguém sabe o que fazem, fórmulas circulares e dados que só o gerente que saiu em 2019 entendia. Isso é o ponto de partida real.

2

🔧 Camada 2: Engenharia de Dados

Esta é a camada central do sistema. Tudo que acontece aqui determina a qualidade de tudo que acontece acima. Um pipeline bem construído nesta camada torna todas as camadas superiores previsíveis e confiáveis.

💡 A Metáfora da Estrada

Esta é a camada que decide se o seu agente vai ser um Ferrari rodando numa estrada asfaltada ou um Rolls Royce num campo de terra. O carro (modelo de IA) é menos importante que a estrada (pipeline de dados).

O pipeline da Camada 2:

1

Auditar

Antes de tocar nos dados, entender o que existe: shape, dtypes, nulos, duplicatas, valores únicos.

2

Limpar

Remover duplicatas, tratar nulos com decisão explícita, corrigir tipos de dado, padronizar formatos.

3

Normalizar

Padronizar nomenclaturas, enriquecer com dados de referência, criar chaves consistentes entre tabelas.

4

Modelar

Estruturar em tabelas fato e dimensão, criar relacionamentos, otimizar para os padrões de consulta esperados.

✓ Camada 2 bem feita

  • → Cada coluna com tipo correto e documentado
  • → Nulos com significado explícito
  • → Sem duplicatas não-intencionais
  • → Nomenclaturas consistentes entre tabelas

✗ Camada 2 mal feita

  • → Colunas com tipos object onde deveria ser float
  • → Nulos sem tratamento — agente adivinha
  • → Mesmo cliente com 3 IDs diferentes
  • → "BR" em uma tabela, "Brazil" em outra
3

🗄️ Camada 3: Resumos + Warehousing

Após limpar os dados, você precisa armazená-los de forma que possam ser consultados eficientemente. Você não joga 10 milhões de linhas no contexto de um LLM. Você escreve SQL para buscar exatamente o que precisa.

🗄️ As Opções de Warehouse

DuckDB — Para a Maioria dos Projetos

Leve, rápido, roda localmente, suporta SQL completo, excelente para análise de arquivos parquet/CSV. Não precisa de servidor. Resolve 80% dos casos de uso sem infraestrutura.

Supabase — PostgreSQL Gerenciado

PostgreSQL com API REST automática, auth integrado, realtime. Perfeito quando você precisa de acesso multi-usuário ou integração com aplicações web.

PostgreSQL — Produção Robusta

Para projetos em produção com volume alto, múltiplos usuários simultâneos e requisitos de disponibilidade. Mais setup, mais confiabilidade.

💡 Por que Resumos Pré-calculados

Em vez de deixar o agente calcular métricas toda vez que perguntado, você pré-calcula e armazena. Um agente que consulta uma tabela resumo_vendas_mensais é 10x mais rápido e barato que um agente que varre 10 milhões de linhas de transações.

Materialize o que é consultado frequentemente. Deixe as queries dinâmicas para o que realmente precisa de dinamismo.

📊 Impacto nos Custos de Token

  • Sem resumos: Agente precisa processar 1M+ linhas para responder "qual foi a receita de março?" — centenas de tokens de contexto
  • Com resumos: Agente consulta uma linha na tabela resumo_mensal — dezenas de tokens
  • Diferença: 10-100x menos tokens por query em perguntas agregadas comuns
4

⚙️ Camada 4: Skills, Regras e Orquestração

Esta é a camada onde o sistema deixa de ser genérico e se torna especializado. É o sistema operacional dos agentes — define o que eles podem fazer, como devem se comportar, e o que acontece de forma determinística.

⚙️ Os Três Componentes do Agentic OS

Skills — Comportamento Sugerido

Instruções ao LLM sobre como executar tarefas específicas. O LLM pode adaptar com base no contexto. São sugestões, não obrigações.

Exemplo: "Quando o usuário pedir análise de vendas, comece verificando o período, depois agrupe por região."

Regras — Comportamento Persistente

Instruções que sempre se aplicam, independente do contexto. Moldam o comportamento base do agente em toda interação.

Exemplo: "Sempre confirme o período de análise antes de executar queries. Nunca assuma o mês atual."

Hooks — Comportamento Garantido

Código que roda independente do LLM. Determinístico, testável, não sujeito à variabilidade do modelo.

Exemplo: Validação de schema nos dados antes de qualquer análise. Logging de todas as queries executadas.

💡 A Distinção Crítica

Skills e Regras dependem do LLM para serem respeitadas — o modelo pode ignorá-las em situações de alta pressão de contexto. Hooks são código real que roda antes, durante ou depois do LLM. Para comportamentos críticos de negócio, use Hooks, não Skills.

✓ Use Skills/Regras para

  • → Estilo e formato de respostas
  • → Fluxo preferido de análise
  • → Tom e linguagem do agente
  • → Prioridades de contexto

✓ Use Hooks para

  • → Validação de dados de entrada
  • → Logging e auditoria
  • → Sanitização de saída
  • → Limites de acesso a dados
5

🤖 Camada 5: Agentes, Briefs e Decisões

A camada visível. É o que todo mundo quer construir primeiro — e por isso é onde a maioria dos projetos falha. Quando as camadas 1-4 estão bem construídas, a camada 5 se torna quase trivial.

🤖 O que compõe a Camada 5

  • Briefs — documentos estruturados que combinam dados resumidos + contexto de negócio + instruções específicas. São o "pacote de informação" que o agente recebe.
  • Agentes — LLMs com acesso a ferramentas (SQL, APIs, calculadoras) que processam os briefs e executam análises.
  • Decisões — o output do sistema: relatórios, alertas, recomendações, ações automatizadas.

⚠️ A Armadilha da Camada 5

90% do conteúdo de YouTube sobre IA foca nessa camada. É a menos importante quando as outras estão quebradas. Um agente perfeito sobre dados ruins entrega resultados errados perfeitamente formatados — com markdown bonito, gráficos elaborados, e conclusões completamente erradas.

💡 A Regra de Ouro

Quando as camadas 1-4 estão sólidas, a camada 5 é consequência, não objetivo. O agente "simplesmente funciona" porque tem dados limpos, warehouse bem estruturado, e orquestração clara. Invista na base.

6

📺 Por que 90% dos YouTubers Só Falam da Camada 5

Não é acidente — é estrutural. A camada 5 é visual, impressionante e fácil de demonstrar em 10 minutos de vídeo. As camadas 1-4 são invisíveis, trabalhosas, e não geram views. Mas são onde o valor real é criado.

🎬 Demo vs Produção

Em demo: dados são CSV limpos preparados especificamente para o vídeo. O agente "funciona perfeitamente".

Em produção: dados são exports de SAP com codificação errada, campos misturados e datas em formato europeu. O agente falha.

A diferença: as camadas 1-4. Que o YouTuber não mostrou porque o vídeo teria 8 horas e zero views.

✓ O que FAZER

  • Construir na ordem correta: 1 → 2 → 3 → 4 → 5
  • Documentar o pipeline em cada camada
  • Testar com dados de produção reais
  • Monitorar qualidade de dados continuamente

✗ O que NÃO fazer

  • Pular para agentes antes de ter DE sólida
  • Depender de memória humana para o pipeline
  • Testar apenas com dados de demonstração
  • Assumir que o agente vai "descobrir" os problemas de dados

💡 O Que Este Curso Faz Diferente

Este curso começa pelas camadas que ninguém quer mostrar — porque são essas que determinam se o seu projeto vai funcionar em produção ou só em demo. Você vai saber construir todas as 5 camadas, na ordem certa, com as ferramentas certas.

Resumo do Módulo 1.2

Camada 1 (Fontes Brutas) — o Wild West dos dados: Excel, CSV, PDFs, bancos legados
Camada 2 (Engenharia de Dados) — auditar, limpar, normalizar, modelar. O coração do sistema
Camada 3 (Warehousing) — DuckDB para maioria, Supabase/PostgreSQL para produção
Camada 4 (Agentic OS) — Skills (sugestão), Regras (persistente), Hooks (garantido)
Camada 5 (Agentes) — consequência das camadas anteriores, não o ponto de partida
Ordem correta: 1 → 2 → 3 → 4 → 5 — construir de cima pra baixo é o erro mais comum

Próximo Módulo:

1.3 — A Pirâmide de Dados. Vamos detalhar as 4 camadas que transformam CSV bagunçado em decisão de negócio.