📈 O Que é Dado Contínuo
Dados contínuos podem assumir qualquer valor dentro de um intervalo. São mensuráveis, fracionáveis e ordenáveis de forma matemática. A distância entre dois valores tem significado real — R$100 é exatamente o dobro de R$50.
📈 Exemplos de Dados Contínuos
Financeiro
- • Receita: R$1.234,56
- • Custo unitário: R$0,37
- • Margem: 23,7%
- • CAC: R$47,80
Operacional
- • Horas trabalhadas: 8,5h
- • Kilowatts consumidos: 234,7 kWh
- • Utilização de CPU: 73,4%
- • Temperatura: 37,2°C
Marketing
- • Tempo no site: 4m 32s
- • Taxa de conversão: 2,3%
- • LTV: R$892,40
- • ROAS: 3,7x
💡 Operações Válidas em Dados Contínuos
Para dados contínuos, operações estatísticas fazem sentido matemático pleno:
🏷️ O Que é Dado Discreto
Dados discretos têm valores distintos e contáveis. Não existe "meio status" ou "1,5 países". A distância entre valores pode não ter significado matemático — "Brasil" e "EUA" não têm ordenação numérica natural.
🏷️ Exemplos de Dados Discretos
Status / Estado
- • Status do pedido: pendente, enviado, entregue, cancelado
- • Status do cliente: ativo, inativo, suspenso
- • Status da lead: qualificada, não-qualificada
Categorias
- • País: Brasil, EUA, Alemanha...
- • Categoria de produto: eletrodoméstico, móvel, roupa
- • Canal de aquisição: orgânico, pago, referral
Ciclos / Estágios
- • Ciclo de vida: lead → prospect → cliente → churned
- • Etapa do funil: topo, meio, fundo
- • Nível de plano: free, starter, pro, enterprise
💡 Operações Válidas em Dados Discretos
Para dados discretos, as operações são diferentes — e operar como se fossem contínuos gera resultados sem sentido:
🔬 Por Que a Distinção Muda a Auditoria
A distinção discreto/contínuo não é só teórica — ela define o checklist de auditoria que você vai executar e os problemas que vai procurar. Auditar um dado contínuo como discreto (e vice-versa) faz você perder os problemas reais.
📈 Auditoria de Dados Contínuos
-
→
Outliers extremos
Receita de R$999.999.999? Peso de -5kg? Valores impossíveis ou suspeitos.
-
→
Zeros suspeitos
Horas trabalhadas = 0 em dias úteis. Receita = 0 em clientes ativos.
-
→
Negativos impossíveis
Quantidade vendida = -3. Pode ser devolução ou pode ser erro.
-
→
Distribuição
Bimodal quando deveria ser normal? Pico suspeito em número redondo?
🏷️ Auditoria de Dados Discretos
-
→
Valores inválidos
Status = "atvo" (typo). País = "Brasil" e "Brazil" e "BR" — são o mesmo?
-
→
Padronização
Maiúsculas/minúsculas mistas. Espaços extras no início/fim.
-
→
Valores esperados vs observados
Se status só deveria ter 4 valores, por que tem 7 distintos?
-
→
Valores NULL vs "não definido"
NULL é diferente de "N/A" é diferente de "" (string vazia) é diferente de "desconhecido".
⚠️ O Erro de Tratar Discreto como Contínuo
Calcular a "média de status de pedidos" em um banco onde status é codificado como inteiro (1=pendente, 2=enviado, 3=entregue) gera um número (ex: 2,3) que não tem nenhum significado. Mas o sistema não avisa — entrega 2,3 com confiança.
➗ Operações Válidas em Cada Tipo
A pergunta não é "o que eu posso calcular?" — é "o que faz sentido calcular?" Qualquer banco de dados vai executar AVG(pais_codigo) sem erro. Mas o resultado não significa nada.
Guia de Operações por Tipo
| Operação | Contínuo | Discreto | Observação |
|---|---|---|---|
| Média (AVG) | ✓ | ✗ | Média de categorias não tem significado |
| Mediana | ✓ | ~ | Só se há ordenação natural (ex: níveis) |
| Min / Max | ✓ | ~ | Só se há ordenação (ex: datas, níveis) |
| Soma (SUM) | ✓ | ✗ | Soma de categorias não faz sentido |
| Desvio Padrão | ✓ | ✗ | Não há variância significativa em categorias |
| Count / Frequência | ✓ | ✓ | Funciona para ambos |
| Top-N valores | ~ | ✓ | Principal para discretos |
| Histograma / Distribuição | ✓ | ✗ | Para discreto use bar chart de frequência |
💡 A Pergunta Guia
Antes de qualquer operação: "Essa operação matemática faz sentido nesse dado?" Se você não consegue explicar o significado do resultado em termos de negócio, provavelmente é o tipo errado de operação.
❓ Casos Ambíguos
Nem todo dado é obviamente contínuo ou discreto. Casos ambíguos exigem uma decisão explícita sobre como tratar — e essa decisão precisa ser documentada e consistente em todo o sistema.
💡 O Teste da Faca
"Consigo cortar esse valor com uma faca?"
- → Receita de R$100: sim, existe R$50, R$37,80, qualquer valor. Contínuo.
- → País de origem: não, não existe "meio Brasil". Discreto.
- → Quantidade de pedidos: não, não existe 2,5 pedidos. Discreto.
- → Temperatura: sim, existe 36,7°C, 36,8°C, qualquer valor. Contínuo.
Idade do Cliente
Biologicamente: contínua — existe 25,7 anos.
No dataset: geralmente armazenada como inteiro — 25, 26, 27...
Decisão: Tratar como contínua para análises de distribuição (média de idade, percentis). Tratar como discreta para segmentação (faixa etária: 20-30, 30-40...).
Tenure em Dias
Tecnicamente: discreto — são dias inteiros.
Na análise: se o range é 0-3650 (10 anos), opera melhor como contínuo para médias, percentis e comparações.
Decisão: Contínuo para análises. Discreto em buckets (0-90 dias, 91-365, 366+) para segmentação.
Nota de Satisfação (NPS, CSAT)
Escala: 1-10 com valores inteiros.
Debate: É possível calcular média? Existe diferença constante entre 7 e 8?
Decisão: Na prática, tratada como contínua para média (NPS usa isso). Mas análise de distribuição (quantos 9-10 vs quantos 1-6) pode ser mais informativa.
Número de Transações
Tecnicamente: discreto — não existe 2,5 transações.
Na análise: média de transações por cliente (3,7 transações/mês) é completamente válida e útil.
Decisão: Discreto para a coluna bruta. Contínuo para métricas derivadas (média, mediana por período).
⚠️ A Regra dos Casos Ambíguos
Quando encontrar um caso ambíguo, não decida individualmente — documente a decisão e aplique consistentemente em todo o sistema. Se auditoria usa como contínuo e o agente usa como discreto, as análises serão incomparáveis.
🤖 Como Claude Code Trata Cada Tipo
Claude Code (e agentes de IA em geral) detectam o tipo de dado pela distribuição de valores e pelo tipo em Python/SQL. Mas a classificação automática pode errar — e quando erra, erra silenciosamente. Entender isso permite que você guie o agente corretamente.
🤖 Detecção Automática de Tipo
Gera: média, mediana, desvio padrão, histograma
Gera: value_counts(), top-N, frequência relativa
Pode tratar código de status codificado como número como dado contínuo
💡 Como Guiar o Agente Corretamente
A forma mais eficiente é fornecer metadados de schema. Quanto mais contexto, menos erro:
✓ O que FAZER para guiar o agente
- ✓ Documentar tipo de cada coluna no schema
- ✓ Listar valores válidos para discretas
- ✓ Especificar unidade e range para contínuas
- ✓ Incluir metadados no snippet da tabela
✗ O que NÃO fazer
- ✗ Assumir que o agente vai classificar corretamente
- ✗ Usar inteiros para codificar categorias sem documentar
- ✗ Ignorar erros de classificação em análises exploratórias
- ✗ Deixar casos ambíguos sem decisão documentada
✅ Resumo do Módulo 1.4
Você concluiu a Trilha 1!
Você tem agora a fundação conceitual de Engenharia de Dados com IA. A próxima trilha mergulha em dicas técnicas práticas — como implementar o que aprendeu aqui.