Verificando acesso...

MÓDULO 1.4

📊 Discreto vs Contínuo — As Lentes de Análise

A distinção que muda o tipo de auditoria, o tipo de resumo, e o tipo de pergunta que você consegue responder. Uma classificação simples com impacto profundo em tudo que vem depois.

6
Tópicos
30
Minutos
Iniciante
Nível
Conceitual
Tipo
1

📈 O Que é Dado Contínuo

Dados contínuos podem assumir qualquer valor dentro de um intervalo. São mensuráveis, fracionáveis e ordenáveis de forma matemática. A distância entre dois valores tem significado real — R$100 é exatamente o dobro de R$50.

Dados contínuos vs discretos

📈 Exemplos de Dados Contínuos

Financeiro

  • • Receita: R$1.234,56
  • • Custo unitário: R$0,37
  • • Margem: 23,7%
  • • CAC: R$47,80

Operacional

  • • Horas trabalhadas: 8,5h
  • • Kilowatts consumidos: 234,7 kWh
  • • Utilização de CPU: 73,4%
  • • Temperatura: 37,2°C

Marketing

  • • Tempo no site: 4m 32s
  • • Taxa de conversão: 2,3%
  • • LTV: R$892,40
  • • ROAS: 3,7x

💡 Operações Válidas em Dados Contínuos

Para dados contínuos, operações estatísticas fazem sentido matemático pleno:

Média
tendência central
Mediana
resistente a outliers
Desvio Padrão
dispersão
Percentis
p25, p75, p90
Min / Max
range do dado
Histograma
distribuição
2

🏷️ O Que é Dado Discreto

Dados discretos têm valores distintos e contáveis. Não existe "meio status" ou "1,5 países". A distância entre valores pode não ter significado matemático — "Brasil" e "EUA" não têm ordenação numérica natural.

🏷️ Exemplos de Dados Discretos

Status / Estado

  • • Status do pedido: pendente, enviado, entregue, cancelado
  • • Status do cliente: ativo, inativo, suspenso
  • • Status da lead: qualificada, não-qualificada

Categorias

  • • País: Brasil, EUA, Alemanha...
  • • Categoria de produto: eletrodoméstico, móvel, roupa
  • • Canal de aquisição: orgânico, pago, referral

Ciclos / Estágios

  • • Ciclo de vida: lead → prospect → cliente → churned
  • • Etapa do funil: topo, meio, fundo
  • • Nível de plano: free, starter, pro, enterprise

💡 Operações Válidas em Dados Discretos

Para dados discretos, as operações são diferentes — e operar como se fossem contínuos gera resultados sem sentido:

Count
quantos registros
Top-N
mais frequentes
Frequência
% de cada valor
Filtros
WHERE status = 'ativo'
Crosstab
relação entre categorias
Moda
valor mais frequente
3

🔬 Por Que a Distinção Muda a Auditoria

A distinção discreto/contínuo não é só teórica — ela define o checklist de auditoria que você vai executar e os problemas que vai procurar. Auditar um dado contínuo como discreto (e vice-versa) faz você perder os problemas reais.

📈 Auditoria de Dados Contínuos

  • Outliers extremos

    Receita de R$999.999.999? Peso de -5kg? Valores impossíveis ou suspeitos.

  • Zeros suspeitos

    Horas trabalhadas = 0 em dias úteis. Receita = 0 em clientes ativos.

  • Negativos impossíveis

    Quantidade vendida = -3. Pode ser devolução ou pode ser erro.

  • Distribuição

    Bimodal quando deveria ser normal? Pico suspeito em número redondo?

🏷️ Auditoria de Dados Discretos

  • Valores inválidos

    Status = "atvo" (typo). País = "Brasil" e "Brazil" e "BR" — são o mesmo?

  • Padronização

    Maiúsculas/minúsculas mistas. Espaços extras no início/fim.

  • Valores esperados vs observados

    Se status só deveria ter 4 valores, por que tem 7 distintos?

  • Valores NULL vs "não definido"

    NULL é diferente de "N/A" é diferente de "" (string vazia) é diferente de "desconhecido".

⚠️ O Erro de Tratar Discreto como Contínuo

Calcular a "média de status de pedidos" em um banco onde status é codificado como inteiro (1=pendente, 2=enviado, 3=entregue) gera um número (ex: 2,3) que não tem nenhum significado. Mas o sistema não avisa — entrega 2,3 com confiança.

4

➗ Operações Válidas em Cada Tipo

A pergunta não é "o que eu posso calcular?" — é "o que faz sentido calcular?" Qualquer banco de dados vai executar AVG(pais_codigo) sem erro. Mas o resultado não significa nada.

Guia de Operações por Tipo

Operação Contínuo Discreto Observação
Média (AVG) Média de categorias não tem significado
Mediana ~ Só se há ordenação natural (ex: níveis)
Min / Max ~ Só se há ordenação (ex: datas, níveis)
Soma (SUM) Soma de categorias não faz sentido
Desvio Padrão Não há variância significativa em categorias
Count / Frequência Funciona para ambos
Top-N valores ~ Principal para discretos
Histograma / Distribuição Para discreto use bar chart de frequência

💡 A Pergunta Guia

Antes de qualquer operação: "Essa operação matemática faz sentido nesse dado?" Se você não consegue explicar o significado do resultado em termos de negócio, provavelmente é o tipo errado de operação.

5

❓ Casos Ambíguos

Nem todo dado é obviamente contínuo ou discreto. Casos ambíguos exigem uma decisão explícita sobre como tratar — e essa decisão precisa ser documentada e consistente em todo o sistema.

💡 O Teste da Faca

"Consigo cortar esse valor com uma faca?"

  • Receita de R$100: sim, existe R$50, R$37,80, qualquer valor. Contínuo.
  • País de origem: não, não existe "meio Brasil". Discreto.
  • Quantidade de pedidos: não, não existe 2,5 pedidos. Discreto.
  • Temperatura: sim, existe 36,7°C, 36,8°C, qualquer valor. Contínuo.

Idade do Cliente

Biologicamente: contínua — existe 25,7 anos.

No dataset: geralmente armazenada como inteiro — 25, 26, 27...

Decisão: Tratar como contínua para análises de distribuição (média de idade, percentis). Tratar como discreta para segmentação (faixa etária: 20-30, 30-40...).

Tenure em Dias

Tecnicamente: discreto — são dias inteiros.

Na análise: se o range é 0-3650 (10 anos), opera melhor como contínuo para médias, percentis e comparações.

Decisão: Contínuo para análises. Discreto em buckets (0-90 dias, 91-365, 366+) para segmentação.

Nota de Satisfação (NPS, CSAT)

Escala: 1-10 com valores inteiros.

Debate: É possível calcular média? Existe diferença constante entre 7 e 8?

Decisão: Na prática, tratada como contínua para média (NPS usa isso). Mas análise de distribuição (quantos 9-10 vs quantos 1-6) pode ser mais informativa.

Número de Transações

Tecnicamente: discreto — não existe 2,5 transações.

Na análise: média de transações por cliente (3,7 transações/mês) é completamente válida e útil.

Decisão: Discreto para a coluna bruta. Contínuo para métricas derivadas (média, mediana por período).

⚠️ A Regra dos Casos Ambíguos

Quando encontrar um caso ambíguo, não decida individualmente — documente a decisão e aplique consistentemente em todo o sistema. Se auditoria usa como contínuo e o agente usa como discreto, as análises serão incomparáveis.

6

🤖 Como Claude Code Trata Cada Tipo

Claude Code (e agentes de IA em geral) detectam o tipo de dado pela distribuição de valores e pelo tipo em Python/SQL. Mas a classificação automática pode errar — e quando erra, erra silenciosamente. Entender isso permite que você guie o agente corretamente.

🤖 Detecção Automática de Tipo

dtype numérico (float64, int64) com muitos valores únicos → trata como contínuo

Gera: média, mediana, desvio padrão, histograma

dtype object (string) ou poucos valores únicos → trata como discreto

Gera: value_counts(), top-N, frequência relativa

Inteiros com poucos valores únicos (ex: 1, 2, 3) → pode errar

Pode tratar código de status codificado como número como dado contínuo

💡 Como Guiar o Agente Corretamente

A forma mais eficiente é fornecer metadados de schema. Quanto mais contexto, menos erro:

# Metadados para o agente
schema = {
"receita_total": {"type": "continuous", "unit": "BRL", "min": 0},
"status_pedido": {"type": "discrete", "values": ["pendente", "enviado", "entregue", "cancelado"]},
"codigo_status": {"type": "discrete", "mapping": {1: "pendente", 2: "enviado", 3: "entregue"}}
}

✓ O que FAZER para guiar o agente

  • Documentar tipo de cada coluna no schema
  • Listar valores válidos para discretas
  • Especificar unidade e range para contínuas
  • Incluir metadados no snippet da tabela

✗ O que NÃO fazer

  • Assumir que o agente vai classificar corretamente
  • Usar inteiros para codificar categorias sem documentar
  • Ignorar erros de classificação em análises exploratórias
  • Deixar casos ambíguos sem decisão documentada

Resumo do Módulo 1.4

Contínuo — fracionável, métricas matemáticas fazem sentido (receita, horas, temperatura)
Discreto — categorias distintas, operações de frequência (status, país, ciclo de vida)
Auditoria diferente — contínuo: outliers, zeros, negativos. Discreto: typos, padronização, valores inválidos
Operações diferentes — contínuo: média/mediana/std. Discreto: count/top-N/frequência
Casos ambíguos — décida explicitamente e documente. Consistência supera "perfeição"
Metadados guiam agentes — schema documentado = agente que classifica corretamente e gera análises válidas

Você concluiu a Trilha 1!

Você tem agora a fundação conceitual de Engenharia de Dados com IA. A próxima trilha mergulha em dicas técnicas práticas — como implementar o que aprendeu aqui.