Quarentena de dados: barrar o erro antes de virar relatório
· qualidade de dados, validação, ETL
Em resumo: quarentena de dados é um estágio onde o registro que bate fora das regras fica retido e sinalizado, em vez de seguir para o relatório. Assim você não precisa escolher entre parar o fechamento inteiro ou deixar o dado ruim passar.
O problema que ela resolve
Pipeline sem quarentena tem só dois caminhos para o dado ruim: deixar passar (corrompe o resultado) ou derrubar tudo (para o fechamento inteiro por causa de poucas linhas). Os dois são ruins. A quarentena oferece um terceiro caminho: isolar o problema e seguir com o resto.
Como funciona
- Validação checa cada registro contra as regras (formato, faixa, integridade).
- O que passa segue para a transformação e o relatório.
- O que falha vai para a quarentena: uma área à parte, com o motivo da rejeição.
- Alerta avisa quem precisa, na hora, com o que foi retido.
Assim, 990 linhas boas viram relatório e as 10 problemáticas ficam visíveis para correção, em vez de contaminar o número ou travar tudo.
O que você ganha
- O erro fica preso, não vira decisão: o ponto central de um pipeline confiável.
- Visibilidade: dá para ver o que e por que foi rejeitado, e medir a qualidade da fonte.
- Continuidade: o fechamento não para por causa de poucos registros ruins.
A quarentena trabalha junto com o contrato de dados na entrada: um valida o arquivo, o outro segura o registro problemático.
Implemento ingestão, validação e quarentena em pipelines ETL/ELT. Se hoje o seu pipeline só sabe passar tudo ou parar tudo, dá para adicionar essa rede de segurança.
É exatamente isso que faço em Pipeline de dados que quebra alto e cedo — nunca em silêncio.
Leia também
Um caso de dados por mês
Histórias reais do que quebra um pipeline e um fechamento — e como resolver. Sem spam, cancele quando quiser.