Il guasto silenzioso dei dati che corrompe un report senza avvisare
· qualità dei dati, ETL, affidabilità
In breve: i guasti dei dati peggiori sono quelli che non generano alcun errore. Il caricamento gira, il report si genera e il numero è sbagliato. Ecco come nasce un guasto silenzioso, e il design che lo previene.
Perché il silenzio è peggio del crash
Una pipeline che va in crash viene sistemata lo stesso giorno: qualcuno vede l'allerta rossa e interviene. Una pipeline che continua a girare con dati sbagliati è molto più pericolosa: il numero errato raggiunge una decisione prima che qualcuno se ne accorga. Quando riemerge, ci si è già fidati.
Come accade
La maggior parte dei guasti silenziosi parte da un cambiamento che nessuno ha annunciato:
- Un file di origine aggiunge o toglie una colonna, e tutti i campi successivi si spostano.
- Un formato di data passa da
MM/GGaGG/MM, e metà delle righe finisce nel mese sbagliato. - Una join a monte perde righe, e un totale cala del 3% senza alcun errore.
In tutti e tre i casi il caricamento riesce. Nessuno ha detto alla pipeline cosa è "corretto", quindi non ha nulla con cui confrontare.
Il design che lo ferma
La soluzione non è più eroismo. È struttura:
- Un contratto dati in ingresso. Descrivi la forma attesa: colonne, tipi, intervalli. Quando la fonte cambia, il contratto fallisce per primo, e in modo evidente, prima che il dato sbagliato si propaghi.
- Livelli separati. Tieni ingestion, validazione e trasformazione distinti, per intercettare il problema dove appare invece che dentro il report.
- Una quarantena. Le righe che rompono le regole vengono trattenute e segnalate, non scartate in silenzio né lasciate passare. Le righe buone arrivano al report; quelle cattive restano visibili per la revisione.
È questa la differenza tra una pipeline che fallisce in modo sicuro e una che fallisce in silenzio. La costruisco così in ogni progetto, perché nella finanza un numero sbagliato ha un costo reale e visibile.
È esattamente ciò che faccio in Una pipeline dati che si rompe forte e presto — mai in silenzio.
Un caso data al mese
Storie reali di ciò che rompe una pipeline e una chiusura, e come risolverlo. Niente spam, disiscriviti quando vuoi.