Zum Inhalt springen

Der stille Datenfehler, der einen Report unbemerkt verfälscht

· Datenqualität, ETL, Zuverlässigkeit

Kurz gesagt: die schlimmsten Datenfehler sind die, die keinen Fehler auslösen. Der Ladevorgang läuft, der Report wird erzeugt, und die Zahl ist falsch. So entsteht ein stiller Fehler, und das ist das Design, das ihn verhindert.

Warum still schlimmer ist als abgestürzt

Eine Pipeline, die abstürzt, wird am selben Tag repariert: jemand sieht die rote Warnung und handelt. Eine Pipeline, die mit schlechten Daten weiterläuft, ist weit gefährlicher: die falsche Zahl erreicht eine Entscheidung, bevor jemand es merkt. Wenn sie auffällt, wurde ihr längst vertraut.

Wie es passiert

Die meisten stillen Fehler beginnen mit einer Änderung, die niemand angekündigt hat:

  1. Eine Quelldatei fügt eine Spalte hinzu oder entfernt eine, und alle folgenden Felder verrutschen.
  2. Ein Datumsformat wechselt von MM/TT zu TT/MM, und die Hälfte der Zeilen landet im falschen Monat.
  3. Ein Join stromaufwärts verliert Zeilen, und eine Summe sinkt um 3 % ohne jeden Fehler.

In allen drei Fällen ist der Ladevorgang erfolgreich. Niemand hat der Pipeline gesagt, was "korrekt" ist, also hat sie nichts zum Vergleichen.

Das Design, das ihn stoppt

Die Lösung ist nicht mehr Heldentum. Es ist Struktur:

  • Ein Datenvertrag am Eingang. Beschreiben Sie die erwartete Form: Spalten, Typen, Bereiche. Wenn die Quelle abweicht, scheitert der Vertrag zuerst, und laut, bevor sich die schlechten Daten ausbreiten.
  • Getrennte Schichten. Halten Sie Ingestion, Validierung und Transformation getrennt, um das Problem dort zu fangen, wo es auftaucht, statt tief im Report.
  • Eine Quarantäne. Zeilen, die die Regeln brechen, werden zurückgehalten und markiert, nicht still verworfen oder durchgelassen. Die guten Zeilen erreichen den Report; die schlechten bleiben zur Prüfung sichtbar.

Das ist der Unterschied zwischen einer Pipeline, die sicher scheitert, und einer, die still scheitert. Ich baue das in jedes Projekt ein, weil in der Finanzwelt eine falsche Zahl reale, sichtbare Kosten hat.

Eine Datengeschichte pro Monat

Echte Geschichten darüber, was eine Pipeline und einen Abschluss bricht, und wie man es löst. Kein Spam, jederzeit abbestellbar.

Kommt Ihnen dieses Problem bekannt vor?

Ein 30-minütiges Gespräch, unverbindlich. Ich sage Ihnen, wo das Risiko liegt und was zuerst zu lösen ist.