Garbage in, Garbage out: Hoe vindt je parels tussen het afval?

Gefeliciteerd! Je hebt je eerste data en AI use-cases geïdentificeerd en wilt zo snel mogelijk aan de slag om waarde te creëren voor je bedrijf.
Je hebt de stappen uit mijn eerdere blogs gevolgd en bent nu aangekomen op het punt waar je data bronnen wilt gaan evalueren om te zien of ze bij dragen aan je use-case en of of je er überhaupt iets mee kan.
In deze blog behandelen we een aantal relevante concepten rondom data kwaliteit en ga ik je uitleggen hoe je de data van je organisatie in kaart brengt!
Overal rommel
"Garbage in, garbage out" - deze bekende uitspraak in de datawereld vat perfect samen waarom de evaluatie van data zo belangrijk is. Op basis van slechte data is het namelijk nagenoeg onmogelijk om optimale beslissingen nemen. Maar wat maakt data eigenlijk "slecht"? En nog belangrijker: hoe evalueer je de kwaliteit van je data op een systematische manier?
Nu AI en ML steeds vaker voorkomen binnen organisaties wordt het van nog groter belang dat de data die we voeden aan deze modellen van hoge kwaliteit is. Als de data die deze modellen in gaat van slechte kwaliteit is, dan kunnen we niet verwachten dat deze modellen op basis van die data goede adviezen geven, of voorspellingen doen.
Doorgaans zijn deze modellen namelijk wel getraind op hoge kwaliteit data, die de waarheid (voor zover mogelijk) reflecteert. Niet iedere edge-case die jij introduceert kan zo’n model afvangen.
Als ik heel eerlijk ben is bijna alle data die ik tegenkom in mijn werk als Data Architect in eerste instantie “rommelig”. Het gaat er dus vooral om hoe we kunnen zorgen dat deze data waardevol wordt!
Laaghangend fruit
De meest voor de hand liggende voorbeelden van slechte data zijn vaak gerelateerd aan incorrecte registratie of invoering.
Neem bijvoorbeeld een voorraadsysteem dat aangeeft dat er zes artikelen op voorraad zijn, terwijl er in werkelijkheid maar vijf liggen. Hier is mogelijk iets mis gegaan bij het (handmatig) invoeren van producten in het ERP. Het resultaat? Nee-verkoop door te lage voorraad, of vertraging bij het leveren van het product, met een negatieve klantervaring tot gevolg.
Dit willen we voorkomen!
Het oplossen van dit soort problemen is relatief eenvoudig - we hebben een duidelijk beeld van waar de fout zit en kunnen dus goed bijsturen. In het voorbeeld hierboven is het denkbaar dat het extra controleren van de invoer, of het registreren van producten met een scanner verbetering brengt. Er is misschien zelfs een mogelijkheid om het proces te automatiseren door inkooporders in te lezen met behulp van computer vision.
Hoewel dit voorbeeld duidelijk maakt wat we bedoelen met slechte data, is de realiteit (helaas) vaak complexer.
Op zoek naar de bron
In de meeste organisaties worden beslissingen niet direct genomen op basis van relatief ruwe data uit één bron, maar uit meerdere databronnen - vaak aangepast in tussenstappen, die samen een beeld vormen over de werkelijkheid waarin de organisatie zich bevindt.
Nooit alle data is ontsloten, maar er zijn wel een paar bronnen die bij de meeste organisaties sowieso aanwezig zijn en van cruciaal belang zijn voor de bedrijfsvoering:
Een Financieel Systeem
Een Customer Relationship Management (CRM) Systeem
Enterprise Resource Planning (ERP) Systeem
Met alleen deze bronnen kunnen we al een complexer beeld schetsen van hoe beslissingen kunnen worden genomen binnen organisaties en hoe data kwaliteit beslissingen beïnvloedt.
Je kunt zelf vast nog wel een aantal andere bronnen bedenken binnen je organisatie die van groot belang zijn bij besluitvorming. Ik heb hieronder een voorbeeld gegeven van hoe een organisatie (onder andere) het inkoopbudget bepaald op basis van een de bovengenoemde databronnen.
Een blik op dit proces laat zien dat een klein foutje in voorraad getallen grote invloed kan hebben op andere processen. Datzelfde geldt voor de Financiële data en de CRM data.
Ook is het van belang te realiseren dat iedere stap in dit proces waarde toevoegt aan de beslissing, maar ook zeker negatieve invloed kan hebben. Als er een foute berekening gebeurt in een van de stappen heeft dit mogelijk nog grotere impact dan een fout in de bron. De een zijn “waardevolle” output kan de ander zijn “garbage” input worden.
Je kunt je voorstellen dat naarmate een organisatie groeit er steeds meer expliciete en impliciete stappen bijkomen in deze grafiek. Zo heb ik genoeg organisaties gezien waarin er nog veel data met de hand ge-copy-paste wordt en hele afdelingen gerund worden op basis van Excel mappen die worden gedeeld via de mail - dat zijn veel impliciete processen die moeilijk te beheersen zijn.
Dat is allemaal prima, zolang de organisatie haar doelen blijft bereiken en competitief kan blijven. Toch is het belangrijk te begrijpen dat dit zeer foutgevoelig is en er dus een grote kans bestaat dat er onverhoopt “rommel” wordt geïntroduceerd ergens in het proces. Met alle gevolgen van dien.
Begin met tekenen.
Een manier om grip te krijgen op dit proces is om een vergelijkbare oefening te doen als ik hierboven heb laten zien. Om voor jouw specifieke use-case boven te krijgen welke data beslissingen beïnvloeden is het van belang om hier een data-model van te maken en eigenschappen van deze data boven water te krijgen.
Ik vind het zelf fijn om te beginnen met een high-level process model, waarin voornamelijk processen beschreven zijn, om vervolgens een gedetailleerd data model te maken waarin specifieke aspecten en relaties beschreven worden. Maak bijvoorbeeld een BPMN van het proces, of teken het Enterprise Data Model uit in UML.
Als je het iets minder theoretisch wilt aanpakken, dan volstaat een tekening als ik hierboven heb gemaakt ook prima. Het gaat er vooral om dat je het doet!
Durf te vragen!
Hier onder beschrijf ik een aantal vragen die je kunt stellen over elk data proces binnen je organisatie, of het nou om opslag, processing (door mens of machine), of beslissingen gaat die gemaakt zijn op basis van data:
Data Invoer
Wie of wat voert de data in?
Wie is er verantwoordelijk voor deze invoer?
Met welke frequentie?
Blijft de data hetzelfde, of veranderd deze (soms)?
Welke validaties vinden hier plaats?
Kunnen we deze validaties formaliseren?
Hoe consistent is het invoerproces? (automatisch versus handmatig)
Data Verwerken
Welke transformaties ondergaat de data?
Wie is er verantwoordelijk voor deze transformaties?
Waar worden gegevens gecombineerd?
Welke analyses worden uitgevoerd?
Data Consumptie
Wie gebruikt de data voor besluitvorming?
Welke systemen zijn afhankelijk van deze data?
Het data model en de vragen hierboven zullen je (o.a.) helpen te begrijpen waar waarde wordt toegevoegd, documentatie bieden over hoe de organisatie werkt en het zal je helpen bij gesprekken voeren over data met stakeholders in de organisatie.
Als het moeilijk is om een (basic) data model voor je organisatie op te stellen, of op de bovenstaande vragen een eenduidig antwoord te formuleren of te krijgen, dan kan dat een teken zijn van wisselende of slechte data kwaliteit en data management. Kies voor je eerste use-case in ieder geval een bron en processen waar al duidelijkheid over bestaat!
Aan de slag.
In deze blog heb ik je wat handvatten gegeven om aan de slag te gaan met Data Lineage en Data Kwaliteit voor je data en AI use-cases. Het is van belang om een integrale aanpak te gebruiken voor het analyseren van data bronnen en processen. Teken de stroom van je data van bron tot inzicht en stel vragen over het gebruik en produceren van data. Je zult hierna aan de slag kunnen met je data-use case, omdat je weet welke bronnen er worden gebruikt en wat de kwaliteit is van deze bronnen.
Heb je wat hulp nodig om jouw rommel te veranderen in waardevolle inzichten, zodat jij betere beslissingen over je organisatie kunt maken? Neem contact met me op via LinkedIn of stuur me een bericht. In een eerste gratis consult kunnen we jouw eerste use-case al scherper krijgen!