Data science: kwaliteit, methodes en tooling

Luistertijd: 40 minuten

Data science: een enorm interessant maar ook complex onderwerp. In deze podcast gaat Bart Meerdink in gesprek met Kees Groenewoud, CEO van Cmotions. Kees vertelt over datakwaliteit, verschillende methodes en tooling die je kunt gebruiken en er wordt een praktijkcase besproken. 

Datakwaliteit

Sinds 2005 houdt zich Kees bezig met datakwaliteit. Zijn we in de tussentijd wat opgeschoten op dit gebied? Kees vindt van wel. Als je kijkt naar de discussie rondom datakwaliteit zat hem dat vroeger vooral in de basis. Is je data betrouwbaar en volledig? Is het wel wat je denkt dat het is? Het ging ook vaak over ontdubbelen. Dat woord kom je tegenwoordig niet meer tegen en ligt gelukkig ver achter ons. Als we het nu hebben over datakwaliteit, gaat het meer om het begrijpen van de data.

Business understanding v.s. data understanding

Het begrijpen van data is onder te verdelen in twee aparte fases: business understanding en data understanding. Business understanding gaat vooral over het begrijpen van het bedrijfsproces en op organisatieniveau. Data understanding gaat om het begrijpen van de data zelf. Als je de data begrijpt, krijg je al vrij snel een beeld van de kwaliteit. Je begrijpt dan niet alleen of de date valide en integer is, maar je kunt vooral begrijpen of de data passend is voor het doel wat jij voor ogen hebt.

Ons beperkte menselijk brein

Ons menselijk brein kan veel, maar er zitten ook beperkingen aan. In een Excelsheet kunnen we bijvoorbeeld patronen herkennen van een beperkt aantal kolommen en rijen. Als het te veel wordt, dan snappen we het niet meer en hebben we algoritmes nodig. Het mooie van automatisering is dat je het menselijk brein daarmee al heel snel overtreft. Als je bezig gaat met het analyseren van features en variabelen ga je dus al snel kijken of je het kunt automatiseren. Dan kom je uit op een algoritme, wat je meerdere keren kunt toepassen. En dan begin je met de vraag: wat wil je analyseren?

Bakken met data

Kees is geen voorstander van de term ‘bakken met data’. Het gaat er namelijk niet om hoeveel data je hebt, maar het gaat om de kwaliteit. Wat doe je met de data? Wat kun je ermee? En wat haal je eruit? Daar gaat het met name om.

Je kunt meer goud halen uit een potje dan uit een kruiwagen, als je maar de juiste componenten hebt

Methodes en tooling

Als je een datagedreven organisatie wilt worden, zijn er genoeg technieken en tools om die datakwaliteit op orde te krijgen.

Statistische methoden

Statistische methoden en technieken zijn een commodity geworden. Je kunt heel snel tot inzichten komen, wat een mooie ontwikkeling op het gebied van data science is. Neem bijvoorbeeld een factor-analyse. Dat is een statistische analysetechniek om voor een groot aantal variabelen kleinere achterliggende variabelen te identificeren, om het aantal variabelen te verminderen tot een beperkt aantal. Het is een oude methode, maar toch veel mensen beheersten dat. Je ziet deze methode veel meer terugkomen op marketingafdelingen. Dan kom je ook al snel uit bij de term feature analysis: wat voorspelt wat en welke variabele heeft invloed op welke andere? Dit alles heeft veel meer waarde dan een enorme bak met data waar je verder niets mee doet.

Durf klein te beginnen

Eén van de kernelementen van datagedreven worden is: durf klein te beginnen. De focus ligt bij de meeste bedrijven op tooling. Die tooling belooft een 360 graden klantbeeld en dat wil je, toch? Voor alles wordt gedacht aan tooling, terwijl veel processen daardoor juist chaotisch worden. Een 360 graden klantbeeld is volgens Kees onrealistisch. Je kunt de wereld niet regeren vanuit één plek. Er zijn waanzinnige tools en systemen, maar die geven niet de oplossing voor de vraag: wat moet ik weten van mijn klanten om effectieve marketing te bedrijven?

Maar wat nou als je de commerce-, service- en marketing cloud eraan koppelt? Is het dan wel 360 graden? Nee, en je haalt een bak met zorgen in huis, want je moet het allemaal ook nog implementeren en organiseren. Kees is zelf een groot voorstander van tooling, maar het begint met het stellen van de juiste vragen.

Begin klein en bouw dat langzaam uit. Creëer een pad naar het implementeren van die grote tooling. In één keer zonder rijbewijs in een Formule 1 auto rijden is lastig zonder rijervaring.

Kijk ook naar je onderscheidend vermogen. Welke inzichten heb je nodig om je te blijven onderscheiden? Hoe blijf je dat handhaven? Hoe bouw je dat uit? En hoe verbeter je het? Dan kan je behoefte krijgen aan tooling om scenario analyses te doen ofwel motive analyses.

Motive analyse

Bij een motive analyse kijk je naar een wat-als situatie. Wat gebeurt er als we dit zouden doen? Wat gebeurt er met de afname? Wat gebeurt er als we een prijsstijging doorvoeren? Als je gaat analyseren in de wat-als situaties dan heb je het hoogste niveau bereikt als het gaat om datagedreven werken.

Data governance

Data governance is een term voor gegevensbeheer. Het is een pakket van afspraken en gekozen standaarden die gezamenlijk zijn vastgelegd op welke manier het bedrijf met de data omgaat. Wat doen wij om onze data goed te besturen? Welke verantwoordelijkheden heb je? Wie mag wat met de data? Klinkt simpel, maar dit is best wel een complex organisatievraagstuk. Als alles goed gaat mag iedereen alles, maar als er ellende is schuiven we graag problemen naar iemand anders. Het is dus belangrijk om te regelen waar de verantwoordelijkheden liggen binnen je organisatie bij het omgaan met data. Zo heb je ook meteen grip op de data lineage, een belangrijk principe voor bedrijven. Data lineage is de weg die data afleggen vanaf het moment dat ze gecreëerd worden.

Wanneer is data governance belangrijk?

Grotere bedrijven richten zich voornamelijk op data governance, vooral in de financiële branche, omdat er toezichthouders zijn. We zien nu ook dat kleinere bedrijven hiermee bezig zijn en niet alleen financiële bedrijven. Waarom? Je regelt zo al veel zaken op het gebied van compliance en privacy. De omvang van het bedrijf mag geen belemmering zijn om na te denken over de data verantwoordelijkheid binnen de organisatie. Of je nou bestaat uit 20 medewerkers of 2000, de vraag en de risico’s zijn hetzelfde. Financieel is er wellicht wat verschil als je een groot en klein bedrijf vergelijkt, maar de aard van het risico blijft hetzelfde. Data governance is ook een vorm van risicomanagement.

Customer Lifetime Value

Het begrip customer lifetime value leeft nog te weinig onder marketeers. Veel marketeers weten niet wat hun klantwaarde is. Kees ziet de customer lifetime value (CLV) als één van de basisbegrippen van marketing. Tegelijkertijd is het een complex begrip om grip op te krijgen. Er is een hele simpele formule om je customer lifetime value te berekenen:

Customer Lifetime Value = (gemiddeld bonbedrag x frequentie x tijd dat iemand klant is) – kosten

Verdeeldheid van databronnen

Je komt snel uit op deze formule, maar het zegt ook niet alles. Variabelen zoals bonbedrag, kosten en klanten bestaan ook weer uit een verzameling van data die in verschillende bronnen zitten. Als we dat allemaal bij elkaar brengen hebben we daar grip op, toch (lees: 360 graden klantbeeld)? Nou, daar zit nou net de crux. De data die je nodig hebt om de klantwaarde te berekenen, zit vaak niet in dat ene systeem. Die verdeeldheid van dat bronnen is een trend in het data science vak, iedereen wil data koppelen. Kees is hier geen voorstander van, want het maakt het allemaal erg complex. Als je in bron één iets aanpast, dan moet je ook nadenken over bron twee, enzovoorts. Hij is zelf een groot voorstander van het creëren van aparte datasets met een logische flow.

Data lakehouse

Het is natuurlijk fijn als alles in één data lake binnenstroomt. Het data lakehouse principe komt voort uit die gedachte. Daarbij gaat het niet zozeer om bij aanvang data te koppelen, maar dit pas in een later stadium te doen. Het mooie van data lakehouse is dat de problematiek pas komt als je hem nodig hebt.

Belangrijkste data trend

De grootste data science trend die Kees ziet is: op welke manier kom je tot welk inzicht? Je kunt data science heel statistisch en complex maken. Dat is prima, maar als je die complexiteit blootlegt – en dus transparantie creëert in hetgeen wat je doet – haal je de mystiek weg, evenals de angst voor mensen binnen de organisatie die vinden dat je van alles niet mag doen. Met blootleggen bedoelt Kees: hoe stroomt het? Wat wordt geanalyseerd? Hoe werkt het algoritme? Dat is wat Kees betreft aandachtspunt nummer één.

Voorbeeldcase

Om een goed beeld te geven van hoe dit alles in de praktijk werkt geeft Kees een voorbeeld van een leverancier van platte daken en materialen hiervoor. Zij hebben acht verschillende databronnen. De vraag is: gaan ze die bronnen koppelen en vervolgens een data warehouse creëren of gaan ze een data lakehouse creëren, om zo inzichten kunnen creëren die het bedrijf nodig heeft voor zijn marketing- en financiële sturing? Een korte analyse toonde aan dat het verstandig is om twee bronnen te koppelen en om de rest gewoon los van elkaar samen te brengen in een data lake.

Wanneer koppel je bronnen?

Wat bepaalt dan of het zinnig is om bronnen wel of niet te koppelen? In dit geval heeft het bedrijf data nodig die in PDF’s zit. Dat zijn instructiefilmpjes voor producten die klanten hebben gekocht. Het enige wat het bedrijf wil weten is dat de klant het product heeft gekocht en dat er een filmpje bij zit. Ze hoeven niets met de inhoud van het filmpje. In dit geval voldoet het om dit soort informatie in een lakehouse apart te zetten. Dat kun je vervolgens koppelen aan het ERP-systeem of CRM-systeem. Als je dit tien keer doet, zegt dat iets over de klantwaarde. De overige data kun je analyseren op het moment dat jij het wilt weten.

Wie maakt deze keuzes?

In dit bedrijf zitten de CEO en CFO op dezelfde golflengte als het gaat om de vraag: wat is er nodig om het bedrijf fatsoenlijk te sturen? Dat is mooi om te zien, want vaak is dit niet het geval. Meestal neemt de CFO deze beslissingen, wat ook logisch is. Kees verwacht dat dit bedrijf heel snel meters gaat maken. Ze weten precies wat ze willen weten, maar ze zijn er ook heel bewust van dat ze er totaal nog niet zijn. Ze zijn bewust onbekwaam en dat is een mooi uitgangspunt voor verbetering.

Wat is datagedreven?

Er is een rationalisering gaande op het statement: ‘we willen datagedreven worden’. Een goede tegenvraag is dan: wat is voor jou datagedreven? Datagedreven wil niet zeggen dat je zoveel mogelijk data hebt en de meest exotische analyses kunt maken. Voor het bedrijf van dit voorbeeld betekent dit het kunnen sturen op het primaire proces en de verschillende schakels daarvan. In dit geval: wie heeft wanneer welk dak met welke materialen gekocht? Het vraagstuk tooling is niet eens gevallen.

Zelf aan de slag met data?

Wil jij zelf impact maken met data? Beeckestijn biedt een gevarieerd aanbod opleidingen en trainingen aan op het gebied van data. Bekijk welke data opleiding het beste bij jouw wensen en ervaring past. 

Delen