Data engineering trends 2023: data management & data governance
We spreken Bob Woets, Team lead Data bij Creates, over de belangrijkste trends in Data Engineering voor 2023. Data governance en data management zijn de twee thema’s die veel spelen bij organisaties die hij vanuit zijn rol bij Creates spreekt.
Het belang van data governance
We zien het belang van data governance bijvoorbeeld veel in organisaties die Power BI gebruiken. Power BI is een low-code self-service oplossing om data te verzamelen, modelleren en visualiseren. Het kent een relatief lage drempel voor mensen in de organisatie om het platform zelf te gebruiken. Juist dan is het belang van data governance enorm. De kracht van een data oplossing is juist dat je één ‘single source of truth’ creëert, echter door het kunnen maken van eigen rapporten kan iedereen zijn eigen databronnen koppelen. Data consumenten gaan enthousiast aan de slag met zelf rapporten maken en ook komt het steeds vaker voor dat ze er getraind in worden. Echter kan dit resulteren in 10 gebruikers, 10 rapporten en 10 keer een andere interpretatie van de data.
Organisaties denken regelmatig onvoldoende van tevoren na over hoe ze zo’n tool moeten gebruiken. Wat je dan ziet ontstaan is een wirwar aan rapportages en datasets en er is onvoldoende beleid om de data te structureren. Het is belangrijk om centraal te beleggen hoe de data beschikbaar wordt gesteld aan de consumenten ervan. Dat er nagedacht wordt over autorisaties (kan iedereen bij alle data?) en dat er werkafspraken worden gemaakt over hoe er met de data gewerkt wordt. Zonder deze afspraken zal er een chaos ontstaan. Als verantwoordelijke voor de data omgeving wil je grip hebben op je omgeving.
Self service? Eerst nadenken over governance
Het is veel prettiger om dit vooraf goed in te richten dan achteraf te corrigeren. In de basis krijgt regelmatig iedereen alle rechten, waardoor iedereen ‘te veel’ mag en kan. Vervolgens ontstaat er chaos en moeten er weer rechten van gebruikers ingenomen worden. Door van te voren goed na te denken over het data management houd je grip op de data en voorkom je vervelende situaties. Hoe stellen we de data beschikbaar aan de professionals? Welke verwachtingen hebben we over kwaliteit en testen van rapportages? Ervaren Power BI/Data engineers weten wat er bij de realisatie van zo’n product komt kijken en waar allemaal aan gedacht moet worden.
Nieuwe rollen
We zien nieuwe rollen in datateams of binnen organisaties ontstaan, zoals een data governance coach die in de gaten houdt of alle afspraken over data management goed worden geborgd. Een ander voorbeeld hiervan is een data steward, deze persoon is verantwoordelijk voor data kwaliteit. Iemand in deze rol is de schakel tussen het team dat de data producten bouwt en de professionals die de data invoeren. De juiste input is immers essentieel voor goede output.
Deze rollen liggen tegen de functie van data engineer aan of zijn, in kleinere organisaties, onderdeel van jouw rol als data- of Power BI engineer. Iedere data engineer heeft hoe dan ook te maken met data governance, omdat je er last van hebt als deze niet op orde is.
Het maken van een data catalog, waarin alle definities van metrics en velden staan beschreven, stelt de eindgebruiker in staat om iets kwalitatiefs te bouwen.. In het beste geval is hierin ook vastgelegd wie verantwoordelijk is voor die definities.
Ook krijgen we steeds meer vragen over masterdata. Alle data heeft ergens een bron, in welk systeem moet bijvoorbeeld de medewerkers informatie vastgelegd worden? Een wijziging moet doorvloeien naar andere systemen. Zijn hier geen goede afspraken over gemaakt, dan heeft dat invloed op de kwaliteit van de data. Hier kan de data steward een rol in spelen.
Verandering van vraag; wat betekent dit voor mij als data engineer?
Aanvankelijk kreeg een Power BI engineer voornamelijk de vraag: kun jij mij helpen een rapport te bouwen in bijvoorbeeld Power BI? Een data engineer krijgt dan de vraag de data te verzamelen en klaar te zetten. Doordat er steeds meer mogelijk is voor gebruikers om zelf te doen, verandert die vraag nu steeds vaker naar: kun je mij helpen de data en het proces in mijn organisatie goed in te richten? Dat vereist wel deels een andere skillset, de nadruk verandert dan van developer naar consultant.
Data governance en data management is steeds vaker onderdeel van de rol als data engineer. Hoe meer ervaring je opdoet met het bouwen van data oplossingen en de gevolgen daarvan in een organisatie, hoe meer organisaties en mensen je kunt inspireren en adviseren over hoe ze dat optimaal kunnen inrichten. Heb je deze zaken op orde, dan is het succes van jouw data oplossing veel groter.