Ian
31-10-2023 - 5 min

Drie manieren om meer uit jouw dataplatform te halen

Een data lakehouse volgt vaak de medaille architectuur (bronze, silver en goud). Het concept is simpel; bronze is waar je de ruwe data (tijdelijk) opslaat, silver is waar je de data gestructureerd opslaat en de historie bewaakt, goud is waar de transformaties plaatsvinden naar modellen geschikt voor analyses met bijvoorbeeld Microsoft Power BI.

Die gelaagdheid lijkt een nadruk te leggen op dat de rapportage het einddoel is, maar niets is minder waar. Een belangrijk voordeel van een data lakehouse is dat meerdere doelgroepen terecht kunnen voor hun informatievragen; of dit nu vanuit Power BI is voor mooie interactieve rapportage of ad-hoc analyse met behulp van bijvoorbeeld pySpark of SQL om een hypothese te toetsen.

In deze blog leg ik kort uit wat binnen Microsoft drie smaken kunnen zijn in het faciliteren van een omgeving waar men ad-hoc analyses kan uitvoeren.

  • Azure Synapse Serverless via Azure Data Studio
  • Azure Databricks werkplekken
  • Microsoft Fabric werkplekken

Onderstaande scenario’s gaan er van uit dat er al een data lakehouse staat met toegang al geconfigureerd voor de relevante doelgroepen. De volledige inzet van Synapse Analytics werkplekken neem ik in deze blog niet mee als scenario, in plaats daarvan heb ik Microsoft Fabric omschreven.

Azure Synapse Serverless

In dit scenario bied je eindgebruikers toegang tot de data via T-SQL views via een OPENROWSET-commando. Men gebruikt SQL Management Studio of Azure Data Studio als “werkplek”.

Men kan resultaten exporteren naar bijvoorbeeld CSV maar het creëren van bijvoorbeeld tussentijdse (delta) tabellen ondersteunt dit scenario niet. Het is ook niet mogelijk om met andere externe bronnen te koppelen, zoals eigen CSV-bestanden.

Azure Synapse Serverless vraagt 4,8 euro per opgevraagde TB aan data. Er zijn geen andere initiële kosten die gemaakt hoeven te worden. Dit maakt dat deze oplossing in potentie een lage OPEX en CAPEX kent.

Azure Databricks

In dit scenario maken eindgebruikers voor ad-hoc analyse gebruik van Azure Databricks werkplek(ken). Azure Databricks biedt een online platform waar het team met notebooks analyses kunnen maken en delen.

Het team kan met diverse SPARK-talen aan de slag zoals pySpark en SQL. Resultaten kan het team opslaan in tabellen en bestanden. Het is ook mogelijk om met andere externe bronnen te koppelen, zoals eigen CSV-bestanden.

In tegenstelling tot Synapse Serverless betaal je bij Azure Databricks per uur dat er gebruik gemaakt wordt van rekenkracht (dit heet DBU). Voor dit scenario zijn er beperkte initiële investeringen die gedaan moeten worden om veilige werkplekken in te richten, denk aan de mogelijke inrichting en configuratie van Databricks Unity Catalog.

Microsoft Fabric

Microsoft Fabric biedt een soortgelijke omgeving als Azure Databricks en Azure Synapse Analytics echter binnen de omgeving van Power BI (app.powerbi.com). Dit maakt dat de synergie tussen dataproducten (zoals notebooks en datasets) meer gestroomlijnd is.

Het team werkt samen binnen werkplekken (zoals dit nu ook het geval is binnen de Power BI service). Het team kan met diverse talen aan de slag zoals pySpark en T-SQL. Resultaten kan het team opslaan in tabellen en bestanden. Het is mogelijk om met andere externe bronnen te koppelen, zoals eigen CSV-bestanden.

Microsoft Fabric werkt met Fabric (F1 t/m 2048) capaciteiten met een maandelijkse vanaf investering van ongeveer 250 euro. Microsoft Fabric is een SAAS-oplossing waarbij er dus geen infrastructurele zaken aangemaakt hoeven te worden. Alle services zijn direct beschikbaar. Microsoft Fabric is op dit moment in public preview, meer weten? Kijk dan op onze dossier pagina.

Samenvatting

Azure Data Studio (via Synapse Serverless)

Beschikbare talen SQL
Faciliteert omgeving voor ad-hoc query’s Ja
Faciliteert omgeving voor samenwerking Nee
Eigen datasets creëren Nee
Koppelen met eigen bestanden Nee
Koppeling met Power BI Ja, via Azure SQL Server connector
OPEX kosten Ja, Ongeveer 200 euro *
CAPEX kosten Nee

 

Azure Databricks

Beschikbare talen SQL en Python (en meer)
Faciliteert omgeving voor ad-hoc query’s Ja
Faciliteert omgeving voor samenwerking Ja
Eigen datasets creëren Ja, op ADLS gen2 onder beheer van Unity Catalog
Koppelen met eigen bestanden Ja
Koppeling met Power BI Ja, via Azure Databricks connector
OPEX kosten Ongeveer 550 euro *
CAPEX kosten Ja

 

Microsoft Fabric

Beschikbare talen SQL en Python (en meer)
Faciliteert omgeving voor ad-hoc query’s Ja
Faciliteert omgeving voor samenwerking Ja
Eigen datasets creëren Ja, op OneLake
Koppelen met eigen bestanden Ja
Koppeling met Power BI Ja, via OneLake connector
OPEX kosten Ja, Ongeveer 550 euro *
CAPEX kosten Nee

 

* Maandelijkse terugkerende investering:

  • Azure Data Studio (via Synapse Serverless) werkt op basis van kosten per TB aan data verwerkt. Kosten kunnen lager of hoger uitvallen wanneer het team minder of meer data opvraagt.
  • Azure Databricks werkt op basis van kosten per uur dat een specifieke capaciteit (cluster) configuratie actief is. In de schatting is gerekend op een totale actieve duur van 180 uur per maand.
  • Microsoft Fabric werkt met kosten per uur dat een specifieke capaciteit configuratie actief is. In de schatting is gerekend op een totale actieve duur van een volledige maand. Belangrijk hier is dat we nog niet weten hoe Fabric zich qua performance verhoudt tot Azure Databricks. Dit maakt dat kosten vooralsnog slecht vergelijkbaar zijn.

Dit zijn slechts enkele scenario’s. Afhankelijk van jouw organisatie en behoefte zijn andere wellicht meer passend. 

Doorpraten met Ian?

Wil je meer weten over één van deze scenario’s of wil je weten welk scenario er beter past?

Stel je vraag aan Ian

Over de schrijver

Ian

Ian creates Business Intelligence solutions and gives clear insights with stunning visuals!

LinkedIn