Drie manieren om meer uit jouw dataplatform te halen
Een data lakehouse volgt vaak de medaille architectuur (bronze, silver en goud). Het concept is simpel; bronze is waar je de ruwe data (tijdelijk) opslaat, silver is waar je de data gestructureerd opslaat en de historie bewaakt, goud is waar de transformaties plaatsvinden naar modellen geschikt voor analyses met bijvoorbeeld Microsoft Power BI.
Die gelaagdheid lijkt een nadruk te leggen op dat de rapportage het einddoel is, maar niets is minder waar. Een belangrijk voordeel van een data lakehouse is dat meerdere doelgroepen terecht kunnen voor hun informatievragen; of dit nu vanuit Power BI is voor mooie interactieve rapportage of ad-hoc analyse met behulp van bijvoorbeeld pySpark of SQL om een hypothese te toetsen.
In deze blog leg ik kort uit wat binnen Microsoft drie smaken kunnen zijn in het faciliteren van een omgeving waar men ad-hoc analyses kan uitvoeren.
- Azure Synapse Serverless via Azure Data Studio
- Azure Databricks werkplekken
- Microsoft Fabric werkplekken
Onderstaande scenarioās gaan er van uit dat er al een data lakehouse staat met toegang al geconfigureerd voor de relevante doelgroepen. De volledige inzet van Synapse Analytics werkplekken neem ik in deze blog niet mee als scenario, in plaats daarvan heb ik Microsoft Fabric omschreven.
Azure Synapse Serverless
In dit scenario bied je eindgebruikers toegang tot de data via T-SQL views via een OPENROWSET-commando. Men gebruikt SQL Management Studio of Azure Data Studio als āwerkplekā.
Men kan resultaten exporteren naar bijvoorbeeld CSV maar het creƫren van bijvoorbeeld tussentijdse (delta) tabellen ondersteunt dit scenario niet. Het is ook niet mogelijk om met andere externe bronnen te koppelen, zoals eigen CSV-bestanden.
Azure Synapse Serverless vraagt 4,8 euro per opgevraagde TB aan data. Er zijn geen andere initiƫle kosten die gemaakt hoeven te worden. Dit maakt dat deze oplossing in potentie een lage OPEX en CAPEX kent.
Azure Databricks
In dit scenario maken eindgebruikers voor ad-hoc analyse gebruik van Azure Databricks werkplek(ken). Azure Databricks biedt een online platform waar het team met notebooks analyses kunnen maken en delen.
Het team kan met diverse SPARK-talen aan de slag zoals pySpark en SQL. Resultaten kan het team opslaan in tabellen en bestanden. Het is ook mogelijk om met andere externe bronnen te koppelen, zoals eigen CSV-bestanden.
In tegenstelling tot Synapse Serverless betaal je bij Azure Databricks per uur dat er gebruik gemaakt wordt van rekenkracht (dit heet DBU). Voor dit scenario zijn er beperkte initiƫle investeringen die gedaan moeten worden om veilige werkplekken in te richten, denk aan de mogelijke inrichting en configuratie van Databricks Unity Catalog.
Microsoft Fabric
Microsoft Fabric biedt een soortgelijke omgeving als Azure Databricks en Azure Synapse Analytics echter binnen de omgeving van Power BI (app.powerbi.com). Dit maakt dat de synergie tussen dataproducten (zoals notebooks en datasets) meer gestroomlijnd is.
Het team werkt samen binnen werkplekken (zoals dit nu ook het geval is binnen de Power BI service). Het team kan met diverse talen aan de slag zoals pySpark en T-SQL. Resultaten kan het team opslaan in tabellen en bestanden. Het is mogelijk om met andere externe bronnen te koppelen, zoals eigen CSV-bestanden.
Microsoft Fabric werkt met Fabric (F1 t/m 2048) capaciteiten met een maandelijkse vanaf investering van ongeveer 250 euro. Microsoft Fabric is een SAAS-oplossing waarbij er dus geen infrastructurele zaken aangemaakt hoeven te worden. Alle services zijn direct beschikbaar. Microsoft Fabric is op dit moment in public preview, meer weten? Kijk dan op onze dossier pagina.
Samenvatting
Azure Data Studio (via Synapse Serverless)
Beschikbare talen | SQL |
Faciliteert omgeving voor ad-hoc queryās | Ja |
Faciliteert omgeving voor samenwerking | Nee |
Eigen datasets creƫren | Nee |
Koppelen met eigen bestanden | Nee |
Koppeling met Power BI | Ja, via Azure SQL Server connector |
OPEX kosten | Ja, Ongeveer 200 euro * |
CAPEX kosten | Nee |
Azure Databricks
Beschikbare talen | SQL en Python (en meer) |
Faciliteert omgeving voor ad-hoc queryās | Ja |
Faciliteert omgeving voor samenwerking | Ja |
Eigen datasets creƫren | Ja, op ADLS gen2 onder beheer van Unity Catalog |
Koppelen met eigen bestanden | Ja |
Koppeling met Power BI | Ja, via Azure Databricks connector |
OPEX kosten | Ongeveer 550 euro * |
CAPEX kosten | Ja |
Microsoft Fabric
Beschikbare talen | SQL en Python (en meer) |
Faciliteert omgeving voor ad-hoc queryās | Ja |
Faciliteert omgeving voor samenwerking | Ja |
Eigen datasets creƫren | Ja, op OneLake |
Koppelen met eigen bestanden | Ja |
Koppeling met Power BI | Ja, via OneLake connector |
OPEX kosten | Ja, Ongeveer 550 euro * |
CAPEX kosten | Nee |
* Maandelijkse terugkerende investering:
- Azure Data Studio (via Synapse Serverless) werkt op basis van kosten per TB aan data verwerkt. Kosten kunnen lager of hoger uitvallen wanneer het team minder of meer data opvraagt.
- Azure Databricks werkt op basis van kosten per uur dat een specifieke capaciteit (cluster) configuratie actief is. In de schatting is gerekend op een totale actieve duur van 180 uur per maand.
- Microsoft Fabric werkt met kosten per uur dat een specifieke capaciteit configuratie actief is. In de schatting is gerekend op een totale actieve duur van een volledige maand. Belangrijk hier is dat we nog niet weten hoe Fabric zich qua performance verhoudt tot Azure Databricks. Dit maakt dat kosten vooralsnog slecht vergelijkbaar zijn.
Dit zijn slechts enkele scenarioās. Afhankelijk van jouw organisatie en behoefte zijn andere wellicht meer passend.
Doorpraten met Ian?
Wil je meer weten over één van deze scenario’s of wil je weten welk scenario er beter past?