Wat is een datawarehouse?

Een datawarehouse is een speciale database waarin gegevens zodanig worden opgeslagen, dat zij snel opvraagbaar zijn voor analyse door bijvoorbeeld het management van een organisatie. Een datawarehouse kan een organisatie ondersteunen bij het verkrijgen van inzicht in het functioneren van de organisatie en het nemen van strategische beslissingen.

 

Een kledingketen kan in een datawarehouse bijvoorbeeld per vestiging bijhouden welke producten zijn verkocht en wanneer. De kledingketen kan over deze database rapportages uitvoeren waarin bijvoorbeeld de top tien best verkopende vestigingen en producten worden opgevraagd. Ook kunnen de slechtst verkopende vestigingen en producten worden opgevraagd. Naar aanleiding van deze informatie kan het management van de organisatie vervolgens stappen ondernemen.

 

 

Het datawarehouse en de operationele systemen

Periodiek worden gegevens vanuit één of meer operationele systemen overgezet naar het datawarehouse. Operationele systemen zijn de software en databases waarop transacties direct worden geregistreerd. In het voorbeeld van onze kledingketen is een transactie de verkoop van een kledingstuk. Wanneer een kledingstuk wordt verkocht, wordt dit niet meteen naar het datawarehouse weggeschreven, maar naar de operationele database. Op een vast tijdstip wordt vanuit het operationele systeem alle nieuwe informatie over bijvoorbeeld verkopen naar het datawarehouse overgezet. Het datawarehouse loopt dus meestal iets achter op de werkelijkheid. Bij het proces van het overzetten van de gegevens naar het datawarehouse is het operationele systeem het bronsysteem. Het datawarehouse is in dit proces het doelsysteem.

 

 

Gegevensoverdracht van het bronsysteem naar het datawarehouse (ETL)

Het proces waarbij de gegevens vanuit het operationele systeem worden overgezet naar het datawarehouse wordt een ETL-proces genoemd. ETL staat voor extraction, transformation and load. Extraction staat voor het inlezen van de gegevens uit het bronsysteem. Transformation is een stap waarbij de ingelezen gegevens worden omgezet naar een formaat dat geschikt is voor het datawarehouse. Load staat voor het daadwerkelijk inladen van de gegevens in het datawarehouse.

 

Soms is er bij het ETL-proces sprake van één bronsysteem. Bij grotere organisaties kan er sprake zijn van meerdere bronsystemen. De gegevens in deze bronsystemen kunnen allemaal volgens een andere structuur opgeslagen zijn. Dit maakt dat het ontwerpen en het maken van een ETL-proces een complexe zaak is.

 

 

Het datawarehouse en rapportages

Het uiteindelijke doel van het datawarehouse is het mogelijk maken van management rapportages. De ontwikkelaars van het datawarehouse moeten ervoor zorgen dat deze rapportages gemakkelijk uit te draaien zijn en dat de eindgebruiker niets van de techniek van het datawarehouse hoeft af te weten om deze rapporten te kunnen gebruiken. De rapporten moeten uit te printen zijn en de informatie op de rapporten moet begrijpbaar en correct zijn. Veelgebruikte rapportelementen zijn:

 

  • Tabellen
  • Kruistabellen of matrices
  • Grafieken en diagrammen