Inleiding Big data
Je leert wat big data inhoudt en welke technologische ontwikkelingen geleid hebben tot de inzet van big data. De relevantie voor het bedrijfsleven wordt duidelijk aan de hand van een aantal trends en toepassingen. Daarbij is ook aandacht voor de hiermee samenhangende privacy-, veiligheids- en ethische aspecten en de internationale wetgeving op dit gebied. Na afronding van deze module heb je inzicht in hoe big data vanuit business- en organisatieperspectief kan bijdragen aan de bedrijfsstrategie en de bedrijfsdoelstellingen. Ook weet je op hoofdlijnen hoe big data-projecten kunnen worden opgezet en begrijp je de impact van big Data op het bedrijfsproces en de nieuwe rollen en functies die hierbij ontstaan.
Werken met ongestructureerde data
Deze module gaat in op de opslag en verwerking van data. Zo is er o.a. aandacht voor batchgewijze opslag en verwerking, op streaming gebaseerde verwerking en gevirtualiseerde verwerking. Daarbij maak je kennis met enkele grote platformen die dit mogelijk maken. Zo leer je bijvoorbeeld hoe grote hoeveelheden ongestructureerde data kunnen worden verwerkt met Hadoop en leer je meer over de belangrijkste functionaliteiten van Hadoop en het Hadoop-ecosysteem. Daarnaast komen verschillende NoSQL-databases aan bod. Je past de opgedane kennis meteen toe. Via een eigen console ga je zelf verschillende soorten data verwerken in een Azure Cosmos DB.
Data engineering
In deze module leer je de kennis en vaardigheden om data te koppelen, te organiseren en te ontsluiten. Je gaat databases organiseren tot data warehouses.
Machine learning met R
Je leert wat Machine learning inhoudt. Aan de hand van praktijkvoorbeelden maak je kennis met algoritmes, regressie en classificatie. Daarbij doe je uiteraard ook de noodzakelijke wiskundige basiskennis op. Daarnaast wordt Machine learning in deze module geplaatst in de context van de organisatie. Wanneer en hoe vaak voer je een Machine learning project uit?
Toegepaste Machine learning met R
In deze module ligt het accent op Machine learning (ML)-programmeren. Je gaat concreet een aantal problemen oplossen door het ML-proces toe te passen. Daarbij worden opdrachten uitgewerkt met behulp van R in een speciaal ingerichte online oefenomgeving. R is een open source programmeertaal om statistische gegevens en gegevensanalyse te managen. Je kunt bij de opdrachten gebruik maken van model datasets, maar het is ook mogelijk om datasets uit de eigen organisatie te gebruiken.
Praktijkintegratie Een big data project managen
In deze module pas je de opgedane kennis op geïntegreerde wijze toe in een praktijksituatie. Dit doe je door een plan van aanpak op te stellen voor een Big Data project. Daarbij voer je een analyse uit, pas je logica en modellen toe op diverse soorten data en maak je een overzicht van de projectwerkzaamheden.