Big Data Hadoop en Spark Ontwikkelaar - eLearning

450,00 EUR

50 hours

eLearning

De Big Data Hadoop and Spark Developer Course is ontworpen om je een diepgaand inzicht te geven in de fundamenten van Apache Spark en het Hadoop framework, zodat je over de vaardigheden beschikt om uit te blinken als Big Data Developer. In dit programma doe je praktische kennis op van het Hadoop-ecosysteem en de integratie met Spark, zodat je enorme datasets efficiënt kunt verwerken en analyseren. Je leert hoe de verschillende onderdelen van Hadoop, zoals HDFS en MapReduce, naadloos in de Big Data-verwerkingscyclus passen, zodat je voorbereid bent op succes in de hedendaagse datagestuurde wereld.

Belangrijkste kenmerken

Taal

Cursus en materiaal zijn in het Engels

Niveau

Intermediair voor aspirant data-engineer

Toegang

1 jaar toegang tot het zelfstudie eLearning platform 24/7

11 uur aan videomateriaal

met een aanbevolen studieduur van 50 uur

Praktijken

Simulatietest, Virtueel lab en Eindproject van de cursus

Geen examen

Er is geen examen voor de cursus, maar de student ontvangt een certificaat van voltooiing van de training

Leerresultaten

In deze Big Data Hadoop en Spark Developer Cursus leert u:

Hadoop-ecosysteem

Leer hoe je door het Hadoop-ecosysteem kunt navigeren en begrijp hoe je het gebruik ervan kunt optimaliseren

Data importeren

Gegevens importeren met Sqoop, Flume en Kafka.

Bijenkorf

Implementeer partitionering, bucketing en indexering in Hive

Apache Spark

Werken met RDD in Apache Spark

Datastreaming

Verwerk real-time streaminggegevens en voer DataFrame-operaties uit in Spark met behulp van SQL-query's

Implementatie

Implementeer door de gebruiker gedefinieerde functies (UDF) en door de gebruiker gedefinieerde attribuutfuncties (UDAF) in Spark

Cursustijdlijn

Introductie tot Big Data en Hadoop
Les 01
- Introductie tot Big Data en Hadoop
- Introductie tot Big Data
- Big Data Analyse
- Wat is Big Data?
- De vier V's van Big Data
- Casestudy Royal Bank of Scotland
- Uitdagingen van traditionele systemen
- Gedistribueerde systemen
- Introductie tot Hadoop
- Onderdelen van het Hadoop Ecosysteem Deel Een
- Onderdelen van het Hadoop Ecosysteem Deel Twee
- Onderdelen van het Hadoop Ecosysteem Deel Drie
- Commerciële Hadoop Distributies
- Demo: Doorlopen van Simplilearn Cloudlab
- Belangrijkste leerpunten
- Kennistoets
Hadoop-architectuur Gedistribueerde Opslag (HDFS) en YARN
Les 02
- Hadoop Architectuur Gedistribueerde Opslag (HDFS) en YARN
- Wat is HDFS
- De noodzaak van HDFS
- Regulier Bestandssysteem vs HDFS
- Kenmerken van HDFS
- HDFS Architectuur en Componenten
- Implementaties van High Availability Clusters
- HDFS Component Bestandssysteem Namespace
- Data Blok Splitsing
- Data Replikatie Topologie
- HDFS Commandoregel
- Demo: Veelgebruikte HDFS Commando's
- Praktijkproject: HDFS Commandoregel
- Yarn Introductie
- Yarn Gebruikscase
- Yarn en zijn Architectuur
- Resource Manager
- Hoe de Resource Manager Werkt
- Application Master
- Hoe Yarn een Applicatie Uitvoert
- Hulpmiddelen voor Yarn Ontwikkelaars
- Demo: Doorloop van Cluster Deel Een
- Demo: Doorloop van Cluster Deel Twee
- Belangrijkste Inzichten Kenniscontrole
- Praktijkproject: Hadoop Architectuur, Gedistribueerde Opslag (HDFS) en Yarn
Data-import in Big Data-systemen en ETL
Les 03
- Gegevensinvoer in Big Data Systemen en ETL
- Overzicht Data-import Deel Een
- Overzicht Data-import Deel Twee
- Apache Sqoop
- Sqoop en het Gebruik
- Sqoop Verwerking
- Sqoop Importproces
- Sqoop Connectoren
- Demo: Importeren en Exporteren van Gegevens van MySQL naar HDFS
- Praktijkproject: Apache Sqoop
- Apache Flume
- Flume Model
- Schaalbaarheid in Flume
- Componenten in Flume's Architectuur
- Flume Componenten Configureren
- Demo: Twitter Gegevens Invoeren
- Apache Kafka Aggregeren van Gebruikersactiviteit met Kafka
- Kafka Gegevensmodel
- Partities
- Apache Kafka Architectuur
- Demo: Opzetten van een Kafka Cluster
- Voorbeeld van API aan de Producentenkant
- API aan de Consumentenkant
- Voorbeeld van API aan de Consumentenkant
- Kafka Connect
- Demo: Creëren van een Voorbeeld Kafka data-pijplijn met Producent en Consument
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Gegevensinvoer in Big Data Systemen en ETL
Gedistribueerde Verwerking MapReduce Framework en Pig
Les 04
- Gedistribueerd Verwerkingsmapreduce Framework en Pig
- Gedistribueerde Verwerking in Mapreduce
- Voorbeeld van Woordentelling
- Uitvoeringsfasen van Map
- Gedistribueerde Uitvoering van Map in Twee-Knoopsomgeving
- Mapreduce Taken
- Interactie van Hadoop Mapreduce Taak Werk
- Opzetten van de Omgeving voor Mapreduce Ontwikkeling
- Set van Klassen
- Een Nieuw Project Creëren
- Geavanceerde MapReduce
- Gegevenstypen in Hadoop
- Uitvoerformaten in Mapreduce
- Gebruik van Gedistribueerd Cache
- Joins in MapReduce
- Gerepliceerde Join
- Introductie tot Pig Latin
- Componenten van Pig
- Pig Gegevensmodel
- Interactieve Modi van Pig
- Varkensoperaties
- Diverse Relaties Uitgevoerd door Ontwikkelaars
- Demo: Analyse van Webloggegevens met Mapreduce
- Demo: Analyse van Verkoopgegevens en Oplossen van KPI's met Pig Praktijkproject: Apache Pig
- Demo: Woordentelling
- Belangrijkste Punten om te Onthouden
- Kenniscontrole
- Praktijkproject: Gedistribueerde Verwerking - Mapreduce Framework en Pig
Apache Hive
Les 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architectuur
- Interfaces om Hive Queries uit te Voeren
- Beeline Uitvoeren vanaf de Commandoregel
- Hive Metastore
- Hive DDL en DML
- Nieuwe Tabel Aanmaken
- Validatie van Gegevenstypen
- Soorten Bestandsindelingen
- Gegevensserialisatie
- Hive-tabel en Avro-schema
- Optimalisatie van Hive: Partitionering, Bucketing en Sampling
- Tabel zonder Partities
- Gegevensinvoer
- Dynamische Partitionering in Hive
- Bucketing
- Wat Doen Buckets?
- Hive Analytische UDF en UDAF
- Andere Functies van Hive
- Demo: Real-time Analyse en Gegevensfiltratie
- Demo: Praktijkprobleem
- Demo: Gegevensrepresentatie en Import met Hive
- Belangrijkste Punten om te Onthouden
- Kenniscontrole
- Praktijkproject: Apache Hive
NoSQL-databases HBase
Les 06
- NoSQL-databases HBase
- Introductie tot NoSQL
- Demo: Yarn Tuning
- Overzicht van Hbase
- Architectuur van Hbase
- Gegevensmodel
- Verbinding maken met HBase
- Praktijkproject: HBase Shell
- Belangrijkste inzichten
- Kennistoets
- Praktijkproject: NoSQL-databases - HBase
Basisprincipes van functioneel programmeren en Scala
Les 07
- Basisprincipes van Functioneel Programmeren en Scala
- Introductie tot Scala
- Demo: Installatie van Scala
- Functioneel Programmeren
- Programmeren met Scala
- Demo: Basis Literals en Rekenkundig Programmeren
- Demo: Logische Operatoren
- Type-inferentie, Klassen, Objecten en Functies in Scala
- Demo: Type-inferentie, Functies, Anonieme Functie en Klasse
- Collecties
- Typen Collecties
- Demo: Vijf Typen Collecties
- Demo: Operaties op Lijst Scala REPL
- Demo: Eigenschappen van Scala REPL
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Apache Hive
Apache Spark - Het volgende generatie Big Data-framework
Les 08
- Apache Spark Framework voor Big Data van de volgende generatie
- Geschiedenis van Spark
- Beperkingen van Mapreduce in Hadoop
- Introductie tot Apache Spark
- Onderdelen van Spark
- Toepassing van In-memory Verwerking
- Hadoop Ecosysteem vs Spark
- Voordelen van Spark
- Spark Architectuur
- Spark Cluster in de Echte Wereld
- Demo: Scala Programma's Uitvoeren in Spark Shell
- Demo: Uitvoeringsomgeving Instellen in IDE
- Demo: Spark Web UI
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Apache Spark Framework voor Big Data van de volgende generatie
Spark Core Verwerking RDD
Les 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDD
Spark SQL Verwerken van DataFrames
De 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing Dataframes
Modelleren van BigData met Spark MLib
De 11
- Spark Mlib Modellering van grote gegevens met Spark
- Rol van Data Scientist en Data Analyst in Big Data
- Analytics in Spark
- Machine Learning
- Begeleid leren
- Demo: Classificatie van Lineaire SVM
- Demo: Lineaire Regressie met praktijkgevallen
- Onbegeleid leren
- Demo: Onbegeleide Clustering K-means
- Versterkend leren
- Semi-begeleid leren
- Overzicht van Mlib
- Mlib Pipelines
- Belangrijkste inzichten
- Kennistoets
- Praktijkproject: Spark Mlib - Modellering van big data met Spark
Streamverwerkingsframeworks en Spark Streaming
De 12
- Overzicht van Streaming
- Realtime Verwerking van Big Data
- Data Verwerkingsarchitecturen
- Demo: Realtime Gegevensverwerking met Spark Streaming
- Demo: Een Spark Streaming Applicatie Schrijven
- Introductie tot DStreams
- Transformaties op DStreams
- Ontwerppatronen voor het Gebruik van Foreachrdd
- Statusbewerkingen
- Vensterbewerkingen
- Join Bewerkingen Stream-dataset Join
- Demo: Vensterbewerkingen van Realtime Gegevensverwerking Streamingbronnen
- Demo: Verwerking van Twitter Streaminggegevens
- Gestroomlijnde Spark Streaming-
- Gebruiksscenario Banktransacties
- Architectuurmodel en Componenten van Gestroomlijnde Streaming
- Output Sinks
- API's voor Gestroomlijnde Streaming
- Kolommen Construeren in Gestroomlijnde Streaming
- Vensterbewerkingen op Gebeurtenistijd
- Gebruiksscenario's
- Demo: Streaming Pipeline
- Praktijkproject: Spark Streaming
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Streamverwerkingsframeworks en Spark Streaming
Spark GraphX
Les 13
- Spark GraphX
- Introductie tot Grafen
- GraphX in Spark
- GraphX Operatoren
- Join Operatoren
- GraphX Parallel Systeem
- Algoritmen in Spark
- Pregel API
- Gebruikscasus van GraphX
- Demo: GraphX Vertex Predicaat
- Demo: Page Rank Algoritme
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Spark GraphX Projectondersteuning

Doelgroep

Ideaal voor een breed scala aan professionals en individuen die hun carrière in big data-analyse, data-engineering en datawetenschap willen bevorderen.

Vereisten: Het wordt aanbevolen dat u kennis heeft van Core Java en SQL

Analyseprofessionals

Senior IT-professionals

Test- en mainframeprofessionals

Data management professionals

Business intelligence professionals

Projectmanagers

Afgestudeerden die een carrière in big data-analyse willen beginnen

Begin nu

Verklaringen

Licenties en accreditatie

De Big Data Hadoop en Spark Ontwikkelaar wordt aangeboden door Simplilearn volgens de Partner Programma Overeenkomst en voldoet aan de vereisten van de Licentieovereenkomst. AVC promoot deze cursus namens Simplilearn.

Gelijkheidsbeleid

Simplilearn biedt geen accommodatie vanwege een handicap of medische aandoening van studenten. Kandidaten worden aangemoedigd om contact op te nemen met AVC voor begeleiding en ondersteuning gedurende het accommodatieproces.

Veelgestelde Vraag

Heb je en zakelijke oplossing of LMS-integratie nodig?

Heb je niet de cursus of het programma gevonden dat geschikt zou zijn voor jouw bedrijf? Heb je een LMS-integratie nodig? Neem contact met ons op! Wij zullen met een passende oplossing komen!

Big Data Hadoop en Spark Ontwikkelaar - eLearning

Belangrijkste kenmerken

Leerresultaten

Cursustijdlijn

Doelgroep

Verklaringen

Veelgestelde Vraag

Cursusdetails

Wat is Hadoop in Big Data?

Kenmerken van Hadoop

Gebruiksscenario's van Hadoop in Big Data

Voordelen van Hadoop

Wat is Spark in big data?

Gebruiksscenario's van Apache Spark in Big Data

Hoe Hadoop en Spark Elkaar Aanvullen

Cursusindeling

Betaling en overige

Wat is Hadoop in Big Data?

Kenmerken van Hadoop

Gebruiksscenario's van Hadoop in Big Data

Voordelen van Hadoop

Wat is Spark in big data?

Gebruiksscenario's van Apache Spark in Big Data

Hoe Hadoop en Spark Elkaar Aanvullen

Wat is eLearning?

Hoe lang heb ik toegang tot het eLearning-platform?

Hoe lang duurt het om de cursus te voltooien?

Wat gebeurt er nadat ik een cursus heb gekocht? Hoe begin ik met de eLearning cursus?

Een aankoop doen

Andere vragen