Big Data Hadoop en Spark Ontwikkelaar - eLearning

450,00 EUR

  • 50 hours
eLearning

De Big Data Hadoop and Spark Developer Course is ontworpen om je een diepgaand inzicht te geven in de fundamenten van Apache Spark en het Hadoop framework, zodat je over de vaardigheden beschikt om uit te blinken als Big Data Developer. In dit programma doe je praktische kennis op van het Hadoop-ecosysteem en de integratie met Spark, zodat je enorme datasets efficiënt kunt verwerken en analyseren. Je leert hoe de verschillende onderdelen van Hadoop, zoals HDFS en MapReduce, naadloos in de Big Data-verwerkingscyclus passen, zodat je voorbereid bent op succes in de hedendaagse datagestuurde wereld.

Belangrijkste kenmerken

Taal

Cursus en materiaal zijn in het Engels

Niveau

Intermediair voor aspirant data-engineer

Toegang

1 jaar toegang tot het zelfstudie eLearning platform 24/7

11 uur aan videomateriaal

met een aanbevolen studieduur van 50 uur

Praktijken

Simulatietest, Virtueel lab en Eindproject van de cursus

Geen examen

Er is geen examen voor de cursus, maar de student ontvangt een certificaat van voltooiing van de training

Hero

Leerresultaten

In deze Big Data Hadoop en Spark Developer Cursus leert u:

Hadoop-ecosysteem

Leer hoe je door het Hadoop-ecosysteem kunt navigeren en begrijp hoe je het gebruik ervan kunt optimaliseren

Data importeren

Gegevens importeren met Sqoop, Flume en Kafka.

Bijenkorf

Implementeer partitionering, bucketing en indexering in Hive

Apache Spark

Werken met RDD in Apache Spark

Datastreaming

Verwerk real-time streaminggegevens en voer DataFrame-operaties uit in Spark met behulp van SQL-query's

Implementatie

Implementeer door de gebruiker gedefinieerde functies (UDF) en door de gebruiker gedefinieerde attribuutfuncties (UDAF) in Spark

Cursustijdlijn

Hero
  1. Introductie tot Big Data en Hadoop

    Les 01

    - Introductie tot Big Data en Hadoop
    - Introductie tot Big Data
    - Big Data Analyse
    - Wat is Big Data?
    - De vier V's van Big Data
    - Casestudy Royal Bank of Scotland
    - Uitdagingen van traditionele systemen
    - Gedistribueerde systemen
    - Introductie tot Hadoop
    - Onderdelen van het Hadoop Ecosysteem Deel Een
    - Onderdelen van het Hadoop Ecosysteem Deel Twee
    - Onderdelen van het Hadoop Ecosysteem Deel Drie
    - Commerciële Hadoop Distributies
    - Demo: Doorlopen van Simplilearn Cloudlab
    - Belangrijkste leerpunten
    - Kennistoets

  2. Hadoop-architectuur Gedistribueerde Opslag (HDFS) en YARN

    Les 02

    - Hadoop Architectuur Gedistribueerde Opslag (HDFS) en YARN
    - Wat is HDFS
    - De noodzaak van HDFS
    - Regulier Bestandssysteem vs HDFS
    - Kenmerken van HDFS
    - HDFS Architectuur en Componenten
    - Implementaties van High Availability Clusters
    - HDFS Component Bestandssysteem Namespace
    - Data Blok Splitsing
    - Data Replikatie Topologie
    - HDFS Commandoregel
    - Demo: Veelgebruikte HDFS Commando's
    - Praktijkproject: HDFS Commandoregel
    - Yarn Introductie
    - Yarn Gebruikscase
    - Yarn en zijn Architectuur
    - Resource Manager
    - Hoe de Resource Manager Werkt
    - Application Master
    - Hoe Yarn een Applicatie Uitvoert
    - Hulpmiddelen voor Yarn Ontwikkelaars
    - Demo: Doorloop van Cluster Deel Een
    - Demo: Doorloop van Cluster Deel Twee
    - Belangrijkste Inzichten Kenniscontrole
    - Praktijkproject: Hadoop Architectuur, Gedistribueerde Opslag (HDFS) en Yarn

  3. Data-import in Big Data-systemen en ETL

    Les 03

    - Gegevensinvoer in Big Data Systemen en ETL
    - Overzicht Data-import Deel Een
    - Overzicht Data-import Deel Twee
    - Apache Sqoop
    - Sqoop en het Gebruik
    - Sqoop Verwerking
    - Sqoop Importproces
    - Sqoop Connectoren
    - Demo: Importeren en Exporteren van Gegevens van MySQL naar HDFS
    - Praktijkproject: Apache Sqoop
    - Apache Flume
    - Flume Model
    - Schaalbaarheid in Flume
    - Componenten in Flume's Architectuur
    - Flume Componenten Configureren
    - Demo: Twitter Gegevens Invoeren
    - Apache Kafka Aggregeren van Gebruikersactiviteit met Kafka
    - Kafka Gegevensmodel
    - Partities
    - Apache Kafka Architectuur
    - Demo: Opzetten van een Kafka Cluster
    - Voorbeeld van API aan de Producentenkant
    - API aan de Consumentenkant
    - Voorbeeld van API aan de Consumentenkant
    - Kafka Connect
    - Demo: Creëren van een Voorbeeld Kafka data-pijplijn met Producent en Consument
    - Belangrijkste Inzichten
    - Kennistoets
    - Praktijkproject: Gegevensinvoer in Big Data Systemen en ETL

  4. Gedistribueerde Verwerking MapReduce Framework en Pig

    Les 04

    • Gedistribueerd Verwerkingsmapreduce Framework en Pig
    • Gedistribueerde Verwerking in Mapreduce
    • Voorbeeld van Woordentelling
    • Uitvoeringsfasen van Map
    • Gedistribueerde Uitvoering van Map in Twee-Knoopsomgeving
    • Mapreduce Taken
    • Interactie van Hadoop Mapreduce Taak Werk
    • Opzetten van de Omgeving voor Mapreduce Ontwikkeling
    • Set van Klassen
    • Een Nieuw Project Creëren
    • Geavanceerde MapReduce
    • Gegevenstypen in Hadoop
    • Uitvoerformaten in Mapreduce
    • Gebruik van Gedistribueerd Cache
    • Joins in MapReduce
    • Gerepliceerde Join
    • Introductie tot Pig Latin
    • Componenten van Pig
    • Pig Gegevensmodel
    • Interactieve Modi van Pig
    • Varkensoperaties
    • Diverse Relaties Uitgevoerd door Ontwikkelaars
    • Demo: Analyse van Webloggegevens met Mapreduce
    • Demo: Analyse van Verkoopgegevens en Oplossen van KPI's met Pig Praktijkproject: Apache Pig
    • Demo: Woordentelling
    • Belangrijkste Punten om te Onthouden
    • Kenniscontrole
    • Praktijkproject: Gedistribueerde Verwerking - Mapreduce Framework en Pig
  5. Apache Hive

    Les 05

    • Apache Hive
    • Hive SQL over Hadoop MapReduce
    • Hive Architectuur
    • Interfaces om Hive Queries uit te Voeren
    • Beeline Uitvoeren vanaf de Commandoregel
    • Hive Metastore
    • Hive DDL en DML
    • Nieuwe Tabel Aanmaken
    • Validatie van Gegevenstypen
    • Soorten Bestandsindelingen
    • Gegevensserialisatie
    • Hive-tabel en Avro-schema
    • Optimalisatie van Hive: Partitionering, Bucketing en Sampling
    • Tabel zonder Partities
    • Gegevensinvoer
    • Dynamische Partitionering in Hive
    • Bucketing
    • Wat Doen Buckets?
    • Hive Analytische UDF en UDAF
    • Andere Functies van Hive
    • Demo: Real-time Analyse en Gegevensfiltratie
    • Demo: Praktijkprobleem
    • Demo: Gegevensrepresentatie en Import met Hive
    • Belangrijkste Punten om te Onthouden
    • Kenniscontrole
    • Praktijkproject: Apache Hive
  6. NoSQL-databases HBase

    Les 06

    - NoSQL-databases HBase
    - Introductie tot NoSQL
    - Demo: Yarn Tuning
    - Overzicht van Hbase
    - Architectuur van Hbase
    - Gegevensmodel
    - Verbinding maken met HBase
    - Praktijkproject: HBase Shell
    - Belangrijkste inzichten
    - Kennistoets
    - Praktijkproject: NoSQL-databases - HBase

  7. Basisprincipes van functioneel programmeren en Scala

    Les 07

    - Basisprincipes van Functioneel Programmeren en Scala
    - Introductie tot Scala
    - Demo: Installatie van Scala
    - Functioneel Programmeren
    - Programmeren met Scala
    - Demo: Basis Literals en Rekenkundig Programmeren
    - Demo: Logische Operatoren
    - Type-inferentie, Klassen, Objecten en Functies in Scala
    - Demo: Type-inferentie, Functies, Anonieme Functie en Klasse
    - Collecties
    - Typen Collecties
    - Demo: Vijf Typen Collecties
    - Demo: Operaties op Lijst Scala REPL
    - Demo: Eigenschappen van Scala REPL
    - Belangrijkste Inzichten
    - Kennistoets
    - Praktijkproject: Apache Hive

  8. Apache Spark - Het volgende generatie Big Data-framework

    Les 08

    - Apache Spark Framework voor Big Data van de volgende generatie
    - Geschiedenis van Spark
    - Beperkingen van Mapreduce in Hadoop
    - Introductie tot Apache Spark
    - Onderdelen van Spark
    - Toepassing van In-memory Verwerking
    - Hadoop Ecosysteem vs Spark
    - Voordelen van Spark
    - Spark Architectuur
    - Spark Cluster in de Echte Wereld
    - Demo: Scala Programma's Uitvoeren in Spark Shell
    - Demo: Uitvoeringsomgeving Instellen in IDE
    - Demo: Spark Web UI
    - Belangrijkste Inzichten
    - Kennistoets
    - Praktijkproject: Apache Spark Framework voor Big Data van de volgende generatie

  9. Spark Core Verwerking RDD

    Les 09

    - Introduction to Spark RDD
    - RDD in Spark
    - Creating Spark RDD
    - Pair RDD
    - RDD Operations
    - Demo: Spark Transformation Detailed Exploration Using Scala Examples
    - Demo: Spark Action Detailed Exploration Using Scala
    - Caching and Persistence
    - Storage Levels
    - Lineage and DAG
    - Need for DAG
    - Debugging in Spark
    - Partitioning in Spark
    - Scheduling in Spark
    - Shuffling in Spark
    - Sort Shuffle Aggregating Data With Paired RDD
    - Demo: Spark Application With Data Written Back to HDFS and Spark UI
    - Demo: Changing Spark Application Parameters
    - Demo: Handling Different File Formats
    - Demo: Spark RDD With Real-world Application
    - Demo: Optimizing Spark Jobs
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark Core Processing RDD

  10. Spark SQL Verwerken van DataFrames

    De 10

    - Spark SQL Processing DataFrames
    - Spark SQL Introduction
    - Spark SQL Architecture
    - Dataframes
    - Demo: Handling Various Data Formats
    - Demo: Implement Various Dataframe Operations
    - Demo: UDF and UDAF
    - Interoperating With RDDs
    - Demo: Process Dataframe Using SQL Query
    - RDD vs Dataframe vs Dataset
    - Practice Project: Processing Dataframes
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark SQL - Processing Dataframes

  11. Modelleren van BigData met Spark MLib

    De 11

    - Spark Mlib Modellering van grote gegevens met Spark
    - Rol van Data Scientist en Data Analyst in Big Data
    - Analytics in Spark
    - Machine Learning
    - Begeleid leren
    - Demo: Classificatie van Lineaire SVM
    - Demo: Lineaire Regressie met praktijkgevallen
    - Onbegeleid leren
    - Demo: Onbegeleide Clustering K-means
    - Versterkend leren
    - Semi-begeleid leren
    - Overzicht van Mlib
    - Mlib Pipelines
    - Belangrijkste inzichten
    - Kennistoets
    - Praktijkproject: Spark Mlib - Modellering van big data met Spark

  12. Streamverwerkingsframeworks en Spark Streaming

    De 12

    - Overzicht van Streaming
    - Realtime Verwerking van Big Data
    - Data Verwerkingsarchitecturen
    - Demo: Realtime Gegevensverwerking met Spark Streaming
    - Demo: Een Spark Streaming Applicatie Schrijven
    - Introductie tot DStreams
    - Transformaties op DStreams
    - Ontwerppatronen voor het Gebruik van Foreachrdd
    - Statusbewerkingen
    - Vensterbewerkingen
    - Join Bewerkingen Stream-dataset Join
    - Demo: Vensterbewerkingen van Realtime Gegevensverwerking Streamingbronnen
    - Demo: Verwerking van Twitter Streaminggegevens
    - Gestroomlijnde Spark Streaming-
    - Gebruiksscenario Banktransacties
    - Architectuurmodel en Componenten van Gestroomlijnde Streaming
    - Output Sinks
    - API's voor Gestroomlijnde Streaming
    - Kolommen Construeren in Gestroomlijnde Streaming
    - Vensterbewerkingen op Gebeurtenistijd
    - Gebruiksscenario's
    - Demo: Streaming Pipeline
    - Praktijkproject: Spark Streaming
    - Belangrijkste Inzichten
    - Kennistoets
    - Praktijkproject: Streamverwerkingsframeworks en Spark Streaming

  13. Spark GraphX

    Les 13

    - Spark GraphX
    - Introductie tot Grafen
    - GraphX in Spark
    - GraphX Operatoren
    - Join Operatoren
    - GraphX Parallel Systeem
    - Algoritmen in Spark
    - Pregel API
    - Gebruikscasus van GraphX
    - Demo: GraphX Vertex Predicaat
    - Demo: Page Rank Algoritme
    - Belangrijkste Inzichten
    - Kennistoets
    - Praktijkproject: Spark GraphX Projectondersteuning

Big data hadoop cursus

Doelgroep

Ideaal voor een breed scala aan professionals en individuen die hun carrière in big data-analyse, data-engineering en datawetenschap willen bevorderen.

Vereisten: Het wordt aanbevolen dat u kennis heeft van Core Java en SQL

Analyseprofessionals

Senior IT-professionals

Test- en mainframeprofessionals

Data management professionals

Business intelligence professionals

Projectmanagers

Afgestudeerden die een carrière in big data-analyse willen beginnen

Begin nu

Verklaringen

Licenties en accreditatie

De Big Data Hadoop en Spark Ontwikkelaar wordt aangeboden door Simplilearn volgens de Partner Programma Overeenkomst en voldoet aan de vereisten van de Licentieovereenkomst. AVC promoot deze cursus namens Simplilearn.

Gelijkheidsbeleid

Simplilearn biedt geen accommodatie vanwege een handicap of medische aandoening van studenten. Kandidaten worden aangemoedigd om contact op te nemen met AVC voor begeleiding en ondersteuning gedurende het accommodatieproces.

Veelgestelde Vraag

Heb je en zakelijke oplossing of LMS-integratie nodig?

Heb je niet de cursus of het programma gevonden dat geschikt zou zijn voor jouw bedrijf? Heb je een LMS-integratie nodig? Neem contact met ons op! Wij zullen met een passende oplossing komen!

;