C/DAWS : Big Data Analysis with Spark
4 gün (24 Saat) İleri Sınıf / Online NoSQL ve Büyük Veri
Spark, temelde açık kaynak olan bir veri işleme platformudur. Hem standalone hem de cluster yapısında çalıştırabileceğiniz bu platformu doğrudan apache sitesinden indirerek veya dağıtımlarını edinerek kullanabilirsiniz. Üstelik bir çok bulut bilişim sağlayıcısı tarafından kendi bulut çözümleri arasında farklı şekillerde hizmet olarak sunulmaktadır. Spark ile Apache Hadoop platformuna göre 100 kat daha hızlı veri işleyebilirsiniz."Data Analysis with Spark" eğitiminden sonra Spark SQL ile veri ambarı ve veri gölleri oluşturabilir, Spark Streaming ile akış halindeki milyonlarca veriyi analiz edebilir, Spark ML ile Makine Öğrenimi çalışmaları yürütebilir, Spark GraphX ile en kısa yol, varlıklar arası ilişkiler gibi çeşitli graph problemlerine çözüm üretebilirsiniz. Bu eğitim Spark ile Veri Analizi konusunda büyük bir ilerleme kaydetmenizi sağlayacak.
Eğitim İçeriği
Introduction to Data Analysis with Spark
- Spark Architecture
- Engine and Ecosystem
- Setting Up Your Environment
- Introduction to Spark Shells
- Introduction to Core Spark Concepts
- Standalone Applications
Programming with RDDs
- RDD Basics
- RDD Operations
- Transformations and Actions
- Persistence (Caching)
- Working with Key/Value Pairs
- Data Partitioning (Advanced)
Loading and Saving Your Data
- File Formats and Filesystems
- Structured Data with Spark SQL
- Databases
- External Data Sources
Advanced Spark Programming
- Accumulators
- Broadcast Variables
- Piping to External Programs
- Numeric RDD Operations
Running on a Cluster
- Spark Runtime Architecture
- Deploying Applications with spark-submit
- Cluster Managers
Spark SQL
- Loading and Saving Data
- JDBC/ODBC Server
- User-Defined Functions
- Spark SQL Performance
Spark Streaming
- Architecture and Abstraction
- Transformations and Windowing
- Output Operations
- Input Sources
- Streaming UI
Machine Learning with MLlib
- Machine Learning Basics
- Algorithms and ML Problem Types
- Pipeline API
Connecting the dots with GraphX
- Graph processing with Spark
- Graph algorithms
Tuning and Debugging Spark
- Configuring Spark with SparkConf
- Components of Execution: Jobs, Tasks, and Stages
- Spark Web UI and Logs
- Key Performance Considerations
Öncesinde Önerilenler
-
Data Engineer
Büyük Verinin İşlenmesi, Yönetimi, Veri Kalitesini Arttırma, Bulut Bilişim ve Veri Bilimi için Kodlama, Spark ve Hadoop gibi Dağıtık Mimariler ile Çalışma.
- C/STATI : Betimleyici ve Çıkarımsal İstatistik Temelleri
- C/STATF : İstatistik Esasları
- C/STATF+ : İstatistik Esasları (Genişletilmiş)
- MS/20761C : Querying Data with Transact-SQL
- C/TVTS : T-SQL ile Veri Tabanı Sorgulama (Microsoft SQL Server)
- MS/20777A : Implementing Microsoft Azure Cosmos DB Solutions
- C/PBSSBI : Power BI ile Self Service BI
- C/IRFDS : R Dili ve R ile Veri Analizi
- C/PDE : Python Dili Esasları
- C/IPFDS : Python Dili ve Python ile Veri Analizi
- C/PVA : Python ile Veri Analizi
- MS/20762C : Developing SQL Databases (Microsoft SQL Server)
- CMS/20764C : Administering a SQL Database Infrastructure
- MS/DP-300 : Administering Relational Databases on Microsoft Azure
- MS/20765C : Provisioning SQL Databases
- MS/10987C : Performance Tuning and Optimizing SQL Databases
- CMS/20767B : Implementing a SQL Data Warehouse
- MS/20768C : Developing SQL Data Models
- MS/10990C : Analyzing Data with SQL Server Reporting Services
- C/DMDQ : Veri Yönetimi ve Veri Kalitesi
- C/ADMT : İleri Veri Modelleme Teknikleri
- CMS/DP-203 : Data Engineering on Microsoft Azure
- C/AZSC-Synapse : Fundamentals of Azure Synapse Analytics
- C/BDA-Synapse : Data Analytics Solutions Using Azure Synapse Analytics
- MS/DP-500 : Designing and Implementing Enterprise-Scale Analytics Solutions Using Microsoft Azure and Microsoft Power BI
- CMS/DP-601T00A : Implementing a Lakehouse with Microsoft Fabric
-
Data Scientist
Yapay Zeka, Makine Öğrenimi, Derin Öğrenme Teknikleri ile Büyük Veri Kümelerinden Desen ve Eğilim Keşfetme
- C/STATI : Betimleyici ve Çıkarımsal İstatistik Temelleri
- C/STATF : İstatistik Esasları
- C/STATF+ : İstatistik Esasları (Genişletilmiş)
- MS/20761C : Querying Data with Transact-SQL
- C/TVTS : T-SQL ile Veri Tabanı Sorgulama (Microsoft SQL Server)
- C/PBSSBI : Power BI ile Self Service BI
- C/IRFDS : R Dili ve R ile Veri Analizi
- C/PDE : Python Dili Esasları
- C/IPFDS : Python Dili ve Python ile Veri Analizi
- C/PVA : Python ile Veri Analizi
- C/DMDQ : Veri Yönetimi ve Veri Kalitesi
- C/ADMT : İleri Veri Modelleme Teknikleri
- MS/AI-900 : Microsoft Azure AI Fundamentals
- MS/AI-100 : Designing and Implementing an Azure AI Solution
- MS/DP-100 : Designing and Implementing a Data Science Solution on Azure
- C/MOE : Makine Öğrenimi Esasları
- C/ADSB : Accelerated Data Science for Business
- C/AZSC-Synapse : Fundamentals of Azure Synapse Analytics
- MS/DP-500 : Designing and Implementing Enterprise-Scale Analytics Solutions Using Microsoft Azure and Microsoft Power BI
- CMS/DP-601T00A : Implementing a Lakehouse with Microsoft Fabric
Sonrasında Önerilenler
-
Data Engineer
Büyük Verinin İşlenmesi, Yönetimi, Veri Kalitesini Arttırma, Bulut Bilişim ve Veri Bilimi için Kodlama, Spark ve Hadoop gibi Dağıtık Mimariler ile Çalışma.
-
Data Scientist
Yapay Zeka, Makine Öğrenimi, Derin Öğrenme Teknikleri ile Büyük Veri Kümelerinden Desen ve Eğilim Keşfetme