C/PSS : PySpark ile Spark SQL
3 gün (18 saat) İleri Sınıf / Online NoSQL ve Büyük Veri
Yetenekli ve geniş kütüphane yelpazesine sahip Python dili ve ister tek bilgisayar, istersek onlarca bilgisayarın gücünü kullanan Spark ile Büyük Veri Analizi yapabilirsiniz. "PySpark ile Spark SQL" eğitiminde Veri Mühendislerinin veri okuma, işleme, dönüştürme, görselleştirme ve depolama konusundaki ihtiyaçlarına odaklanıyoruz. Bu eğitimde güncel Veri Analitiği yaklaşımları ve Veri Modelleri ışığında Spark, Python, SQL üçlüsünün Spark SQL bileşeni ile kullanımları konusunda detaylara vakıf olabileceksiniz.
Eğitim İçeriği
Module 1: Veri Analitiliği
- Veri Analiziinde Sıkça Yapılan Hatalar
- Veri Analitiği Tipleri
- Veri Analizi Süreçleri
- Veri ve Metaveri Tipleri
- Veri Yönetimi Modelleri
- Veri Yönetiminde Teknoloji Evrimi
- Büyük Veri ve Mücadele Noktaları
- Ölçeklenirme, MPP Mimarisi ve Dağıtık Mimari
- Çevik ve İleri Veri Modelleme Teknikleri
- Lambda ve Delta Mimarileri
Module 2: Apache Spark ile Tanışma
- Spark Mimarisi ve Bileşenleri
- Spark Çalışma Ortamının Hazır Edilmesi
- Spark Shell, VSCode, Jupyter Kullanımı
- Spark Ortam Değişkenleri
- RDD, Action, Transformation, Lazy Aggregation
- Map-Reduce, Broadcast, Shuffle, Accumulators
Module 3: Spark SQL ile Veri İşlemeye Giriş
- Spark SQL ile Çalışma (Python ve SQL)
- Spark Session Oluşturma
- RDD, DataFrame ve Dataset
- PySpark, HiveQL, Pandas on Spark
Module 4: Spark ile Veri İşleme
- Yapısal (Databse) ve Yapısal Olmayan (CSV, Json, Parquet vs.) Veri Kaynaklarına Bağlanma
- Veri Görselleştirme ve Betimleyici İstatistik Teknikleri ile Veri Keşfi
- Veri Okuma, Filtreleme, Gruplama, Birleştirme vs.
- UDF ile Çalışma
- Diller Arasında Geçiş Yaparak Veri İşleme
- Spark ML Pipeline ile Veri Dönüştürme
- Spark MetaStore ile Çalışmak
- Spark ile Veri Depolama Çeşitleri (Managed / Unmanaged Table)
- Delta Disk Yapısı ve Tablo Tipi
- Partitionlar ile Verinin Organize Edilmesi
Module 5: Spark Üzerinde Akan Veri Analizine Giriş
- Batch vs Stream Veri
- Spark Streaming vs Structured Streaming
- Akan Veri Kaynakların Okunması
- Akan Verinin Analizinde Pencereleme ve Sınırsız Tablo ile Çalışma
- Akan Verinin Sorgulanması, Dönüştürülmesi ve Depolanması
Module 6: AirFlow ile Tanışma
- AirFlow Nedir ve Ne işe Yarar?
- AirFlow Bileşenleri
- AirFlow ile DAG (Workflow) Oluşturma
- Python ile DAG Zamanlama
Module 7: Spark Ayarları
- SparkConf ile konfigurasyon
- Job, Task ve Stage, DAG vs
- Spark Web UI ve Loglar
- Performans İyileştirme İpuçları
Öncesinde Önerilenler
-
Data Engineer
Büyük Verinin İşlenmesi, Yönetimi, Veri Kalitesini Arttırma, Bulut Bilişim ve Veri Bilimi için Kodlama, Spark ve Hadoop gibi Dağıtık Mimariler ile Çalışma.
- C/STATI : Betimleyici ve Çıkarımsal İstatistik Temelleri
- C/STATF : İstatistik Esasları
- C/STATF+ : İstatistik Esasları (Genişletilmiş)
- MS/20761C : Querying Data with Transact-SQL
- C/TVTS : T-SQL ile Veri Tabanı Sorgulama (Microsoft SQL Server)
- MS/20777A : Implementing Microsoft Azure Cosmos DB Solutions
- C/PBSSBI : Power BI ile Self Service BI
- C/IRFDS : R Dili ve R ile Veri Analizi
- C/PDE : Python Dili Esasları
- C/IPFDS : Python Dili ve Python ile Veri Analizi
- C/PVA : Python ile Veri Analizi
- MS/20762C : Developing SQL Databases (Microsoft SQL Server)
- CMS/20764C : Administering a SQL Database Infrastructure
- MS/DP-300 : Administering Relational Databases on Microsoft Azure
- MS/20765C : Provisioning SQL Databases
- MS/10987C : Performance Tuning and Optimizing SQL Databases
- CMS/20767B : Implementing a SQL Data Warehouse
- MS/20768C : Developing SQL Data Models
- MS/10990C : Analyzing Data with SQL Server Reporting Services
- C/DMDQ : Veri Yönetimi ve Veri Kalitesi
- C/ADMT : İleri Veri Modelleme Teknikleri
- CMS/DP-203 : Data Engineering on Microsoft Azure
- C/AZSC-Synapse : Fundamentals of Azure Synapse Analytics
- C/BDA-Synapse : Data Analytics Solutions Using Azure Synapse Analytics
- MS/DP-500 : Designing and Implementing Enterprise-Scale Analytics Solutions Using Microsoft Azure and Microsoft Power BI
- CMS/DP-601T00A : Implementing a Lakehouse with Microsoft Fabric
- C/DAWS : Big Data Analysis with Spark
-
Data Scientist
Yapay Zeka, Makine Öğrenimi, Derin Öğrenme Teknikleri ile Büyük Veri Kümelerinden Desen ve Eğilim Keşfetme
- C/STATI : Betimleyici ve Çıkarımsal İstatistik Temelleri
- C/STATF : İstatistik Esasları
- C/STATF+ : İstatistik Esasları (Genişletilmiş)
- MS/20761C : Querying Data with Transact-SQL
- C/TVTS : T-SQL ile Veri Tabanı Sorgulama (Microsoft SQL Server)
- C/PBSSBI : Power BI ile Self Service BI
- C/IRFDS : R Dili ve R ile Veri Analizi
- C/PDE : Python Dili Esasları
- C/IPFDS : Python Dili ve Python ile Veri Analizi
- C/PVA : Python ile Veri Analizi
- C/DMDQ : Veri Yönetimi ve Veri Kalitesi
- C/ADMT : İleri Veri Modelleme Teknikleri
- MS/AI-900 : Microsoft Azure AI Fundamentals
- MS/AI-100 : Designing and Implementing an Azure AI Solution
- MS/DP-100 : Designing and Implementing a Data Science Solution on Azure
- C/MOE : Makine Öğrenimi Esasları
- C/ADSB : Accelerated Data Science for Business
- C/AZSC-Synapse : Fundamentals of Azure Synapse Analytics
- MS/DP-500 : Designing and Implementing Enterprise-Scale Analytics Solutions Using Microsoft Azure and Microsoft Power BI
- CMS/DP-601T00A : Implementing a Lakehouse with Microsoft Fabric
- C/DAWS : Big Data Analysis with Spark
Sonrasında Önerilenler
-
Data Engineer
Büyük Verinin İşlenmesi, Yönetimi, Veri Kalitesini Arttırma, Bulut Bilişim ve Veri Bilimi için Kodlama, Spark ve Hadoop gibi Dağıtık Mimariler ile Çalışma.
-
Data Scientist
Yapay Zeka, Makine Öğrenimi, Derin Öğrenme Teknikleri ile Büyük Veri Kümelerinden Desen ve Eğilim Keşfetme