C/PVPS : Pyhon, PySpark ve AirFlow ile Veri İşleme
5 gün (30 saat) Uzman Sınıf / Online NoSQL ve Büyük Veri
Bu eğitimde "PySpark ile Spark SQL" ve "Python ile Veri Analizi" eğitimlerinde detaylıca ele alınan bazı konulara odaklanıyoruz.
Eğitim İçeriği
Bu eğitimde Python ile Veri Analizi ve PySpark ile Spark SQL eğitimlerinde detaylarına odaklandığımız bazı konulara yer veriyoruz.
Module 1: Veri Analitiliği
- Veri Analiziinde Sıkça Yapılan Hatalar
- Veri Analitiği Tipleri
- Veri Analizi Süreçleri
- Veri ve Metaveri Tipleri
- Veri Yönetimi Modelleri
- Veri Yönetiminde Teknoloji Evrimi
- Büyük Veri ve Mücadele Noktaları
- Ölçeklenirme, MPP Mimarisi ve Dağıtık Mimari
- Çevik ve İleri Veri Modelleme Teknikleri
- Lambda ve Delta Mimarileri
Module 2: Dosyalar ile Çalışma
- os Kütüphanesi ve Shell komutlarını Kullanarak Klasorlerle Çalışmak
- open ile Dosyalara Yazma Okuma
- with kullanımı
- csv Veri Tipi İle Çalışma
- json Veri Tipi ile Çalışma
Module 3: Veri Tabanları İle Çalışmak
- DBAPI Tanıma
- sqlite3 ile Çalışma
- MSSQL ve Oracle gibi RDBMS'ler ile Çalışma
- Veritabanı Nesneleri Oluşturma
- Veri Ekleme,Güncelleme ve Okuma
Module 4: Webden İçerik Okuma
- urlretrieve ile Dosya İndirme
- urlopen ile İçerik Okuma
- encode, decode Kavramı
- re Kütüphanesi ile Regex İfadeleri Kullanarak Arama Yapma
- requests ile Get ve Post İstekleri Oluşturma
- BeautifulSoup ile HTML Etikelerine Erişmek
Module 5: Array ve Matrix Veri Yapıları (numpy)
- numpy Kütüphanesi ve Kullanım Alanları
- Array ve Matrix Tanımlama
- Nesneler Hakkında Bilgi Alma
- Bazı Matematiksel İşlemler
- Array Fonksiyonları
- Array Elemanlarına Erişme Yöntemleri
- where Kullanımı
- Numpy ile Veri Yazma Okuma
Module 6: Seri ve DataFrame Ver Yapıları (pandas)
- pandas Kütüphanesi ve Kullanım Alanları
- Seri ve DataFrame Tanımalama
- DF Yapısını Değiştirme
- DF Hakkında Bilgi Almak
- DF Elemanlarına Ulaşma Yöntemleri
- query, where, isin, filter kullanımı
- Değer Atama, Satır ve Sutun Ekleme
- None Tipi ile Çalışma
- Applmap, apply ve map Fonksiyonları Kullanımı
- groupby ile Veri Gruplama
- agg ile Veri Özetleme
- Hiyerarşik Yapılar ile Çalışma
- Birden Fazla DF'i Birleştirme (merge, join, concat)
- DF Şekillendirme (pivot, melt)
- DateTime Indexler ile Çalışma
- Grafik çizimleri
Module 7: Seri ve DataFrame Okuma Yazma (pandas io)
- pandas ile csv Dosyalarına Bağlanma
- converter ile Veri Düzeltme
- pandas ile Excel Dosyalarına Bağlanma
- pandas ile RDBMS'lere Bağlanma
- sqlalchemy Tanıma
- Style ve Option Kullanımı
Module 8: Veri Görselleştirme (matplotlib)
- matplotlib Kütüphanesi Esasları
- Tek Plot ile Çalışma
- Grafik Özelliklerini Düzenlemek
- Birden Fazla Plot ile Çalışmak
- Grafik Tiplerini Tanıma
- Grafikleri Kaydetmek
- imshow ile Resim Görüntüleme
- rcParams ile İleri Düzey Ayarlar
- Animatif Grafik Oluşturma
Module 9: Apache Spark ile Tanışma
- Spark Mimarisi ve Bileşenleri
- Spark Çalışma Ortamının Hazır Edilmesi
- Spark Shell, VSCode, Jupyter Kullanımı
- Spark Ortam Değişkenleri
- RDD, Action, Transformation, Lazy Aggregation
- Map-Reduce, Broadcast, Shuffle, Accumulators
Module 10: Spark SQL ile Veri İşlemeye Giriş
- Spark SQL ile Çalışma (Python ve SQL)
- Spark Session Oluşturma
- RDD, DataFrame ve Dataset
- PySpark, HiveQL, Pandas on Spark
Module 11: Spark ile Veri İşleme
- Yapısal (Databse) ve Yapısal Olmayan (CSV, Json, Parquet vs.) Veri Kaynaklarına Bağlanma
- Veri Görselleştirme ve Betimleyici İstatistik Teknikleri ile Veri Keşfi
- Veri Okuma, Filtreleme, Gruplama, Birleştirme vs.
- UDF ile Çalışma
- Diller Arasında Geçiş Yaparak Veri İşleme
- Spark ML Pipeline ile Veri Dönüştürme
- Spark MetaStore ile Çalışmak
- Spark ile Veri Depolama Çeşitleri (Managed / Unmanaged Table)
- Delta Disk Yapısı ve Tablo Tipi
- Partitionlar ile Verinin Organize Edilmesi
Module 12: Spark Ayarları
- SparkConf ile konfigurasyon
- Job, Task ve Stage, DAG vs
- Spark Web UI ve Loglar
- Performans İyileştirme İpuçları
Module 13: AirFlow ile Tanışma
- AirFlow Nedir ve Ne işe Yarar?
- AirFlow Bileşenleri
- AirFlow ile DAG (Workflow) Oluşturma
- Python ile DAG Zamanlama
Öncesinde Önerilenler
Öncesinde önerilen herhangi bir eğitim mevcut değil.
Sonrasında Önerilenler
Sonrasında önerilen herhangi bir eğitim mevcut değil.