C/PVPS : Pyhon, PySpark ve AirFlow ile Veri İşleme

5 gün (30 saat) Uzman Sınıf / Online NoSQL ve Büyük Veri


Bu eğitimde "PySpark ile Spark SQL" ve "Python ile Veri Analizi" eğitimlerinde detaylıca ele alınan bazı konulara odaklanıyoruz.


Eğitim İçeriği

Bu eğitimde Python ile Veri Analizi ve PySpark ile Spark SQL eğitimlerinde detaylarına odaklandığımız bazı konulara yer veriyoruz.

Module 1: Veri Analitiliği

  • Veri Analiziinde Sıkça Yapılan Hatalar
  • Veri Analitiği Tipleri
  • Veri Analizi Süreçleri
  • Veri ve Metaveri Tipleri
  • Veri Yönetimi Modelleri
  • Veri Yönetiminde Teknoloji Evrimi
  • Büyük Veri ve Mücadele Noktaları
  • Ölçeklenirme, MPP Mimarisi ve Dağıtık Mimari
  • Çevik ve İleri Veri Modelleme Teknikleri
  • Lambda ve Delta Mimarileri

Module 2: Dosyalar ile Çalışma

  • os Kütüphanesi ve Shell komutlarını Kullanarak Klasorlerle Çalışmak
  • open ile Dosyalara Yazma Okuma
  • with kullanımı
  • csv Veri Tipi İle Çalışma
  • json Veri Tipi ile Çalışma

Module 3: Veri Tabanları İle Çalışmak

  • DBAPI Tanıma
  • sqlite3 ile Çalışma
  • MSSQL ve Oracle gibi RDBMS'ler ile Çalışma
  • Veritabanı Nesneleri Oluşturma
  • Veri Ekleme,Güncelleme ve Okuma

Module 4: Webden İçerik Okuma

  • urlretrieve ile Dosya İndirme
  • urlopen ile İçerik Okuma
  • encode, decode Kavramı
  • re Kütüphanesi ile Regex İfadeleri Kullanarak Arama Yapma
  • requests ile Get ve Post İstekleri Oluşturma
  • BeautifulSoup ile HTML Etikelerine Erişmek

Module 5: Array ve Matrix Veri Yapıları (numpy)

  • numpy Kütüphanesi ve Kullanım Alanları
  • Array ve Matrix Tanımlama
  • Nesneler Hakkında Bilgi Alma
  • Bazı Matematiksel İşlemler
  • Array Fonksiyonları
  • Array Elemanlarına Erişme Yöntemleri
  • where Kullanımı
  • Numpy ile Veri Yazma Okuma

Module 6: Seri ve DataFrame Ver Yapıları (pandas)

  • pandas Kütüphanesi ve Kullanım Alanları
  • Seri ve DataFrame Tanımalama
  • DF Yapısını Değiştirme
  • DF Hakkında Bilgi Almak
  • DF Elemanlarına Ulaşma Yöntemleri
  • query, where, isin, filter kullanımı
  • Değer Atama, Satır ve Sutun Ekleme
  • None Tipi ile Çalışma
  • Applmap, apply ve map Fonksiyonları Kullanımı
  • groupby ile Veri Gruplama
  • agg ile Veri Özetleme
  • Hiyerarşik Yapılar ile Çalışma
  • Birden Fazla DF'i Birleştirme (merge, join, concat)
  • DF Şekillendirme (pivot, melt)
  • DateTime Indexler ile Çalışma
  • Grafik çizimleri

Module 7: Seri ve DataFrame Okuma Yazma (pandas io)

  • pandas ile csv Dosyalarına Bağlanma
  • converter ile Veri Düzeltme
  • pandas ile Excel Dosyalarına Bağlanma
  • pandas ile RDBMS'lere Bağlanma
  • sqlalchemy Tanıma
  • Style ve Option Kullanımı

Module 8: Veri Görselleştirme (matplotlib)

  • matplotlib Kütüphanesi Esasları
  • Tek Plot ile Çalışma
  • Grafik Özelliklerini Düzenlemek
  • Birden Fazla Plot ile Çalışmak
  • Grafik Tiplerini Tanıma
  • Grafikleri Kaydetmek
  • imshow ile Resim Görüntüleme
  • rcParams ile İleri Düzey Ayarlar
  • Animatif Grafik Oluşturma

Module 9: Apache Spark ile Tanışma

  • Spark Mimarisi ve Bileşenleri
  • Spark Çalışma Ortamının Hazır Edilmesi
  • Spark Shell, VSCode, Jupyter Kullanımı
  • Spark Ortam Değişkenleri
  • RDD, Action, Transformation, Lazy Aggregation
  • Map-Reduce, Broadcast, Shuffle, Accumulators

Module 10: Spark SQL ile Veri İşlemeye Giriş

  • Spark SQL ile Çalışma (Python ve SQL)
  • Spark Session Oluşturma
  • RDD, DataFrame ve Dataset
  • PySpark, HiveQL, Pandas on Spark

Module 11: Spark ile Veri İşleme

  • Yapısal (Databse) ve Yapısal Olmayan (CSV, Json, Parquet vs.) Veri Kaynaklarına Bağlanma
  • Veri Görselleştirme ve Betimleyici İstatistik Teknikleri ile Veri Keşfi
  • Veri Okuma, Filtreleme, Gruplama, Birleştirme vs.
  • UDF ile Çalışma
  • Diller Arasında Geçiş Yaparak Veri İşleme
  • Spark ML Pipeline ile Veri Dönüştürme
  • Spark MetaStore ile Çalışmak
  • Spark ile Veri Depolama Çeşitleri (Managed / Unmanaged Table)
  • Delta Disk Yapısı ve Tablo Tipi
  • Partitionlar ile Verinin Organize Edilmesi

Module 12: Spark Ayarları

  • SparkConf ile konfigurasyon
  • Job, Task ve Stage, DAG vs
  • Spark Web UI ve Loglar
  • Performans İyileştirme İpuçları

Module 13: AirFlow ile Tanışma

  • AirFlow Nedir ve Ne işe Yarar?
  • AirFlow Bileşenleri
  • AirFlow ile DAG (Workflow) Oluşturma
  • Python ile DAG Zamanlama

Öncesinde Önerilenler

Öncesinde önerilen herhangi bir eğitim mevcut değil.

Sonrasında Önerilenler

Sonrasında önerilen herhangi bir eğitim mevcut değil.