| Hafta | Konular | Ön Hazırlık |
|---|
| 1 | Konu Anlatımı: Büyük Veri Analizine Giriş Ders içeriği ve tanıtımı | Python Veri Bilimi Ekosistemine Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 1-5 |
| 2 | Konu Anlatımı: Python Veri Bilimi Ekosistemine Giriş Python kütüphaneleri (NumPy, Pandas, Matplotlib, Seaborn), Jupyter Notebook, IPython. Sınıf-içi Uygulama (5 dk.):Jupyter üzerinde NumPy & Pandas ile basit veri işlemleri. Sınıf-içi Tartışma (10dk): Neden Python veri bilimi için tercih ediliyor? | Python Veri Bilimi Ekosistemine Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 5-11 |
| 3 | Konu Anlatımı: Pandas ile Veri Okuma ve İşleme Veri okuma, seçme, filtreleme, gruplama. Sınıf-içi Uygulama (5 dk.):CSV veri okuma ve temel veri temizleme. Sınıf-içi Tartışma (10dk): Küçük veri ve büyük veri ayrımı. | Pandas ile Veri Okuma ve İşleme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 15-33 |
| 4 | Konu Anlatımı: Veri Görselleştirme, Matplotlib, Seaborn ile grafik türleri (line, scatter, histogram, boxplot). Sınıf-içi Uygulama (5 dk.):Seaborn ile dağılım ve histogram grafikleri. Sınıf-içi Tartışma (10dk): Görselleştirme hangi durumlarda analizi kolaylaştırır? | Veri Görselleştirme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 33-68 |
| 5 | Konu Anlatımı: Büyük veri çerçevelerine giriş ,Hadoop mimarisi (HDFS, YARN). Sınıf-içi Uygulama (5 dk.):HDFS üzerinde dosya yükleme/silme simülasyonu. Sınıf-içi Tartışma (10dk): Hadoop mu Spark mı? Avantaj–dezavantaj. | Büyük Veri Çerçevelerine Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 71-89 |
| 6 | Konu Anlatımı: Spark’a Giriş Spark ekosistemi, RDD ve DataFrame yapısı. Sınıf-içi Uygulama (5 dk.):PySpark ile veri okuma ve temel sorgulama. Sınıf-içi Tartışma (10dk): Spark’ın hız kazandıran yapısı. | Spark’a Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-100 |
| 7 | Konu Anlatımı: Spark SQL ve Veri İşleme, Spark SQL, data frame işlemleri, Parquet formatı. Sınıf-içi Uygulama (5 dk.):Spark SQL ile filtreleme, özetleme. Sınıf-içi Tartışma (10dk): SQL bilenler için Spark SQL’in pratikliği. | Spark SQL ve Veri İşleme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-114 |
| 8 | Ara Sınav 1 | |
| 9 | Konu Anlatımı: Spark ile Veri Görselleştirme Spark verilerinin Pandas & Matplotlib ile görselleştirilmesi. Sınıf-içi Uygulama (5 dk.):Spark DataFrame’den grafik oluşturma. Sınıf-içi Tartışma (10dk): Büyük veri görselleştirme kısıtları. | Spark ile Veri Görselleştirme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-114 |
| 10 | Konu Anlatımı: Spark ile veri manipülasyonu, kolon seçme, ekleme/çıkarma, sıralama, grupla toplama. Sınıf-içi Uygulama (5 dk.):PySpark ile veri manipülasyon örnekleri. Sınıf-içi Tartışma (10dk): Pandas vs Spark veri manipülasyonu.. | Spark ile Veri Manipülasyonu Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-114 |
| 11 | Konu Anlatımı: Eksik veriler ve korelasyon analizi Eksik veri türleri, doldurma/çıkarma stratejileri, korelasyon analizi. Sınıf-içi Uygulama (5 dk.):PySpark data framede missing value analizi. Sınıf-içi Tartışma (10dk): Eksik veriler sonuçları nasıl çarpıtır? | Eksik Veriler ve Korelasyon Analizi Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 117-129 |
| 12 | Konu Anlatımı: Keşifsel veri analizi (EDA), iş problemi tanımlama, veri pipeline, metrik seçimi. Sınıf-içi Uygulama (5 dk.):Bir veri setinde KPI analizi & özellik önem sırası. Sınıf-içi Tartışma (10dk): EDA neden modelden önce yapılmalı? | Keşifsel Veri Analizi (EDA) Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 131-155 |
| 13 | Konu Anlatımı: Keşifsel Veri Analizi (EDA) 2 İş problemi tanımlama, veri pipeline, metrik seçimi. Uygulama: Bir veri setinde KPI analizi & özellik önem sırası. Tartışma: EDA neden modelden önce yapılmalı? | Keşifsel Veri Analizi (EDA) 2 Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 131-155 |
| 14 | Öğrenci sunumlarının dinlenmesi | |
| 15 | Öğrenci sunumlarının dinlenmesi | |
| 16 | Final | |