Ders AdıKodu Yerel KrediAKTS Ders (saat/hafta)Uygulama (saat/hafta)Laboratuar (saat/hafta)
Büyük Veri Analizine GirişIST316235300
ÖnkoşullarYok
YarıyılBahar
Dersin Diliİngilizce, Türkçe
Dersin SeviyesiLisans
Dersin TürüSeçmeli @ İstatistik Lisans Programı (%30 İngilizce)
Seçmeli @ Matematik Lisans Programı
Seçmeli @ Fen Bilgisi Eğitimi Lisans Programı
Seçmeli @ Moleküler Biyoloji ve Genetik Lisans Programı
Ders KategorisiUzmanlık/Alan Dersleri
Dersin Veriliş ŞekliYüz yüze
Dersi Sunan Akademik Birimİstatistik Bölümü
Dersin KoordinatörüMehmet Şamil Güneş
Dersi Veren(ler)Mehmet Şamil Güneş, Coşkun Parim
Asistan(lar)ı
Dersin AmacıBu dersin amacı öğrencilerin büyük veri kaynaklarını ve yapılarını, ilgili programlama araçları kullanarak kavramayı amaçlamaktadır.
Dersin İçeriğiFarklı disiplinlerden gelen problemlere, büyük veri teknolojileri kullanılarak çözüm üretilmesi amacıyla, istatistiksel analizlere giriş için gerekli olan, büyük veri toplama, anlama, gerekli araçları kullanma ve farklı araçlar geliştirmeyi içermektedir.
Ders Kitabı / Malzemesi / Önerilen Kaynaklar
  • Ivan, Marin., Ankit, Shukla., Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning, 2019.
  • Cielen, Davy., ve Arno, Meysman. Introducing data science: big data, machine learning, and more, using Python tools, 2016.
Opsiyonel Program BileşenleriYok

Ders Öğrenim Çıktıları

  1. Büyük veri yapılarını tanıyabileceklerdir.
  2. Büyük veri düzenleme araçlarının kullanabileceklerdir.
  3. Programlama ile oluşturulan kod kümelerini hızlandırabileceklerdir.
  4. Özgün istatistiksel program oluşturma becerisi kazanabileceklerdir.
  5. Bir proje üzerinde grup olarak çalışma pratiği kazanabileceklerdir.

Ders Öğrenim Çıktısı & Program Çıktısı Matrisi

DÖÇ-1DÖÇ-2DÖÇ-3DÖÇ-4DÖÇ-5

Haftalık Konular ve İlgili Ön Hazırlık Çalışmaları

HaftaKonularÖn Hazırlık
1Konu Anlatımı: Büyük Veri Analizine Giriş Ders içeriği ve tanıtımı Python Veri Bilimi Ekosistemine Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 1-5
2Konu Anlatımı: Python Veri Bilimi Ekosistemine Giriş Python kütüphaneleri (NumPy, Pandas, Matplotlib, Seaborn), Jupyter Notebook, IPython. Sınıf-içi Uygulama (5 dk.):Jupyter üzerinde NumPy & Pandas ile basit veri işlemleri. Sınıf-içi Tartışma (10dk): Neden Python veri bilimi için tercih ediliyor?Python Veri Bilimi Ekosistemine Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 5-11
3Konu Anlatımı: Pandas ile Veri Okuma ve İşleme Veri okuma, seçme, filtreleme, gruplama. Sınıf-içi Uygulama (5 dk.):CSV veri okuma ve temel veri temizleme. Sınıf-içi Tartışma (10dk): Küçük veri ve büyük veri ayrımı.Pandas ile Veri Okuma ve İşleme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 15-33
4Konu Anlatımı: Veri Görselleştirme, Matplotlib, Seaborn ile grafik türleri (line, scatter, histogram, boxplot). Sınıf-içi Uygulama (5 dk.):Seaborn ile dağılım ve histogram grafikleri. Sınıf-içi Tartışma (10dk): Görselleştirme hangi durumlarda analizi kolaylaştırır?Veri Görselleştirme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 33-68
5Konu Anlatımı: Büyük veri çerçevelerine giriş ,Hadoop mimarisi (HDFS, YARN). Sınıf-içi Uygulama (5 dk.):HDFS üzerinde dosya yükleme/silme simülasyonu. Sınıf-içi Tartışma (10dk): Hadoop mu Spark mı? Avantaj–dezavantaj.Büyük Veri Çerçevelerine Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 71-89
6Konu Anlatımı: Spark’a Giriş Spark ekosistemi, RDD ve DataFrame yapısı. Sınıf-içi Uygulama (5 dk.):PySpark ile veri okuma ve temel sorgulama. Sınıf-içi Tartışma (10dk): Spark’ın hız kazandıran yapısı.Spark’a Giriş Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-100
7Konu Anlatımı: Spark SQL ve Veri İşleme, Spark SQL, data frame işlemleri, Parquet formatı. Sınıf-içi Uygulama (5 dk.):Spark SQL ile filtreleme, özetleme. Sınıf-içi Tartışma (10dk): SQL bilenler için Spark SQL’in pratikliği.Spark SQL ve Veri İşleme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-114
8Ara Sınav 1
9Konu Anlatımı: Spark ile Veri Görselleştirme Spark verilerinin Pandas & Matplotlib ile görselleştirilmesi. Sınıf-içi Uygulama (5 dk.):Spark DataFrame’den grafik oluşturma. Sınıf-içi Tartışma (10dk): Büyük veri görselleştirme kısıtları.Spark ile Veri Görselleştirme Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-114
10Konu Anlatımı: Spark ile veri manipülasyonu, kolon seçme, ekleme/çıkarma, sıralama, grupla toplama. Sınıf-içi Uygulama (5 dk.):PySpark ile veri manipülasyon örnekleri. Sınıf-içi Tartışma (10dk): Pandas vs Spark veri manipülasyonu..Spark ile Veri Manipülasyonu Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 91-114
11Konu Anlatımı: Eksik veriler ve korelasyon analizi Eksik veri türleri, doldurma/çıkarma stratejileri, korelasyon analizi. Sınıf-içi Uygulama (5 dk.):PySpark data framede missing value analizi. Sınıf-içi Tartışma (10dk): Eksik veriler sonuçları nasıl çarpıtır?Eksik Veriler ve Korelasyon Analizi Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 117-129
12Konu Anlatımı: Keşifsel veri analizi (EDA), iş problemi tanımlama, veri pipeline, metrik seçimi. Sınıf-içi Uygulama (5 dk.):Bir veri setinde KPI analizi & özellik önem sırası. Sınıf-içi Tartışma (10dk): EDA neden modelden önce yapılmalı?Keşifsel Veri Analizi (EDA) Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 131-155
13Konu Anlatımı: Keşifsel Veri Analizi (EDA) 2 İş problemi tanımlama, veri pipeline, metrik seçimi. Uygulama: Bir veri setinde KPI analizi & özellik önem sırası. Tartışma: EDA neden modelden önce yapılmalı?Keşifsel Veri Analizi (EDA) 2 Ivan Marin, Ankit Shukla, et al. 2019, “Big Data Analysis with Python: Combine Spark and Python to Unlock the Powers of Parallel Computing and Machine Learning”, 131-155
14Öğrenci sunumlarının dinlenmesi
15Öğrenci sunumlarının dinlenmesi
16Final

Değerlendirme Sistemi

EtkinliklerSayıKatkı Payı
Devam/Katılım
Laboratuar
Uygulama
Arazi Çalışması
Derse Özgü Staj
Küçük Sınavlar/Stüdyo Kritiği420
Ödev110
Sunum/Jüri
Projeler
Seminer/Workshop
Ara Sınavlar130
Final140
Dönem İçi Çalışmaların Başarı Notuna Katkısı
Final Sınavının Başarı Notuna Katkısı
TOPLAM100

AKTS İşyükü Tablosu

EtkinliklerSayıSüresi (Saat)Toplam İşyükü
Ders Saati143
Laboratuar
Uygulama141
Arazi Çalışması
Sınıf Dışı Ders Çalışması144
Derse Özgü Staj
Ödev142
Küçük Sınavlar/Stüdyo Kritiği41
Projeler
Sunum / Seminer
Ara Sınavlar (Sınav Süresi + Sınav Hazırlık Süresi)17
Final (Sınav Süresi + Sınav Hazırlık Süresi)110
Toplam İşyükü :
Toplam İşyükü / 30(s) :
AKTS Kredisi :
Diğer NotlarYok