Tantárgy azonosító adatok
1. A tárgy címe Adattudomány
2. A tárgy angol címe Data Science
3. Heti óraszámok (ea + gy + lab) és a félévvégi követelmény típusa 2 + 1 + 1 f Kredit 4
4. Ajánlott/kötelező előtanulmányi rend
vagy Tantárgy kód 1 Rövid cím 1 Tantárgy kód 2 Rövid cím 2 Tantárgy kód 3 Rövid cím 3
4.1
4.2
4.3
5. Kizáró tantárgyak
6. A tantárgy felelős tanszéke Sztochasztika Tanszék
7. A tantárgy felelős oktatója Dr. Simon Károly beosztása egyetemi tanár
Akkreditációs adatok
8. Akkreditációra benyújtás időpontja 2022.02.16. Akkreditációs bizottság döntési időpontja 2022.02.18.
Tematika
9. A tantárgy az alábbi témakörök ismeretére épít
differenciálszámítás, lineáris algebra, valószínűségszámítás
10. A tantárgy szerepe a képzés céljának megvalósításában (szak, kötelező, kötelezően választható, szabadon választható)
Aquincum Institute of Technology (AIT) válaszható tárgya a BME-vel való együttműködés keretében
11. A tárgy részletes tematikája
Syllabus
1. Introduction to Data Science: Concept, history and process (CRISP-DM) of Data Science, goal of data science and its applications. Attributes,
datasets, Big Data, Machine Learning tasks.
2. Data exploration, preparation and similarity measures: Data preparation, explanatory analysis, data visualization, summary statistics,
sampling, attribute aggregation, transformation, and discretization. Minkowski distance, Mahalanobis distance, Cosine similarity, SMC, Jaccard
index, Hamming distance, DTW.
3. kNN and Decision Tree: Method of nearest neighbors and its accelerations (K-d tree), Bayes classifier, Decision Tree, Hunt algorithm, split
purity, impurity metrics, validation.
4. Overfitting, validation: Generalization, training, test, and validation sets. Cross-validation, under and overfitting, Occam’s razor, confusion
matrix, performance indicators, ROC, AUC
5. Naive Bayes: Naive Bayes classifier, a posteriori and maximum likelihood estimation, estimation with normal distribution, Laplace and m
estimation
6. Linear regression: Parametric and nonparametric regression, kNN and Decision Tree for regression task, MSE, decomposition of MSE and
variance, Bias–Variance tradeoff, optimal solution of regression, linear regression, gradient descent, stochastic gradient descent, learning rate,
regularization, polynomial regression, interpreting linear regression models.
7. Logistic regression and SVM: Classification by regression, sigmoid function, logistic regression, linear separability, non-linear decision
boundary, logit model, maximal margin, support vectors and SVM
8. Neural networks: Biological motivation, activation function, perceptron and its relation to other algorithms, representing Boolean functions
with neural networks, deep-learning, forward propagation, backpropagation.
9. Ensemble learning: Ensemble methods, bagging, metamodels, boosting and AdaBoost, gradient boosting, Random Forest, semi-supervised
learning, classification of imbalanced data, SMOTE.
10. Cluster analysis: Concept, types, clustering algorithms, k-means algorithm, hierarchical clustering, distance of clusters, Simple-linkage and
Complete-linkage clustering, DBSCAN algorithm, core border and noise points, validation of clustering (distance matrix, SSE, silhouette)
11. Recomendation systems: content based recommender, collaborative filtering, user based and k nearest neighbour recommender, latent factor
recommender system, matrix factorization.
12. Követelmények, az osztályzat (aláírás) kialakításának módja
szorgalmi
időszakban
zárthelyi dolgozatok (2db), házi feladatok vizsga-
időszakban
13. Pótlási lehetőségek
TVSZ szerint
14. Konzultációs lehetőségek
oktatóval történő megegyezés szerint
15. Jegyzet, tankönyv, felhasználható irodalom
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006.
Jure Leskovec, Anand Rajaraman, Jeff Ullman: Mining of Massive Datasets
16. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka mennyisége órákban (a teljes szemeszterre számítva)
16.1 Kontakt óra
56
16.2 Félévközi felkészülés órákra
14
16.3 Felkészülés zárthelyire
20
16.4 Zárthelyik megírása
0
16.5 Házi feladat elkészítése
30
16.6 Kijelölt írásos tananyag elsajátítása (beszámoló)
0
16.7 Egyéb elfoglaltság
0
16.8 Vizsgafelkészülés
0
16.9 Összesen
120
17. Ellenőrző adat Kredit * 30
120
A tárgy tematikáját kidolgozta
18. Név beosztás Munkahely (tanszék, kutatóintézet, stb.)
Dr. Molontay Roland
tudományos munkatárs
MTA-BME Sztochasztika Kutatócsoport
A tanszékvezető
19. Neve aláírása
Dr. Simon Károly