Tantárgy azonosító adatok
1. A tárgy címe Statisztikai módszerek az adatbányászatban
2. A tárgy angol címe Statistical methods in data mining
3. Heti óraszámok (ea + gy + lab) és a félévvégi követelmény típusa 2 + 0 + 0 v Kredit 3
4. Ajánlott/kötelező előtanulmányi rend
vagy Tantárgy kód 1 Rövid cím 1 Tantárgy kód 2 Rövid cím 2 Tantárgy kód 3 Rövid cím 3
4.1 BMETE951213 Mat stat ea.
4.2 BMETE951233 Mat stat gy.
4.3
5. Kizáró tantárgyak
6. A tantárgy felelős tanszéke Sztochasztika Tanszék
7. A tantárgy felelős oktatója Dr. Bolla Marianna beosztása egyetemi docens
Akkreditációs adatok
8. Akkreditációra benyújtás időpontja 2006.11.16. Akkreditációs bizottság döntési időpontja 2006.12.19.
Tematika
9. A tantárgy az alábbi témakörök ismeretére épít
Paraméteres és nemparaméteres statisztikai módszerek, feltételes várható érték, gráfok, mátrixok.
10. A tantárgy szerepe a képzés céljának megvalósításában (szak, kötelező, kötelezően választható, szabadon választható)
Szabadon választható tárgy. A statisztika modern algoritmikus modelljeinek alkalmazása hálózatokra és nagyméretű diszkrét adatrendszerekre.
11. A tárgy részletes tematikája
Napjaink nagyméretű, sokdimenziós adatrendszerei a klasszikus statisztikai módszerek keretein túlmutató vizsgálatokat igénye lnek. Bemutatjuk az erre a célra az utóbbi ötven évben kifejlesztett ún. algoritmikus modelleket: EM-algoritmus hiányos adatokra, ACE-algoritmus általánosított regresszióra, Kaplan-Meier becslések cenzorált adatokra, jackknife és bootstrap algoritmusok újramintavételezésre. Regresszió és diszkriminanciaanalízis összekapcsolása a Gauss-Markov elmélet és Bayes-döntések alapján. Autokorrelációk vizsgálata idősorokban, ARMA- folyamatok. Paraméterbecslés, identifikáció. Hálózatok struktúrájának feltárása nemparaméteres statisztikai módszerek és gráfok spektrális tulajdonságai segítségével. Többváltozós korrespondanciaanalízis és homogenitásvizsgálat többdimenziós kontingenciatáblákra, diszkrét változók varianciaanalízise, ran gstatisztikák. Gráfok és hipergráfok Laplace-mátrixa, k-vágások mérőszámainak becslése a sajátértékekkel. Spektrális gráfklaszterezés a Laplace-mátrix sajátvektoraival. Nagyméretű véletlen mátrixok kiugró sajátértékeinek ill. szinguláris értékeinek aszimptotikus viselkedése és eloszlásuk speciális esetekben. Véletlenített módszerek nagyméretű téglalapmátrixok szinguláris felbontására. Hatvány fokszámeloszlású véletlen gráfok statisztikus jellemzői. A matematikai egzaktsággal tárgyalt elméleten túl szó lesz konkrét alkalmazási lehetőségekről az adatbányászatban (internetes, pénzügyi adatrendszerek, kommunális hálózatok, microarrayk, sejtek metabolikus rendszere).
12. Követelmények, az osztályzat (aláírás) kialakításának módja
szorgalmi
időszakban
szabadon feldolgozott cikk, órák látogatása vizsga-
időszakban
vizsga
13. Pótlási lehetőségek
vizsgaidőszak első hetében pótbeszámoló a feldolgozott cikkről
14. Konzultációs lehetőségek
hetente fogadóóra, vizsgák előtt külön konzultáció
15. Jegyzet, tankönyv, felhasználható irodalom
T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning. Data Mining... Springer, New York, 2001.
B. Bollobás: Random Graphs, 2nd ed., Cambridge University Press, 2001.
F. R. K. Chung: Spectral Graph theory, CBMS Series, No. 92, AMS Publ., 1997.
16. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka mennyisége órákban (a teljes szemeszterre számítva)
16.1 Kontakt óra
28
16.2 Félévközi felkészülés órákra
28
16.3 Felkészülés zárthelyire
0
16.4 Zárthelyik megírása
0
16.5 Házi feladat elkészítése
12
16.6 Kijelölt írásos tananyag elsajátítása (beszámoló)
5
16.7 Egyéb elfoglaltság
0
16.8 Vizsgafelkészülés
17
16.9 Összesen
90
17. Ellenőrző adat Kredit * 30
90
A tárgy tematikáját kidolgozta
18. Név beosztás Munkahely (tanszék, kutatóintézet, stb.)
Dr. Bolla Marianna
egyetemi docens
Sztochasztika Tanszék
A tanszékvezető
19. Neve aláírása
Dr. Tóth Bálint