Datamining I

Print

Sofokli Garo, PhD

Kodi
CMP 401
Emri
Datamining I
Semestri
1
Leksione
3.00
Seminare
1.00
Laboratore
0.00
Kredite
3.50
ECTS
6.00
Përshkrimi

This course explores the concepts and techniques of knowledge discovery and data mining. As a multidisciplinary field, data mining draws on work from areas including statistics, machine learning, pattern recognition, database technology, information retrieval, network science, knowledge-based systems, artificial intelligence, high-performance computing, and data visualization. This course focuses on issues relating to the feasibility, use- fulness, effectiveness, and scalability of techniques for the discovery of patterns hidden in large data sets. As a result, this course is not intended as an introduction to statistics, machine learning, database systems, or other such areas, although it does provide some background knowledge to facilitate the reader’s comprehension of their respective roles in data mining.

Objektivat

Ky kurs synon: - Të familjarizojë studentët me llojet e të dhënave. - T’i njohë studentët me teknikat dhe mënyrat e ndryshme të analizimit të të dhënave në sasi të mëdha. - T’i njohë studentët me mënyrat paraprocesimit të të dhënave. - Të shpjegojë rëndësinë, influencën dhe lidhjen e ngushtë të Data Mining në implementimin në fushën e shkencave kompjuterike për gjetjen e informacioneve të vlefshme. - Të zhvillojë tek studentët mendimin kritik në analizimin e dhe gjetjen e modeleve në të dhëna shumë dimensionale.

Java
Tema
1
Hyrje në Data Mining Në këtë leksion do të realizohet një njohje e përgjithshme e lëndës si dhe do të trajtohen tema të tila si çfarë është Data Mining, origjina dhe arsyeja e zhvillimit të Data Mining si dhe detyrat kryesore që mund të kryhen me anë të Data Mining. (Lit. bazë, fq. 21-42)
2
Llojet e të Dhënave Në këtë leksion do të trajtohen tema të tila si vetitë, llojet dhe vlerat e atributeve, kategorizimi dhe transformimi i të dhënave, bashkësitë e të dhënave dhe llojet e tyre si dhe analizimi i cilësesë së të dhënave për shkak të problematikave të matjeve dhe grumbullimit të të dhënave. (Lit. bazë, fq. 43-69)
3
Parapërpunimi i të Dhënave - 1 Në këtë leksion do të trajtohen masat e ndryshme të ngjashmërisë dhe distancave. Llojet kryesore të distancave që do të trajtohen janë Distanca Euklidiane, Distanca Minkoëski, Distanca Mahalanobis, llojet kryesore te ndashmërive që do të trajtohen janë Ngjashmëria midis vektorëve binare, Ngjashmëria Kosinusoidale si dhe Korrelacioni Pearson. (Lit. bazë, fq. 91-110)
4
Parapërpunimi i të Dhënave - 2 Në këtë leksion do të trajtohen teknika të para përpunimit të të dhënave dhi Agregimi, marrja e mostrave, reduktimi i dimensioneve, përzgjedhja e nëngrupit të veçorive, krijimi i veçorive të reja, diskretizimi, binarizimi, transformimi i variablave si dhe njësitë matëse të bazuara në informacion. (Lit. bazë, fq. 70-90)
5
Eksplorimi i të Dhënave - 1 Në këtë leksion do të trajtohen elementet bazë të statistikave përmbledhëse të të dhënave, si llojet e mesatareve, llojet e shpërndarjeve, masat e ndryshme të ngjashmërisë dhe ndryshimeve midis objekteve të ndryshme të të dhënave, llojet e njësive matëse të afërsisë, informacioni i ndersjelltë si dhe teknikat në përzgjedhjen e njësisë matëse të duhur. (Lit. e Rekomanduar, fq. 44 – 55)
6
Eksplorimi i të Dhënave - 2 Në këtë leksion do të trajtohen elementet bazë të statistikave përmbledhëse të të dhënave, si llojet e mesatareve, llojet e shpërndarjeve, masat e ndryshme të ngjashmërisë dhe ndryshimeve midis objekteve të ndryshme të të dhënave, llojet e njësive matëse të afërsisë, informacioni i ndersjelltë si dhe teknikat në përzgjedhjen e njësisë matëse të duhur. (Lit. e Rekomanduar, fq. 56 – 64 si dhe Lit. bazë, fq. 110-132)
7
Klasifikimi: Konceptet dhe Teknikat Bazë - 1 Në këtë leksion do të trajtohen konceptet bazë të klasifikimit, klasifikimi multiklasor dhe binar, qasjet e përgjithshme për ndërtimin e modelit të klasifikimit, metodat bazë për paraqitjen e kushteve të testimit, llogartija e masave të ndryshme të papastërtisë për lloje të ndryshme të dhënash si dhe algoritmet bazë të klasifikimit. (Lit. bazë, fq. 133-167)
8
Provimi gjysmë final
9
Klasifikimi: Konceptet dhe Teknikat Bazë - 2 Në këtë leksion do të trajtohen temat e mbipërshtatshmërisë së modelit klasifikues së përzgjedhur, vlerësimi dhe përzgjedhja i modeleve të ndryshme të klasifikimit, hiper parametrat si dhe kufizimet e algoritmeve bazë të klasifikimit. (Lit. bazë, fq. 167-212)
10
Rregullat e Shoqërimit: Konceptet dhe Algoritmat Bazë Në këtë leksion do të trajtohen konceptet dhe algoritmat bazë të rregullave të shoqërimit si principi Apriori, gjenerimi i grupeve të shpeshta të artikujve, përzgjedhja e kandidatëve, teknikat dhe metodat për gjenerimin e rregullave të shoqërimit si dhe kompleksiteti kompjuterik i algoritmeve bazë të rregullave të shoqërimit. (Lit. bazë, fq. 213-239)
11
Rregullat e Shoqërimit: Problematikat në përzgjedhjen dhe vlerësimin e modelit Në këtë leksion do të trajtohen tematika me të detajuara të rregullave të shoqërimit si përfaqësimi kompakt i grupeve të shpeshta të artikujve, metodat alternative për gjenerimin e grupeve të shpeshta të artikujve, algoritmi i rritjes FP, vlerësimi i modeleve të shoqërimit si dhe efekti i shpërndarjeve të njëanshme. (Lit. bazë, fq. 240-306)
12
Analiza e Grupimeve: Konceptet dhe Algoritmat Bazë Në këtë leksion do të trajtohen konceptet dhe algoritmat bazë të analizës së grupimeve si çfarë është Analiza e Grupimeve, llojet e ndryshme të mënyrave të grupimit, llojet e ndryshme të grupimeve si dhe një analizë e detajuar e algoritmit K-means. (Lit. bazë, fq. 307-335)
13
Analiza e Grupimeve: Problematikat në përzgjedhjen dhe vlerësimin e modelit Në këtë leksion do të trajtohen konceptet dhe algoritmat bazë të analizës së grupimeve si grumbullimi hierarkik aglomerativ, trajtimi i detajuar i algoritmit DBSCAN, si dhe teknikat dhe metodat e ndryshme për vlerësimin e grupimeve. (Lit. bazë, fq. 336-394)
14
Klasifikimi: Teknikat Alternative Në këtë leksion do të trajtohen llojet e klasifikuesve, klasifikuesit e bazuar në rregulla, klasifikuesit e fqinjit më të afërt, klasifikuesit Naive Bayes, Regresioni logjistik, Rrjeti Neural Artificial si dhe Support Vector Machine. (Lit. bazë, fq. 395-463, 478 - 498)
15
Prezantimi i Projekteve dhe Përsëritje
16
Provimi Final
1
Studentët do të jenë të aftë të kuptojnë llojet e ndryshme të të dhënave.
2
Studentët do të kenë njohuri mbi veçoritë dhe njësitë matëse statistikore të të dhënave.
3
Studentët do të përvetësojnë konceptet më të rëndësishme në lidhje me modelet dhe algoritmet bazë për gjetjen e informacioneve me vlerë.
4
Studentët do të jenë të aftë të kuptojnë rëndësinë e Data Mining në gjetjen e informacioneve me vlerë.
5
Studentët do të jenë të gatshëm për implementuar në praktikë njohuritë bazë të dhëna.
6
Studentët do të jenë të pajisur me njohuri të mjaftueshme teorike dhe praktike për të vijuar me lëndët e tjera pasardhëse.
Sasia Përqindja Përqindja totale
Gjysmë finale
1 30% 30%
Kuize
0 0% 0%
Projekte
1 30% 30%
Detyra
0 0% 0%
Laboratorët
0 0% 0%
Pjesëmarrja në mësim
0 0% 0%
Përqindja totale e vlerësimit
60%
Përqindja e provimit përfundimtar
40%
Përqindja totale
100%
Sasia Kohëzgjatja (orë) Gjithsej (orë)
Kohëzgjatja e kursit (përfshirë javët e provimit)
16 4 64
Orë studimi jashtë klasës
14 4 56
Detyrat
1 10 10
Gjysmë finale
1 10 10
Provimi përfundimtar
1 10 10
Të tjera
0 0 0
Ngarkesa totale e punës
150
Ngarkesa totale e punës / 25 (orë)
6.00
ECTS
6.00