mail unicampaniaunicampania webcerca

    Rosanna CAMPAGNA

    Insegnamento di NUMERICAL METHODS FOR DATA ANALYSIS

    Corso di laurea in DATA ANALYTICS

    SSD: MAT/08

    CFU: 6,00

    ORE PER UNITÀ DIDATTICA: 48,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua insegnamento

    Inglese

    Contenuti

    L’insegnamento tratta la progettazione e l’implementazione di metodi numerici per il data mining, inclusi PCA, algoritmi di clustering (k-means, k-medoids), analisi discriminante lineare (LDA) e fattorizzazione matriciale non negativa (NMF). Vengono inoltre approfondite applicazioni a text mining, image mining e page ranking.

    Testi di riferimento

    - D. Calvetti, E. Somersalo, Data Mining: An Algorithmic Approach to Clustering and Classification, SIAM, 2018.
    - T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, 2nd ed., New York, Springer, 2008.
    - X. Yang, Introduction to Algorithms for Data Mining and Machine Learning, Londra, Elsevier, 2019.

    Obiettivi formativi

    Al termine dell’insegnamento, lo studente dovrà raggiungere i seguenti risultati:

    - Conoscenza e capacità di comprensione: Acquisire conoscenze di base sui metodi numerici e gli algoritmi per l’analisi dei dati e il data mining.
    - Utilizzazione delle conoscenze e capacità di comprensione: Saper selezionare e implementare correttamente in ambiente MATLAB i metodi numerici studiati.
    - Capacità di trarre conclusioni (Autonomia di giudizio): Valutare criticamente le prestazioni dei codici implementati e interpretare i risultati ottenuti su problemi test.
    - Abilità comunicative: Saper illustrare i metodi e gli strumenti appresi utilizzando un linguaggio tecnico e scientifico adeguato.
    - Capacità di apprendere: Sviluppare abilità autonome nello sviluppo di script e funzioni complesse per l’estrazione di conoscenza dai dati.

    Prerequisiti

    Nessuna propedeuticità obbligatoria; tuttavia, è caldamente consigliata la conoscenza dei contenuti di Algebra Lineare e Analisi Matematica.

    Metodi didattici

    L’insegnamento prevede 48 ore totali: 32 ore di lezioni frontali (4 CFU) e 16 ore di esercitazioni di tipo laboratoriale (2 CFU).

    Modalità di verifica dell'apprendimento

    L’esame consiste in una prova scritta ed una prova orale, con presentazione e discussione di codici MATLAB implementati dallo studente su problemi test. La valutazione segue questa rubrica:

    Voto, Descrittore, Criteri di Valutazione:
    30 - 30L Codici ottimizzati e robusti; interpretazione eccellente dei risultati; linguaggio tecnico impeccabile.
    26 - 29 Ottima implementazione degli algoritmi; buona capacità di analisi delle prestazioni e stabilità numerica.
    22 - 25 Buona conoscenza dei metodi e corretta esecuzione dei codici su problemi standard.
    18 - 21 Conoscenza minima degli algoritmi di base e sufficiente capacità di utilizzo di MATLAB.

    Altre informazioni

    La frequenza è fortemente consigliata.

    Le attività di laboratorio sono parte integrante del programma.

    Programma esteso

    L’insegnamento è articolato nei seguenti moduli:

    Preliminari di Calcolo Numerico e Algebra Lineare (1.5 CFU / 12 ore): Aritmetica a precisione finita, errori, epsilon macchina, criterio di arresto naturale; vettori, matrici, norme, proiezioni ortogonali. Decomposizione ai valori singolari (SVD).
    Algoritmi di riduzione della dimensionalità e Clustering (1 CFU / 8 ore): PCA, cenni al k-means e k-medoids. Applicazioni ed esempi.
    Algoritmi di Classificazione (0.5 CFU / 4 ore): Linear Discriminant Analysis; regolarizzazione, applicazioni.
    Estrazione di Dati (1 CFU / 8 ore): NMF, algoritmi e applicazioni. Image mining e Text mining (stop word, stemming, query matching).
    Laboratorio MATLAB (2 CFU / 16 ore): Sviluppo codici per PCA, ALS, k-means e k-medoids, LDA e applicazioni a casi studio.

    English

    Teaching language

    English

    Contents

    Numerical methods design and implementation for Data Mining: PCA, clustering (k-means, k-medoids), Linear Discriminant Analysis LDA, and Nonnegative Matrix Factorization (NMF). Applications to text/image mining and page ranking.

    Textbook and course materials

    - D. Calvetti, E. Somersalo, Data Mining: An Algorithmic Approach to Clustering and Classification, SIAM, 2018.
    - T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, 2nd ed., New York, Springer, 2008.
    - X. Yang, Introduction to Algorithms for Data Mining and Machine Learning, Londra, Elsevier, 2019.

    Course objectives

    Knowledge and understanding: Mastering numerical methods and algorithms for data analysis. - Applying knowledge and understanding: Selecting and implementing numerical tools in MATLAB. - Making judgements: Critically evaluating code performance and test results. - Communication skills: Illustrating methods using proper scientific and technical language. - Learning skills: Developing autonomous coding skills for data knowledge extraction.

    Prerequisites

    No mandatory prerequisites; Linear Algebra and Analysis knowledge is recommended.

    Teaching methods

    48 total hours: 32 hours of lectures (4 CFU) and 16 hours of laboratory sessions (2 CFU).

    Assessment methods

    Written and Oral exam with presentation, testing and discussion of MATLAB codes developed by the student. Grading scale:

    Grade, Assessment, Criteria
    30 - 30L Optimized codes; excellent result interpretation; flawless technical language.
    26 - 29 Great algorithm implementation; good performance and numerical stability analysis.
    22 - 25 Good method knowledge and correct code execution on standard problems.
    18 - 21 Minimal knowledge of algorithms and sufficient MATLAB skills.

    Other information

    Attendance is strongly recommended. Lab activities are integral to the program.

    Detailed syllabus

    The course is divided into the following modules:

    Preliminary Numerical Calculus and Linear Algebra (1.5 CFU / 12h): Finite-precision arithmetic, errors, machine epsilon, natural stopping criterion; vectors, matrices, norms, orthogonal projections. Singular Value Decomposition (SVD).
    Dimensionality Reduction and Clustering Algorithms (1 CFU / 8h): PCA, overview of k-means and k-medoids. Applications and examples.
    Classification Algorithms (0.5 CFU / 4h): Linear Discriminant Analysis; regularization, applications.
    Data Mining (1 CFU / 8h): NMF, algorithms, and applications. Image mining and text mining (stop words, stemming, query matching).
    MATLAB Laboratory (2 CFU / 16 h): Code development for PCA, ALS, k-means and k-medoids, LDA and applications to case studies.

    facebook logoinstagram buttonyoutube logotype