Answers
Di cosa parla
- Definizione di Apprendimento Statistico: Esplora i metodi per modellare le relazioni tra predittori (X) e un outcome (Y) per previsione o inferenza, distinguendo tra apprendimento supervisionato (X e Y osservati, stima di Y=f(X)+ε) e non supervisionato (nessun outcome, ricerca di struttura). Viene introdotto il trade-off tra accuratezza predittiva e interpretabilità del modello.
- Accuratezza del Modello e Bias-Variance Trade-off: Valuta l'accuratezza tramite l'MSE (errore quadratico medio test), che si scompone in bias² + varianza + errore irriducibile. Flessibilità aumenta, bias diminuisce ma varianza aumenta (overfitting). L'obiettivo è minimizzare l'errore test a un livello intermedio di flessibilità.
- Analisi dei Residui: Tecnica per valutare la validità delle assunzioni del modello lineare tramite plot dei residui (vs valori fittati, predittori, tempo) per identificare eteroscedasticità, autocorrelazione, errata specificazione del modello e normalità (istogrammi, QQ-plot). Vengono evidenziati outlier e osservazioni influenti.
- Multicollinearità: Si verifica quando i predittori sono altamente correlati, rendendo instabili le stime dei coefficienti e gonfiando gli errori standard. Misurata tramite VIF (Variance Inflation Factor), può compromettere l'interpretazione dei coefficienti. I rimedi includono selezione delle variabili, regressione Ridge o PCA.
- Misure di Effect Size: Quantificano la magnitudine e l'importanza dei predittori oltre la significatività statistica, come coefficienti standardizzati, R² parziale/semi-parziale, R² globale e f² di Cohen.
- Metodi di Validazione: Include il Validation Set Approach (semplice, alta varianza, stima del bias), Leave-One-Out Cross-Validation (LOOCV) (basso bias, alta varianza, costoso ma con scorciatoie per modelli lineari) e k-fold Cross-Validation (compromesso tra efficienza, bias e varianza, k=5 o 10 è comune).
- The Bootstrap: Metodo di resampling generale per stimare la variabilità di una statistica campionando con sostituzione dai dati osservati, utile per stimare errori standard, intervalli di confidenza e bias in assenza di assunzioni parametriche forti.
- Selezione del Modello (Set B): Tratta la Best Subset Selection (valuta tutti i 2^p modelli, computazionalmente intensiva per p grandi) e la Forward Stepwise Selection (aggiunge predittori uno alla volta, greedy, più scalabile).
- Modelli Basati su Alberi: Descrive Regression Trees (partizionamento ricorsivo binario, minimizzazione RSS, interpretabili ma con alta varianza, richiedono pruning e cross-validation) e Classification Trees (simili ma usano Gini index o cross-entropy per l'impurità dei nodi).
- Metodi di Aggregazione: Include Bagging (riduce la varianza aggregando alberi da campioni bootstrap), Random Forests (estende Bagging introducendo selezione casuale dei predittori a ogni split per ridurre la correlazione tra alberi) e Boosting (costruisce alberi sequenzialmente, focalizzandosi sui residui e usando shrinkage per ridurre il bias).
- Metodi di Regolarizzazione (Set C): Spiega Ridge Regression (penalità L2, restringe i coefficienti verso zero senza annullarli, riduce la varianza, efficace contro la multicollinearità) e Lasso (penalità L1, produce soluzioni sparse annullando alcuni coefficienti per la selezione di variabili).
- Interpretazione Geometrica Ridge vs Lasso: Il vincolo di Ridge è circolare, quello di Lasso è a forma di diamante (con angoli che favoriscono coefficienti zero).
- Dati ad Alta Dimensionalità: Riguarda contesti con p (predittori) maggiore o uguale a n (osservazioni), dove OLS fallisce per matrice X'X singolare, l'overfitting è severo e le correlazioni spurie sono comuni. Richiede metodi di regolarizzazione e cross-validation.
- Modelli non Lineari: Include Step Functions (costanti a tratti, discontinuità), Piecewise Polynomials (polinomi a tratti), Linear e Cubic Splines (segmenti continui, flessibili), Natural Splines (cubiche con vincoli ai bordi per stabilità) e Smoothing Splines (bilanciano fedeltà ai dati e levigatezza tramite penalità sulla derivata seconda).
- Local Regression (LOESS) e GAMs: LOESS adatta modelli semplici localmente, pesando le osservazioni per prossimità. I Generalized Additive Models (GAMs) estendono i modelli lineari permettendo a ogni predittore di entrare nel modello tramite una funzione smooth, preservando l'additività e l'interpretabilità.