Machine Learning Open Questions
Di cosa parla
- Fondamenti di Teoria dell'Apprendimento:
- Il No Free Lunch Theorem impone l'inductive bias (restrizione/preferenza dello spazio ipotesi) per l'efficacia degli algoritmi ML.
- La Bias-Variance Decomposition scompone l'errore in rumore, bias² (errore sistematico, sottostima) e varianza (sensibilità al training set, sovrastima), influenzati dalla complessità del modello.
- La VC Dimension misura la capacità di "frantumare" dati, fornendo limiti all'errore di generalizzazione e bilanciando complessità e overfitting.
- Algoritmi Chiave:
- Il Perceptron è un classificatore lineare che apprende dagli errori, convergendo solo per dati linearmente separabili.
- La Regressione Logistica usa la sigmoide e la cross-entropy loss (derivata da MLE), convergendo sempre tramite gradient descent anche per dati non separabili.
- La Regolarizzazione (L2/Weight Decay) penalizza i pesi per ridurre la varianza e l'overfitting, gestendo il trade-off bias-varianza.
- Metodi Kernel e SVM:
- Il Kernel Trick consente di apprendere modelli non lineari calcolando prodotti scalari implicitamente in spazi di feature ad alta dimensione (es. polinomiale, RBF).
- Le Support Vector Machines (SVM) massimizzano il margine tra le classi (con slack variables e C per il soft-margin), e la loro funzione obiettivo è legata alla Hinge Loss.
- Il problema XOR è un esempio di non-separabilità lineare, risolvibile con feature engineering, kernel o reti neurali.
- Alberi, Ensemble e Clustering:
- I Decision Trees partizionano ricorsivamente i dati usando Information Gain o Gini Index, ma necessitano di potatura (pre/post-pruning) per prevenire l'overfitting.
- I Metodi Ensemble: Bagging (es. Random Forests) riduce la varianza combinando modelli indipendenti; Boosting (es. AdaBoost) riduce bias e varianza con modelli sequenziali correttivi.
- K-Means Clustering raggruppa i dati in K cluster minimizzando la variazione intra-cluster; l'inizializzazione è migliorata da K-Means++.
- Reti Neurali:
- La Backpropagation calcola efficientemente i gradienti per l'addestramento, mitigando vanishing/exploding gradients con attivazioni come ReLU.
- I Bias Induttivi nelle reti neurali (architettura, inizializzazione, attivazioni, Dropout, Batch Normalization) influenzano ciò che la rete impara.
- Sistemi di Raccomandazione:
- Il Collaborative Filtering (user-based o item-based) usa la Adjusted Cosine Similarity per predire rating con k-NN, tenendo conto del bias utente.
- La Matrix Factorization approssima la matrice di rating con fattori latenti (PQT); l'ottimizzazione SGD e puqi interpretano l'interazione utente-item.
- Alternating Least Squares (ALS) per Matrix Factorization risolve alternativamente per P e Q; è parallelizzabile per grandi dataset.
- Valutazione e Sfide Pratiche:
- Validation e Cross-Validation (K-Fold) sono cruciali per una valutazione imparziale e la selezione del modello, con Hoeffding's Inequality che fornisce bound di errore.
- La Curse of Dimensionality rende i dati sparsi e le distanze meno significative in alta dimensione, risolvibile con riduzione della dimensionalità (es. PCA).
- La valutazione dei sistemi di raccomandazione include metriche per rating prediction (MAE, RMSE) e top-N recommendation (Precision, Recall, MAP, DCG, nDCG), dove DCG sconta la rilevanza posizionale.