Domande d'esame VERIFICATO

Answers

Cattolica del Sacro Cuore statistical and actuarial sciences Curriculum actuarial sciences for insurance 2026

Nessun voto ancora

Di cosa parla

Definizione di Apprendimento Statistico: Esplora i metodi per modellare le relazioni tra predittori (X) e un outcome (Y) per previsione o inferenza, distinguendo tra apprendimento supervisionato (X e Y osservati, stima di Y=f(X)+ε) e non supervisionato (nessun outcome, ricerca di struttura). Viene introdotto il trade-off tra accuratezza predittiva e interpretabilità del modello.
Accuratezza del Modello e Bias-Variance Trade-off: Valuta l'accuratezza tramite l'MSE (errore quadratico medio test), che si scompone in bias² + varianza + errore irriducibile. Flessibilità aumenta, bias diminuisce ma varianza aumenta (overfitting). L'obiettivo è minimizzare l'errore test a un livello intermedio di flessibilità.
Analisi dei Residui: Tecnica per valutare la validità delle assunzioni del modello lineare tramite plot dei residui (vs valori fittati, predittori, tempo) per identificare eteroscedasticità, autocorrelazione, errata specificazione del modello e normalità (istogrammi, QQ-plot). Vengono evidenziati outlier e osservazioni influenti.
Multicollinearità: Si verifica quando i predittori sono altamente correlati, rendendo instabili le stime dei coefficienti e gonfiando gli errori standard. Misurata tramite VIF (Variance Inflation Factor), può compromettere l'interpretazione dei coefficienti. I rimedi includono selezione delle variabili, regressione Ridge o PCA.
Misure di Effect Size: Quantificano la magnitudine e l'importanza dei predittori oltre la significatività statistica, come coefficienti standardizzati, R² parziale/semi-parziale, R² globale e f² di Cohen.
Metodi di Validazione: Include il Validation Set Approach (semplice, alta varianza, stima del bias), Leave-One-Out Cross-Validation (LOOCV) (basso bias, alta varianza, costoso ma con scorciatoie per modelli lineari) e k-fold Cross-Validation (compromesso tra efficienza, bias e varianza, k=5 o 10 è comune).
The Bootstrap: Metodo di resampling generale per stimare la variabilità di una statistica campionando con sostituzione dai dati osservati, utile per stimare errori standard, intervalli di confidenza e bias in assenza di assunzioni parametriche forti.
Selezione del Modello (Set B): Tratta la Best Subset Selection (valuta tutti i 2^p modelli, computazionalmente intensiva per p grandi) e la Forward Stepwise Selection (aggiunge predittori uno alla volta, greedy, più scalabile).
Modelli Basati su Alberi: Descrive Regression Trees (partizionamento ricorsivo binario, minimizzazione RSS, interpretabili ma con alta varianza, richiedono pruning e cross-validation) e Classification Trees (simili ma usano Gini index o cross-entropy per l'impurità dei nodi).
Metodi di Aggregazione: Include Bagging (riduce la varianza aggregando alberi da campioni bootstrap), Random Forests (estende Bagging introducendo selezione casuale dei predittori a ogni split per ridurre la correlazione tra alberi) e Boosting (costruisce alberi sequenzialmente, focalizzandosi sui residui e usando shrinkage per ridurre il bias).
Metodi di Regolarizzazione (Set C): Spiega Ridge Regression (penalità L2, restringe i coefficienti verso zero senza annullarli, riduce la varianza, efficace contro la multicollinearità) e Lasso (penalità L1, produce soluzioni sparse annullando alcuni coefficienti per la selezione di variabili).
Interpretazione Geometrica Ridge vs Lasso: Il vincolo di Ridge è circolare, quello di Lasso è a forma di diamante (con angoli che favoriscono coefficienti zero).
Dati ad Alta Dimensionalità: Riguarda contesti con p (predittori) maggiore o uguale a n (osservazioni), dove OLS fallisce per matrice X'X singolare, l'overfitting è severo e le correlazioni spurie sono comuni. Richiede metodi di regolarizzazione e cross-validation.
Modelli non Lineari: Include Step Functions (costanti a tratti, discontinuità), Piecewise Polynomials (polinomi a tratti), Linear e Cubic Splines (segmenti continui, flessibili), Natural Splines (cubiche con vincoli ai bordi per stabilità) e Smoothing Splines (bilanciano fedeltà ai dati e levigatezza tramite penalità sulla derivata seconda).
Local Regression (LOESS) e GAMs: LOESS adatta modelli semplici localmente, pesando le osservazioni per prossimità. I Generalized Additive Models (GAMs) estendono i modelli lineari permettendo a ogni predittore di entrare nel modello tramite una funzione smooth, preservando l'additività e l'interpretabilità.

Vedi tutto il file Scarica

Altri appunti di DATA ANALYSIS FOR INSURANCE

DATA 2 Appunti lezioni Appunti lezioni su R Dispensa completa di Accounting and Management in Insurance modulo 1 Appunti completi di Accounting modulo 1 Advanced Risk theory lezione 1

Vedi tutti gli appunti di statistical and actuarial sciences Curr...

Answers

Di cosa parla

Altri appunti di DATA ANALYSIS FOR INSURANCE

Ottieni i primi crediti!

Carica i tuoi file

Unisciti ai gruppi di studio

Invita i tuoi colleghi

Accidenti, ancora non abbiamo il tuo corso di laurea!

Consiglia ai tuoi amici

Answers

Di cosa parla

Altri appunti di DATA ANALYSIS FOR INSURANCE

Condividi questi appunti