Elaborazione dei Segnali - Parte 2
Stai vedendo l'anteprima delle prime pagine. Sblocca tutte le pagine con l'abbonamento.
Di cosa parla
- Introduzione all'Analisi dei Contenuti Audio (ACA) e MIR
- Obiettivo: Analizzare segnali audio per estrarre informazioni rilevanti per applicazioni come raccomandazione musicale, riconoscimento del parlato e monitoraggio della biodiversità.
- ACA: Elaborazione fondamentale dei segnali audio, estrazione e inferenza di descrittori.
- Campo di Ricerca Interdisciplinare: Coinvolge Elaborazione Digitale dei Segnali (DSP), Apprendimento Automatico/Data Mining, Musicologia e Psicoacustica.
- Contenuto Audio
- Le origini del contenuto audio (musicale) includono Spartito, Esecuzione e Produzione.
- Le caratteristiche audio sono classificate in categorie tecniche: Timbrico, Intensità, Tonale, Temporale, Statistica e Tecnica.
- Fondamenti di DSP
- Segnali: Distinzione tra segnali deterministici (prevedibili) e casuali (imprevedibili).
- Serie di Fourier: Rappresenta segnali periodici come somma di sinusoidi.
- Campionamento (Sampling): Discretizzazione nel tempo. La frequenza di Nyquist (
fs > 2 * fmax) è cruciale per la ricostruzione senza perdita di informazione. - Quantizzazione (Quantization): Discretizzazione dell'ampiezza. L'errore di quantizzazione può essere modellato come rumore bianco. La qualità è misurata dal Rapporto Segnale-Rumore (SNR).
- Convoluzione: Operazione fondamentale per i sistemi Lineari Tempo-Invarianti (LTI), dove la convoluzione nel tempo corrisponde alla moltiplicazione in frequenza (e viceversa).
- Elaborazione Audio a Breve Termine (STFT)
- Analizza il segnale in brevi finestre temporali sovrapposte (windowing) per gestire la sua natura non stazionaria.
- La Trasformata di Fourier a Breve Termine (STFT) fornisce un'analisi tempo-frequenza, visualizzabile come spettrogramma.
- La Trasformata di Fourier Discreta (DFT) è usata per frequenze discrete.
- Trasformate Tempo-Frequenza Non Basate su Fourier: Includono la Constant Q Transform (CQT), che offre una risoluzione in frequenza adattata percettivamente, ma presenta svantaggi computazionali e di invertibilità.
- Trasformata Discreta del Coseno (DCT): Utilizza funzioni coseno reali, nota per l'ottima compattazione dell'informazione ed è alla base dei Coefficienti Cepstrali in frequenza Mel (MFCC).
- Estrazione delle Caratteristiche (Feature Extraction)
- MFCC (Mel-Frequency Cepstrum Coefficients): Descrittori chiave che riassumono la forma dello spettro, tenendo conto della percezione umana.
- Processo: Prevede l'iterazione per ogni blocco, il calcolo di vettori di descrittori (es. Centroide Spettrale, RMS) e la generazione di una matrice di caratteristiche.
- Caratteristiche Spettrali: Centroide Spettrale (luminosità), Roll-off Spettrale (forma), Flusso Spettrale (variazione), Dispersione Spettrale (sparpagliamento) e Decrescita Spettrale (rapidità diminuzione magnitudo).
- Cepstrum: La trasformata inversa del logaritmo dello spettro, utile per estrarre l'inviluppo spettrale e il pitch.
- Pre-Elaborazione e Post-Elaborazione
- Pre-elaborazione: Passaggi come down-mixing, normalizzazione (di picco, RMS, LUFS) e filtraggio (rimozione DC) per ridurre i dati e migliorare la robustezza.
- Post-elaborazione: Derivazione di caratteristiche aggiuntive (es. coefficienti Delta), aggregazione (da matrice a vettore singolo) e normalizzazione (Z-score, Min-Max Scaling) per preparare i dati ai classificatori.
- Riduzione della Dimensionalità
- Problemi: Overfitting, Maledizione della Dimensionalità (dati sparsi in spazi ad alta dimensione) e alti requisiti di campioni di addestramento.
- Vantaggi: Riduce spazio di archiviazione, complessità di addestramento e mitiga la Maledizione della Dimensionalità.
- Metodi: Selezione del sottoinsieme di caratteristiche (Filter, Wrapper) e Trasformazione dello spazio delle caratteristiche, come l'Analisi delle Componenti Principali (PCA).
- Classificatori
- L'apprendimento automatico è guidato dai dati, richiedendo set di addestramento validi, affidabili e riproducibili.
- Passaggi generali: Definizione del set di addestramento, normalizzazione, addestramento e valutazione (spesso con validazione incrociata N-fold).
- Esempi: k-Nearest Neighbor (kNN), Modelli a Miscela Gaussiana (GMM) e Support Vector Machine (SVM), ognuno con diverse strategie di addestramento e classificazione.
Registrati e scarica subito 3 appunti gratis.