elaborazione dati
Di cosa parla
- Introduzione all'Elaborazione dei Dati: Il documento si concentra sulla "Codifica e l'Input" dei dati, usando come caso di studio un questionario sulla partecipazione sportiva somministrato a cittadini brasiliani ad Aracaju nel 2012, parte di un progetto del Ministero dello Sport.
- Estrarre Dati dal Questionario: Vengono analizzate 11 domande chiave tratte da un questionario più ampio (27 sullo sport, 9 sulle caratteristiche dell'intervistato). Queste domande esemplificano variabili quantitative e qualitative, risposte precodificate e da codificare, e indicatori per indici di sintesi.
- Tipi di Variabili e Codifica Iniziale:
- Variabili qualitative: Alcune sono già completamente codificate (tipo a, es. 1,6,8,9), altre parzialmente (tipo b, es. 4) o non codificate (tipo c, es. 3).
- Variabili quantitative: Codificate come tipo d (es. 2, A2, A7, A8).
- Esempi di Domande e Risposte (Quesiti 1-10): Vengono illustrate diverse domande dal questionario, coprendo aspetti come la pratica sportiva (sì/no), il numero di sport, gli sport specifici, l'affiliazione a enti sportivi, il livello di competizione, le motivazioni e la frequenza di pratica. Sono inclusi anche dati demografici come sesso, età, colore della pelle, peso e altezza.
- Struttura della Matrice Dati: Viene introdotto il concetto di matrice dati, dove 'n' rappresenta il numero di cittadini intervistati (1137 tra 15 e 65 anni) e Xij indica il valore della variabile j per il caso i. Il campione è stato selezionato con una procedura a due stadi (areale e random walk sample), con quote per età e sesso basate sul Censimento 2011.
- Strategie di Codifica per Variabili Qualitative:
- Domande tipo 'a': Codice numerico riportato direttamente.
- Domande tipo 'b' e 'c': Richiedono una codifica a posteriori, con lettura dei questionari per proporre e accorpare voci simili.
- Complessità della codifica (tipo 'c'): Può richiedere liste di sport da esperti o basate su forme organizzative (squadra, individuale, acquatici, etc.). Le risposte vengono codificate su questa lista, poi le modalità con basse frequenze sono accorpate.
- Confronti internazionali: Per questi scopi, è necessario utilizzare classificazioni previste da fonti internazionali (es. CIO - Comitato Internazionale Olimpico).
- Gestione delle Risposte Multiple: Per domande con risposte multiple (es. fino a tre sport), si propongono due strategie:
- Creare variabili separate per ogni risposta (es. 'primo sport', 'secondo sport', 'terzo sport').
- Scomporre la risposta in dieci variabili binarie (dummy), una per ogni tipologia di attività sportiva. Un '1' indica la pratica, uno '0' l'assenza di pratica.
- Gestione dei Valori Mancanti (Missing Value) e Non Applicabili:
- È fondamentale prevedere un codice specifico per i valori mancanti (es. '0').
- Si deve distinguere tra chi non risponde e chi non deve rispondere (risposta non applicabile, es. chi non pratica sport non deve indicare quali). Per questi ultimi, si suggerisce un codice diverso (es. '9', '99' o la modalità più alta più uno) per distinguere le due situazioni.
- Per le variabili dummy in caso di risposte multiple: dieci '9' per chi non pratica affatto, dieci '0' per chi pratica ma non specifica, e combinazioni di '1' e '0' per chi indica specifici sport.
- Codifica per Variabili Quantitative: Le variabili quantitative possono essere registrate direttamente. È necessario definire l'unità di misura e decidere sull'uso di cifre decimali. Per l'età, il peso e l'altezza, si registrano numeri interi, con regole di arrotondamento specifiche per eventuali valori decimali (arrotondamento per eccesso da 50 a 99, altrimenti troncamento).