Appunti genomica computazionale
Stai vedendo l'anteprima delle prime pagine. Sblocca tutte le pagine con l'abbonamento.
Di cosa parla
- Il genoma è l'insieme di tutti i geni di una cellula o organismo. Il termine 'genoma' ha dato origine a una famiglia di '-omi' (trascrittoma, proteoma, metaboloma).
- Il genoma umano è organizzato in 22 coppie autosomiche e 1 coppia sessuale (XX/XY), per un totale di 46 cromosomi. Contiene circa 3 miliardi di basi e occupa circa 3GB di storage.
- Le mutazioni e variazioni del DNA possono essere germinali (ereditate) o somatiche (acquisite). Si classificano in:
- Varianti a singolo nucleotide (SNV): cambiamento di una singola base.
- Piccole inserzioni e delezioni (InDel): variazioni fino a 50 basi.
- Varianti strutturali: variazioni oltre 50 basi, incluse Copy-Number Variants (CNV), duplicazioni segmentali, inversioni e traslocazioni.
- Il genoma di riferimento è un database ASCII contenente sequenze nucleotidiche che rappresentano una specie. Versioni come GRCh38/hg38 sono standard.
- Le tecnologie di sequenziamento si sono evolute:
- Sequenziamento Sanger (prima generazione): lunghe reads (600-1000 basi), bassa produttività.
- Microarray: tecnologia del 1995, studi trascrittoma ed espressione genica. Si basa su ibridazione di sonde su supporti solidi (vetro o silicio). Analisi two-color (comparativa) o one-color (assoluta). Processo include addressing, segmentazione, estrazione dell'intensità e normalizzazione (lowess, MAS 4.0/5.0, RMA).
- Next Generation Sequencing (NGS) o Second Generation Sequencing (2010): short reads (150 basi), alta produttività. Flusso di lavoro: estrazione e frammentazione DNA, creazione librerie, sequencing by synthesis, base calling. Dati in formato FastQ (sequenza + qualità). Allineamento reads al genoma di riferimento (mapping) e identificazione varianti (variant calling).
- Sequenziamento Nanopori (terza generazione) (dal 2015): lettura diretta di DNA/RNA, long reads (8-10 kbasi fino a 4 Mbasi), bassa accuratezza ma in miglioramento. Vantaggi: non richiede amplificazione, studia epigenetica, real-time, portabilità. Workflow: preparazione librerie (anche 2D), caricamento su flow cell, basecalling, variant phasing.
- Gli Studi di Associazione Genome-Wide (GWAS): genotipizzano un elevato numero di individui per correlare varianti genetiche (SNPs) a fenotipi (es. malattie). Si basano sull'analisi delle frequenze alleliche e test statistici (Chi-quadro, regressione logistica/lineare). I risultati sono visualizzati con Manhattan Plot.
- Il Variant Calling Format (VCF) è uno standard per l'archiviazione delle varianti identificate, strutturato in header e body (campi come CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO, FORMAT, SAMPLE).
- Progetti importanti: HapMap Project, 1000 Genomes Project, The Cancer Genome Atlas (TCGA), International Cancer Genome Consortium (ICGC), SardiNIA Project, deCODE genetics, Genomics England, Quatar Project.
Registrati e scarica subito 3 appunti gratis.