This document outlines a series of shell scripting exercises designed for bioinformatics students.
The core task involves processing a simulated dataset, `casp13.txt`, which contains protein sequence information.
The `casp13.txt` file includes data points such as:
Header lines (starting with `>`) with identifiers (e.g., `H0974`, `Q3KP22-3`).
Source information (e.g., `048503/048504`, `Human`, `E. coli`).
Subunit details and residue counts.
Actual protein sequences.
The exercises require the application of various Unix command-line utilities in pipelines:
`cat`: To display file content.
`sort`: For sorting lines alphabetically or numerically.
`cut`: To extract specific columns or character ranges.
`head`: To output the first part of files.
`wc`: To count lines, words, and characters.
`grep`: For searching text using patterns (including regular expressions).
`awk`: A powerful pattern-scanning and processing language, used here for field extraction and conditional printing.
`sed`: A stream editor for filtering and transforming text, used for deleting lines based on patterns.
Specific questions challenge students to:
Determine the count of unique prefixes from sorted protein data after truncating lines.
Count specific header lines containing a particular digit.
Extract and count unique identifiers from header lines using `awk`.
Calculate the total number of sequence lines after removing header and specific sequence lines using `sed`.
These exercises are fundamental for developing skills in data manipulation, pattern matching, and building efficient command-line workflows essential for bioinformatics research.
Siamo nati da poco ma abbiamo già migliaia di appunti nella nostra community!
Completa il tuo profilo
Adesso sei dei nostri!
Ottieni i primi crediti!
Carica i tuoi file
Il modo più veloce per guadagnare crediti è caricare materiale.
Ci sono tante tipologie di materiale e siamo certi che hai tanto valore da condividere con la community!
Accidenti, ancora non abbiamo il tuo corso di laurea!
Se ti va puoi inserirlo tu in pochi click — anche solo il corso di laurea, oppure completo di tutti i corsi!
Aggiungilo subito
e faremo del nostro meglio per popolarlo di materiale interessante.
Nel frattempo inizia a guadagnare crediti invitando i tuoi amici, così appena saremo attivi potrai subito accedere al materiale disponibile.
Bastano 3 amici verificati per attivare l'abbonamento…
Consiglia ai tuoi amici
Scrivi ai tuoi vecchi amici o ai tuoi nuovi colleghi di studio. Ogni email che inserisci rappresenta un mattone importante per la community.
Per ogni amico che porti otterrai nuovi crediti!