confronto e raggruppamento in cluster di sequenze veloci ed esatti
Con lo sviluppo del sequenziamento di prossima generazione, sono necessari
strumenti efficienti per gestire milioni di sequenze in quantità di tempo
ragionevoli. Sumatra è un programma sviluppato dal LECA. Sumatra mira a
confrontare sequenze in un modo che sia veloce e al contempo esatto. Questo
strumento è stato sviluppato per essere adattato al tipo di dati generati
da metabarcoding di DNA, cioè marcatori corti interamente sequenziati.
Sumatra calcola i punteggi di allineamenti a coppie per un insieme di dati
o tra due insiemi di dati, con la possibilità di specificare una soglia di
similarità, per cui sequenze che hanno una similarità al di sotto di essa
non vengono riportate. L'output può quindi passare attraverso un processo
di classificazione con programmi quali MCL e MOTHUR.