raggruppamento veloce in cluster di sequenze genomiche
Con lo sviluppo del sequenziamento di prossima generazione, sono necessari
strumenti efficienti per gestire milioni di sequenze in un tempo
ragionevole. Sumaclust è un programma sviluppato da LECA; mira a
raggruppare sequenze in cluster in un modo che sia veloce e corretto al
tempo stesso. Questo strumento è stato sviluppato per essere adattato ai
tipi di dati generati dal DNA metabarcoding, cioè marcatori corti,
interamente sequenziati. Sumaclust raggruppa le sequenze in cluster usando
lo stesso algoritmo di clustering di UCLUST e CD-HIT. Questo algoritmo è
utile principalmente per rilevare sequenze "erronee" create durante i
protocolli di amplificazione e sequenziamento e che derivano da sequenze
"vere".