Análise de Similaridade Genômica entre Diferentes Coronavírus: A Contribuição dos Métodos K-mer e Natural Vector
Dados de covid. Métodos livres de alinhamento. Árvores de classificação.
Estudos envolvendo métodos de alinhamento de sequências existem há bastante tempo. Entretanto,
o processo para alinhar as sequências ainda é relativamente demorado e requer computadores
mais potentes, tanto para análise com genomas virais e principalmente para genomas de
bactérias. Nesse sentido, os métodos livres de alinhamento conseguem superar essas questões,
alcançando a mesma precisão com um tempo de análise parcialmente menor. Nesta tese, foram
realizados estudos considerando dois métodos livres de alinhamento, k-mer e o Natural Vector,
na classificação de genomas virais. O método k-mer, além de manter a precisão e obter um
tempo menor de análise, conseguiu separar corretamente os grupos correspondentes as variantes
e linhagens das sequências da SARS-CoV-2. O método Natural Vector realizou de forma correta
a classificação de mais 2 tipos de coronavírus, SARS-CoV e MERS-CoV, além da SARS-CoV-2,
separando as sequências de acordo com o tipo de coronavírus específico. Os dois métodos podem
ser usados de forma complementar, em que o k-mer realiza a correta classificação dentro do
grupo das sequências de cada tipo de coronavírus, como é o caso da SARS-CoV-2, enquanto o
Natural Vector consegue realizar essa classificação considerando outros tipos de coronavírus ao
mesmo tempo. Um aplicativo, em python, para a análise de similaridades de sequências genômicas foi desenvolvido e será disponibilizado para os usuários. A classificação rápida das sequências de coronavírus é de suma importância para o controle de epidemias, especialmente em época de surtos virais.