Analysis of microRNA precursors in multiple species by data mining techniques

Lopes, Ivani de Oliveira Negrão; Carvalho, André Carlos Ponce de Leon Ferreira de

Tese

Analysis of microRNA precursors in multiple species by data mining techniques (2014)

Autores:
- Lopes, Ivani de Oliveira Negrão
- Carvalho, André Carlos Ponce de Leon Ferreira de (Orientador)
Autor USP: LOPES, IVANI DE OLIVEIRA NEGRÃO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Assuntos: MINERAÇÃO DE DADOS; ALGORITMOS GENÉTICOS; APRENDIZADO COMPUTACIONAL; BIOINFORMÁTICA
Palavras-chave do autor: Data mining; Ensembles; Ensembles; Mineração de dados; Pre-miRNA prediction; Predição de pre-microRNA
Idioma: Inglês
Resumo: O sequenciamento de pequenos RNAs surgiu recentemente como uma tecnologia inovadora na descoberta de microRNAs (miRNA). Essa tecnologia tem facilitado a descoberta de milhares de miRNAs em um grande número de espécies. No entanto, apesar dos benefícios dessa tecnologia, ela apresenta desafios, como a necessidade de construir uma biblioteca de pequenos RNAs, além do genoma. Diferentemente, métodos computacionais ab initio buscam diretamente no genoma regiões prováveis de conter miRNAs. A maioria desses métodos usam modelos preditivos capazes de distinguir entre os verdadeiros (positivos) e pseudo precursores de miRNA - pre-miRNA - (negativos), os quais são induzidos utilizando técnicas de mineração de dados. No entanto, a aplicabilidade de métodos ab initio da literatura atual é limitada pelas altas taxas de falsos positivos e/ou por outras dificuldades computacionais, como o elevado tempo necessário para calcular um conjunto de atributos. Neste trabalho, investigamos como os principais aspectos envolvidos na indução de modelos preditivos de pre-miRNA afetam o desempenho preditivo. Particularmente, avaliamos a capacidade discriminatória de conjuntos de atributos propostos na literatura, cujos custos computacionais e a composição variam amplamente. Os experimentos computacionais foram realizados utilizando dados de sequências positivas e negativas de 45 espécies, cobrindo espécies de oito filos. Os resultados mostraram que o desempenho preditivo de classificadores induzidosutilizando conjuntos de treinamento com 1608 ou mais vetores de atributos calculados de sequências humanas não diferiram significativamente, entre os conjuntos de atributos que produziram as maiores acurácias. Além disso, as diferenças entre os desempenhos preditivos de classificadores induzidos por diferentes algoritmos de aprendizado, utilizando um mesmo conjunto de atributos, foram pequenas ou não significantes. Esses resultados inspiraram a obtenção de um conjunto de atributos menor e que pode ser calculado até 34 vezes mais rapidamente do que o conjunto de atributos menos custoso produzindo máxima acurácia, embora a acurácia produzida pelo conjunto proposto não difere em mais de 0.1% das acurácias máximas. Quando esses experimentos foram executados utilizando vetores de atributos calculados de sequências de outras 44 espécies, os resultados mostraram que os conjuntos de atributos que produziram modelos com as maiores acurácias utilizando vetores calculados de sequências humanas também produziram as maiores acurácias quando pequenos conjuntos de treinamento (120) calculados de exemplos de outras espécies foram utilizadas. No entanto, a análise destes modelos mostrou que a complexidade de aprendizado varia amplamente entre as espécies, mesmo entre aquelas pertencentes a um mesmo filo. Esses resultados mostram que a existência de características especíificas em pre-miRNAs de certas espécies sugerida em estudos anteriores pode estar correlacionada com a complexidade deaprendizado. Consequentemente, a acurácia de modelos induzidos utilizando um mesmo conjunto de atributos e um mesmo algoritmo de aprendizado varia amplamente entre as espécies. Os resultados também mostraram que o uso de exemplos de espécies filogeneticamente mais complexas pode aumentar o desempenho preditivo de espécies menos complexas.Por último, experimentos computacionais utilizando técnicas de ensemble mostraram estratégias alternativas para o desenvolvimento de novos modelos para predição de pre-miRNA com maior probabilidade de obter maior desempenho preditivo do que estratégias atuais, embora o custo computacional dos atributos seja inferior. Uma vez que a descoberta de miRNAs envolve a análise de milhares de regiões genômicas, a aplicação prática de modelos preditivos de baixa acurácia e/ou que dependem de atributos computacionalmente custosos pode ser inviável em análises de grandes genomas. Neste trabalho, apresentamos e discutimos os resultados de experimentos computacionais investigando o potencial de diversas estratégias utilizadas na indução de modelos preditivos para predição ab initio de pre-miRNAs, que podem levar ao desenvolvimento de ferramentas ab initio de maior aplicabilidade prática
Imprenta:
- Local: São Carlos
- Data de publicação: 2014
Data da defesa: 18.06.2014

Como citar

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

LOPES, Ivani de Oliveira Negrão. Analysis of microRNA precursors in multiple species by data mining techniques. 2014. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2014. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/. Acesso em: 24 abr. 2024.
APA

Lopes, I. de O. N. (2014). Analysis of microRNA precursors in multiple species by data mining techniques (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/
NLM

Lopes I de ON. Analysis of microRNA precursors in multiple species by data mining techniques [Internet]. 2014 ;[citado 2024 abr. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/
Vancouver

Lopes I de ON. Analysis of microRNA precursors in multiple species by data mining techniques [Internet]. 2014 ;[citado 2024 abr. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/

ReP

Exportar registro bibliográfico

Analysis of microRNA precursors in multiple species by data mining techniques (2014)

Como citar

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Unidades USP

ReP

Exportar registro bibliográfico

Analysis of microRNA precursors in multiple species by data mining techniques (2014)

Como citar

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: