Ver registro no DEDALUS
Exportar registro bibliográfico

Analysis of microRNA precursors in multiple species by data mining techniques (2014)

  • Authors:
  • USP affiliated authors: LOPES, IVANI DE OLIVEIRA NEGRÃO - ICMC
  • USP Schools: ICMC
  • Sigla do Departamento: SCC
  • Subjects: MINERAÇÃO DE DADOS; ALGORITMOS GENÉTICOS; APRENDIZADO COMPUTACIONAL; BIOINFORMÁTICA
  • Keywords: Data mining; Ensembles; Ensembles; Mineração de dados; Pre-miRNA prediction; Predição de pre-microRNA
  • Language: Inglês
  • Abstract: O sequenciamento de pequenos RNAs surgiu recentemente como uma tecnologia inovadora na descoberta de microRNAs (miRNA). Essa tecnologia tem facilitado a descoberta de milhares de miRNAs em um grande número de espécies. No entanto, apesar dos benefícios dessa tecnologia, ela apresenta desafios, como a necessidade de construir uma biblioteca de pequenos RNAs, além do genoma. Diferentemente, métodos computacionais ab initio buscam diretamente no genoma regiões prováveis de conter miRNAs. A maioria desses métodos usam modelos preditivos capazes de distinguir entre os verdadeiros (positivos) e pseudo precursores de miRNA - pre-miRNA - (negativos), os quais são induzidos utilizando técnicas de mineração de dados. No entanto, a aplicabilidade de métodos ab initio da literatura atual é limitada pelas altas taxas de falsos positivos e/ou por outras dificuldades computacionais, como o elevado tempo necessário para calcular um conjunto de atributos. Neste trabalho, investigamos como os principais aspectos envolvidos na indução de modelos preditivos de pre-miRNA afetam o desempenho preditivo. Particularmente, avaliamos a capacidade discriminatória de conjuntos de atributos propostos na literatura, cujos custos computacionais e a composição variam amplamente. Os experimentos computacionais foram realizados utilizando dados de sequências positivas e negativas de 45 espécies, cobrindo espécies de oito filos. Os resultados mostraram que o desempenho preditivo de classificadores induzidosutilizando conjuntos de treinamento com 1608 ou mais vetores de atributos calculados de sequências humanas não diferiram significativamente, entre os conjuntos de atributos que produziram as maiores acurácias. Além disso, as diferenças entre os desempenhos preditivos de classificadores induzidos por diferentes algoritmos de aprendizado, utilizando um mesmo conjunto de atributos, foram pequenas ou não significantes. Esses resultados inspiraram a obtenção de um conjunto de atributos menor e que pode ser calculado até 34 vezes mais rapidamente do que o conjunto de atributos menos custoso produzindo máxima acurácia, embora a acurácia produzida pelo conjunto proposto não difere em mais de 0.1% das acurácias máximas. Quando esses experimentos foram executados utilizando vetores de atributos calculados de sequências de outras 44 espécies, os resultados mostraram que os conjuntos de atributos que produziram modelos com as maiores acurácias utilizando vetores calculados de sequências humanas também produziram as maiores acurácias quando pequenos conjuntos de treinamento (120) calculados de exemplos de outras espécies foram utilizadas. No entanto, a análise destes modelos mostrou que a complexidade de aprendizado varia amplamente entre as espécies, mesmo entre aquelas pertencentes a um mesmo filo. Esses resultados mostram que a existência de características especíificas em pre-miRNAs de certas espécies sugerida em estudos anteriores pode estar correlacionada com a complexidade deaprendizado. Consequentemente, a acurácia de modelos induzidos utilizando um mesmo conjunto de atributos e um mesmo algoritmo de aprendizado varia amplamente entre as espécies. Os resultados também mostraram que o uso de exemplos de espécies filogeneticamente mais complexas pode aumentar o desempenho preditivo de espécies menos complexas.Por último, experimentos computacionais utilizando técnicas de ensemble mostraram estratégias alternativas para o desenvolvimento de novos modelos para predição de pre-miRNA com maior probabilidade de obter maior desempenho preditivo do que estratégias atuais, embora o custo computacional dos atributos seja inferior. Uma vez que a descoberta de miRNAs envolve a análise de milhares de regiões genômicas, a aplicação prática de modelos preditivos de baixa acurácia e/ou que dependem de atributos computacionalmente custosos pode ser inviável em análises de grandes genomas. Neste trabalho, apresentamos e discutimos os resultados de experimentos computacionais investigando o potencial de diversas estratégias utilizadas na indução de modelos preditivos para predição ab initio de pre-miRNAs, que podem levar ao desenvolvimento de ferramentas ab initio de maior aplicabilidade prática
  • Imprenta:
  • Data da defesa: 18.06.2014
  • Acesso online ao documento

    Online access or search this record in

    Exemplares físicos disponíveis nas Bibliotecas da USP
    BibliotecaCód. de barrasNúm. de chamada
    ICMC30300049657T L864am e.1
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      LOPES, Ivani de Oliveira Negrão; CARVALHO, André Carlos Ponce de Leon Ferreira de. Analysis of microRNA precursors in multiple species by data mining techniques. 2014.Universidade de São Paulo, São Carlos, 2014. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/ >.
    • APA

      Lopes, I. de O. N., & Carvalho, A. C. P. de L. F. de. (2014). Analysis of microRNA precursors in multiple species by data mining techniques. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/
    • NLM

      Lopes I de ON, Carvalho ACP de LF de. Analysis of microRNA precursors in multiple species by data mining techniques [Internet]. 2014 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/
    • Vancouver

      Lopes I de ON, Carvalho ACP de LF de. Analysis of microRNA precursors in multiple species by data mining techniques [Internet]. 2014 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19092014-155038/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: