Exportar registro bibliográfico

Representação de coleções de documentos textuais por meio de regras de associação (2011)

  • Authors:
  • Autor USP: ROSSI, RAFAEL GERALDELI - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: MINERAÇÃO DE DADOS; INTELIGÊNCIA ARTIFICIAL
  • Language: Português
  • Abstract: O número de documentos textuais disponíveis em formato digital tem aumentado incessantemente. Técnicas de Mineração de Textos são cada vez mais utilizadas para organizar e extrair conhecimento de grandes coleções de documentos textuais. Para o uso dessas técnicas é necessário que os documentos textuais estejam representados em um formato apropriado. A maioria das pesquisas de Mineração de Textos utiliza a abordagem bag-of-words para representar os documentos da coleção. Essa representação usa cada palavra presente na coleção de documentos como possível atributo, ignorando a ordem das palavras, informormações de pontuação ou estruturais, e é caracterizada pela alta dimensionalidade e por dados esparsos. Por outro lado, a maioria dos conceitos são compostos por mais de uma palavra, como Inteligência Articial, Rede Neural, e Mineração de Textos. As abordagens que geram atributos compostos por mais de uma palavra apresentam outros problemas além dos apresentados pela representação bag-of-words, como a geração de atributos com pouco signicado e uma dimensionalidade muito maior. Neste projeto de mestrado foi proposta uma abordagem para representar documentos textuais nomeada bag-of-related-words. A abordagem proposta gera atributos compostos por palavras relacionadas com o uso de regras de associação. Com as regras de associação, espera-se identicar relações entre palavras de um documento, além de reduzir a dimensionalidade, pois são consideradas apenas as palavras que ocorrem ouque coocorrem acima de uma determinada frequência para gerar as regras. Diferentes maneiras de mapear o documento em transações para possibilitar a geração de regras de associação são analisadas. Diversas medidas de interesse aplicadas às regras de associação para a extração de atributos mais signicativos e a redução do número de atributos também são analisadas. Para avaliar o quanto a representação bag-of-related-words pode auxiliar na organização e extração de conhecimento de coleções de documentos textuais, e na interpretabilidade dos resultados, foram realizados três grupos de experimentos: 1) classicação de documentos textuais para avaliar o quanto os atributos da representação bag-of-related-words são bons para distinguir as categorias dos documentos; 2) agrupamento de documentos textuais para avaliar a qualidade dos grupos obtidos com a bag-of-related-words e consequentemente auxiliar na obtenção da estrutura de uma hierarquia de tópicos; e 3) construção e avaliação de hierarquias de tópicos por especialistas de domínio. Todos os resultados e dimensionalidades foram comparados com a representação bag-of-words. Pelos resultados dos experimentos realizados, pode-se vericar que os atributos da representação bag-of-related-words possuem um poder preditivo tão bom quanto os da representação bag-of-words. A qualidade dos agrupamentos de documentos textuais utilizando a representação bag-of-related-words foi tão boa quanto utilizando a representação bag-of-words. Na avaliação de hierarquias de tópicos por especialistas de domínio, a utilização da representação bag-of-related-words apresentou melhores resultados em todos os quesitos analisados
  • Imprenta:
  • Data da defesa: 16.08.2011
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      ROSSI, Rafael Geraldeli. Representação de coleções de documentos textuais por meio de regras de associação. 2011. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2011. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-31082011-125648/. Acesso em: 23 abr. 2024.
    • APA

      Rossi, R. G. (2011). Representação de coleções de documentos textuais por meio de regras de associação (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-31082011-125648/
    • NLM

      Rossi RG. Representação de coleções de documentos textuais por meio de regras de associação [Internet]. 2011 ;[citado 2024 abr. 23 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-31082011-125648/
    • Vancouver

      Rossi RG. Representação de coleções de documentos textuais por meio de regras de associação [Internet]. 2011 ;[citado 2024 abr. 23 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-31082011-125648/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024