Aspectos semânticos na representação de textos para classificação automática

Sinoara, Roberta Akemi; Rezende, Solange Oliveira

Tese

Aspectos semânticos na representação de textos para classificação automática (2018)

Authors:
- Sinoara, Roberta Akemi
- Rezende, Solange Oliveira (Orientador)
Autor USP: SINOARA, ROBERTA AKEMI - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: SEMÂNTICA; LINGUAGEM NATURAL; ANÁLISE DE TEXTO; WEB SEMÂNTICA
Keywords: Classificação de textos; Mineração de Textos; Representação de textos; Semantics; Text classification; Text mining; Text representation
Agências de fomento:
- Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
  Processo FAPESP: 2013/14757-6e2016/07620-2
Language: Português
Abstract: Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica pormeio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação.
Imprenta:
- Publisher place: São Carlos
- Date published: 2018
Data da defesa: 24.05.2018

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

SINOARA, Roberta Akemi. Aspectos semânticos na representação de textos para classificação automática. 2018. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2018. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10102018-143520/. Acesso em: 04 maio 2024.
APA

Sinoara, R. A. (2018). Aspectos semânticos na representação de textos para classificação automática (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10102018-143520/
NLM

Sinoara RA. Aspectos semânticos na representação de textos para classificação automática [Internet]. 2018 ;[citado 2024 maio 04 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10102018-143520/
Vancouver

Sinoara RA. Aspectos semânticos na representação de textos para classificação automática [Internet]. 2018 ;[citado 2024 maio 04 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10102018-143520/

ReP

Exportar registro bibliográfico

Aspectos semânticos na representação de textos para classificação automática (2018)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Aspectos semânticos na representação de textos para classificação automática (2018)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: