Análise retórica com base em grande quantidade de dados (2016)
- Authors:
- Autor USP: MAZIERO, ERICK GALANI - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: LINGUÍSTICA COMPUTACIONAL; PROCESSAMENTO DE LINGUAGEM NATURAL; APRENDIZADO COMPUTACIONAL
- Keywords: Aprendizado semissupervisionado sem fim; Grande quantidade de dados; Large amount of data; Rhetorical structure theory; Rhetorical structure theory; Semi-supervised never-ending learning; Aprendizado semissupervisionado; Análise textual
- Language: Português
- Abstract: Com uma quantidade quase incontável de informação textual disponível na web, a automatização de diversas tarefas referentes ao processamento automático de textos é uma necessidade inegável. Em abordagens superficiais do PLN (Processamento da Linguagem Natural), importantes propriedades do texto são perdidas, como posição, ordem, adjacência e contexto dos segmentos textuais. Uma análise textual mais profunda, como a realizada no nível do discurso, ocupa-se da busca e identificação da organização retórica do texto, gerando uma estrutura hierárquica em que as intenções do autor são explicitadas e relacionadas entre si. Para a automatização dessa tarefa, tem-se utilizado técnicas de aprendizado automático, predominantemente do paradigma supervisionado. Nesse paradigma, são necessários dados rotulados manualmente para a geração dos modelos de classificação. Como a anotação para essa tarefa é algo custoso, os resultados obtidos no aprendizado são insatisfatórios, pois estão bem aquém do desempenho humano na mesma tarefa. Nesta tese, o uso massivo de dados não rotulados no aprendizado semissupervisionado sem fim foi empregado na tarefa de identificação das relações retóricas. Foi proposto um framework que utiliza textos obtidos continuamente da web. No framework, realiza-se a monitoração da mudança de conceito, que pode ocorrer durante o aprendizado contínuo, e emprega-se uma variação dos algoritmos tradicionais de semissupervisão. Além disso, foram adaptados para o Portuguêstécnicas do estado da arte. Sem a necessidade de anotação humana, a medida-F melhorou, por enquanto, em 0,144 (de 0,543 para 0,621). Esse resultado consiste no estado da arte da análise discursiva automática para o Português.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2016
- Data da defesa: 09.11.2016
-
ABNT
MAZIERO, Erick Galani. Análise retórica com base em grande quantidade de dados. 2016. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2016. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-13012017-103446/. Acesso em: 24 abr. 2024. -
APA
Maziero, E. G. (2016). Análise retórica com base em grande quantidade de dados (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-13012017-103446/ -
NLM
Maziero EG. Análise retórica com base em grande quantidade de dados [Internet]. 2016 ;[citado 2024 abr. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-13012017-103446/ -
Vancouver
Maziero EG. Análise retórica com base em grande quantidade de dados [Internet]. 2016 ;[citado 2024 abr. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-13012017-103446/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas