Sumarização Automática de Atualização para a língua portuguesa

Nóbrega, Fernando Antônio Asevêdo; Pardo, Thiago Alexandre Salgueiro

Tese

Sumarização Automática de Atualização para a língua portuguesa (2017)

Authors:
- Nóbrega, Fernando Antônio Asevêdo
- Pardo, Thiago Alexandre Salgueiro (Orientador)
Autor USP: NóBREGA, FERNANDO ANTôNIO ASEVêDO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; LÍNGUA PORTUGUESA; LINGUÍSTICA COMPUTACIONAL; PROCESSAMENTO DE TEXTO
Keywords: Compressão sentencial; Compressive summarization; Sentence compression; Sumarização automática de atualização; Sumarização compressiva; Update summarization
Language: Português
Abstract: O enorme volume de dados textuais disponível na web caracteriza-se como um cenário ideal para inúmeras aplicações do Processamento de Língua Natural, tal como a tarefa da Sumarização Automática de Atualização (SAA), que tem por objetivo a geração automática de resumos a partir de uma coleção textual admitindo-se que o leitor possui algum conhecimento prévio sobre os textos-fonte. Dessa forma, um bom resumo de atualização deve ser constituído pelas informações mais relevantes, novas e atualizadas com relação ao conhecimento prévio do leitor. Essa tarefa implica em diversos desafios, sobretudo nas etapas de seleção e síntese de conteúdo para o sumário. Embora existam inúmeras abordagens na literatura, com diferentes níveis de complexidade teórica e computacional, pouco dessas investigações fazem uso de algum conhecimento linguístico profundo, que pode auxiliar a identificação de conteúdo mais relevante e atualizado. Além disso, os métodos de sumarização comumente empregam uma abordagem de síntese extrativa, na qual algumas sentenças dos textos-fonte são selecionadas e organizadas para compor o sumário sem alteração de seu conteúdo. Tal abordagem pode limitar a informatividade do sumário, uma vez que alguns segmentos sentenciais podem conter informação redundante ou irrelevante ao leitor. Assim, esforços recentes foram direcionados à síntese compressiva, na qual alguns segmentos das sentenças selecionadas para o sumário são removidos previamente à inserção no sumário. Nessecenário, este trabalho de doutorado teve por objetivo a investigação do uso de conhecimentos linguísticos, como a Teoria Discursiva Multidocumento (CST), Segmentação de Subtópicos e Reconhecimento de Entidades Nomeadas, em distintas abordagens de seleção de conteúdo por meio das sínteses extrativas e compressivas visando à produção de sumários de atualização mais informativos. Tendo a língua Portuguesa como principal objeto de estudo, foram organizados três novos córpus, o CSTNews-Update, que viabiliza experimentos de SAA, e o PCSC-Pares e G1-Pares, para o desenvolvimento/avaliação de métodos de Compressão Sentencial. Ressalta-se que os experimentos de sumarização foram também realizados para a língua inglesa. Após as experimentações, observou-se que a Segmentação de Subtópicos foi mais efetiva para a produção de sumários mais informativos, porém, em apenas poucas abordagens de seleção de conteúdo. Além disso, foram propostas algumas simplificações para o método DualSum por meio da distribuição de Subtópicos. Tais métodos apresentaram resultados muito satisfatórios com menor complexidade computacional. Visando a produção de sumários compressivos, desenvolveram-se inúmeros métodos de Compressão Sentencial por meio de algoritmos de Aprendizado de Máquina. O melhor método proposto apresentou resultados superiores a um trabalho do estado da arte, que faz uso de algoritmos de Deep Learning. Além dos resultados supracitados, ressalta-se que anteriormente a este trabalho, amaioria das investigações de Sumarização Automática para a língua Portuguesa foi direcionada à geração de sumários a partir de um (monodocumento) ou vários textos relacionados (multidocumento) por meio da síntese extrativa, sobretudo pela ausência se recursos que viabilizassem a expansão da área de Sumarização Automática para esse idioma. Assim, as contribuições deste trabalho engajam-se em três campos, nos métodos de SAA propostos com conhecimento linguísticos, nos métodos de Compressão Sentencial e nos recursos desenvolvidos para a língua Portuguesa.
Imprenta:
- Publisher place: São Carlos
- Date published: 2017
Data da defesa: 12.12.2017

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

NÓBREGA, Fernando Antônio Asevêdo. Sumarização Automática de Atualização para a língua portuguesa. 2017. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/. Acesso em: 06 maio 2024.
APA

Nóbrega, F. A. A. (2017). Sumarização Automática de Atualização para a língua portuguesa (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/
NLM

Nóbrega FAA. Sumarização Automática de Atualização para a língua portuguesa [Internet]. 2017 ;[citado 2024 maio 06 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/
Vancouver

Nóbrega FAA. Sumarização Automática de Atualização para a língua portuguesa [Internet]. 2017 ;[citado 2024 maio 06 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento

ReP

Exportar registro bibliográfico

Sumarização Automática de Atualização para a língua portuguesa (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Sumarização Automática de Atualização para a língua portuguesa (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: