Avaliação de representações embeddings para similaridade sentencial no Português

Rodrigues, Ana Carolina; Marcacini, Ricardo Marcondes

Tese

Avaliação de representações embeddings para similaridade sentencial no Português (2023)

Authors:
- Rodrigues, Ana Carolina
- Marcacini, Ricardo Marcondes (Orientador)
Autor USP: RODRIGUES, ANA CAROLINA - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
DOI: 10.11606/D.55.2023.tde-02062023-105741
Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; APRENDIZADO COMPUTACIONAL; INTELIGÊNCIA ARTIFICIAL; REDES NEURAIS; MINERAÇÃO DE DADOS
Keywords: Embeddings; Embeddings; Machine learning; Português; Portuguese; Sentence similarity; Similaridade sentencial; STS; STS
Agências de fomento:
- Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Language: Português
Abstract: O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento delíngua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.
Imprenta:
- Publisher place: São Carlos
- Date published: 2023
Data da defesa: 02.03.2023

Informações sobre o DOI: 10.11606/D.55.2023.tde-02062023-105741 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo é de acesso aberto
URL de acesso aberto
Cor do Acesso Aberto: gold
Licença: cc-by-nc-sa

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

RODRIGUES, Ana Carolina. Avaliação de representações embeddings para similaridade sentencial no Português. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/. Acesso em: 03 jun. 2024.
APA

Rodrigues, A. C. (2023). Avaliação de representações embeddings para similaridade sentencial no Português (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
NLM

Rodrigues AC. Avaliação de representações embeddings para similaridade sentencial no Português [Internet]. 2023 ;[citado 2024 jun. 03 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
Vancouver

Rodrigues AC. Avaliação de representações embeddings para similaridade sentencial no Português [Internet]. 2023 ;[citado 2024 jun. 03 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/

ReP

Exportar registro bibliográfico

Avaliação de representações embeddings para similaridade sentencial no Português (2023)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Avaliação de representações embeddings para similaridade sentencial no Português (2023)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: