Exportar registro bibliográfico


Metrics:

Avaliação de representações embeddings para similaridade sentencial no Português (2023)

  • Authors:
  • Autor USP: RODRIGUES, ANA CAROLINA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • DOI: 10.11606/D.55.2023.tde-02062023-105741
  • Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; APRENDIZADO COMPUTACIONAL; INTELIGÊNCIA ARTIFICIAL; REDES NEURAIS; MINERAÇÃO DE DADOS
  • Keywords: Embeddings; Embeddings; Machine learning; Português; Portuguese; Sentence similarity; Similaridade sentencial; STS; STS
  • Agências de fomento:
  • Language: Português
  • Abstract: O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento delíngua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.
  • Imprenta:
  • Data da defesa: 02.03.2023
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.55.2023.tde-02062023-105741 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      RODRIGUES, Ana Carolina. Avaliação de representações embeddings para similaridade sentencial no Português. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/. Acesso em: 03 jun. 2024.
    • APA

      Rodrigues, A. C. (2023). Avaliação de representações embeddings para similaridade sentencial no Português (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
    • NLM

      Rodrigues AC. Avaliação de representações embeddings para similaridade sentencial no Português [Internet]. 2023 ;[citado 2024 jun. 03 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/
    • Vancouver

      Rodrigues AC. Avaliação de representações embeddings para similaridade sentencial no Português [Internet]. 2023 ;[citado 2024 jun. 03 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02062023-105741/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024