Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro (2023)
- Authors:
- Autor USP: SAKIYAMA, KENZO MIRANDA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2023.tde-18122023-153735
- Subjects: APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE LINGUAGEM NATURAL; SISTEMA JUDICIÁRIO; AUTOMAÇÃO DAS LÍNGUAS NATURAIS; RECUPERAÇÃO DA INFORMAÇÃO; ANÁLISE DE TEXTO
- Keywords: Aprendizado profundo; Deep learning; Geração de texto; Information retrieval; Machine learning; Natural language processing; Text generation
- Agências de fomento:
- Language: Português
- Abstract: A grande quantidade de processos jurídicos em trânsito no Brasil, evidencia a grande lentidão do sistema judiciário brasileiro. Sendo assim, há uma grande necessidade em desenvolver formas de automatizar e melhorar processos existentes. Os recentes avanços em Processamento de Linguagem Natural (PLN), possibilitam a aplicação dos métodos do estado da arte para automatizar tarefas em diferentes domínios. Assim, neste trabalho, abordamos o problema da automatização da escrita de verbetações: sequência de termos-chave presentes em documentos utilizados em tribunais de todo o Brasil. Para tanto, propusemos a utilização de um framework texto-para-texto baseado em Transformers generativos. Avaliamos diferentes modelos generativos (PTT5, mT5, OPT e BLOOM) e comparamos seus desempenhos para a tarefa proposta. O modelo PTT5 foi escolhido como gerador de verbetações, pois alcançou uma pontuação BLEU de 37,54% no conjunto de teste, superando os demais modelos avaliados em até 24,6%. Por fim, para avaliar a influência e a qualidade das verbetações geradas, realizamos quatro experimentos baseados em um caso real de recuperação de informações no domínio jurídico. Empregando métodos tradicionais de recuperação de informações (TF-IDF e BM25); em combinação com as verbetações originais, geradas, ou ambas; observamos ganhos estatisticamente significativos (p-valor < 0,05) em todos os experimentos realizados.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 13.07.2023
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
SAKIYAMA, Kenzo. Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/. Acesso em: 16 maio 2024. -
APA
Sakiyama, K. (2023). Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/ -
NLM
Sakiyama K. Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro [Internet]. 2023 ;[citado 2024 maio 16 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/ -
Vancouver
Sakiyama K. Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro [Internet]. 2023 ;[citado 2024 maio 16 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/ - Deep4Fusion: a Deep FORage Fusion framework for high-throughput phenotyping for green and dry matter yield traits
- A framework for controversial political topics identification using Twitter data
- Automated keyphrase generation for brazilian legal information retrieval
- Exploring text decoding methods for portuguese legal text generation
Informações sobre o DOI: 10.11606/D.55.2023.tde-18122023-153735 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas