Etiquetagem do português clássico baseada em Corpus (1999)
- Authors:
- Autor USP: ALVES, CARLOS DANIEL CHACUR - IME
- Unidade: IME
- Sigla do Departamento: MAP
- Assunto: LINGUÍSTICA COMPUTACIONAL
- Language: Português
- Abstract: A construção do Corpus Tycho Brahe do português histórico motivou a criação de ferramentas automáticas para a etiquetagem morfo-sintática de palavras de um texto. Para esse fim, selecionamos o método de etiquetagem de Brill por ser um dos que apresenta os melhores resultados na anotação do inglês e por ser um método de aprendizagem automática que representa o conhecimento explicitamente, sob a forma de regras claras e, portanto, de fácil compreensão. No entanto, mostramos teórica e experimentalmente que tal método não é apropriado para línguas com a riqueza morfológica do português, que requerem um grande número de etiquetas para codificação de tais informações. Para aumentar a eficiência do aprendizado das regras, propomos uma extensão ao método de Brill que impõe uma estrutura ao conjunto de etiquetas utilizado e adiciona uma fase de refinamento ao método original. Este refinamento pode ser feita de forma eficiente por não utilizar aprendizado. Apresentamos medidas e resultados obtidos com a versão atual do Corpus Tycho Brahe e discutimos os diversos problemas encontrados no desenvolvimento de nossa abordagem. Além disso, mostramos, através de uma série de experimentos, como um etiquetador morfo-sintático pode ser uma importante ferramenta para o estudo de uma língua
- Imprenta:
- Data da defesa: 29.07.1999
-
ABNT
ALVES, Carlos Daniel Chacur. Etiquetagem do português clássico baseada em Corpus. 1999. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 1999. Disponível em: https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/. Acesso em: 28 mar. 2024. -
APA
Alves, C. D. C. (1999). Etiquetagem do português clássico baseada em Corpus (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/ -
NLM
Alves CDC. Etiquetagem do português clássico baseada em Corpus [Internet]. 1999 ;[citado 2024 mar. 28 ] Available from: https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/ -
Vancouver
Alves CDC. Etiquetagem do português clássico baseada em Corpus [Internet]. 1999 ;[citado 2024 mar. 28 ] Available from: https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas