Exportar registro bibliográfico


Metrics:

Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos (2017)

  • Authors:
  • Autor USP: TORRES, GUSTAVO ENRIQUE SALAZAR - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/T.45.2017.tde-20230727-113129
  • Subjects: COMPUTAÇÃO GRÁFICA; PROCESSAMENTO DE IMAGENS; RECUPERAÇÃO DA INFORMAÇÃO; PROGRAMAÇÃO MATEMÁTICA; PROGRAMAÇÃO DINÂMICA
  • Language: Português
  • Abstract: Este trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição.Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCR
  • Imprenta:
  • Data da defesa: 06.12.2017
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/T.45.2017.tde-20230727-113129 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      TORRES, Gustavo Enrique Salazar. Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos. 2017. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2017. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/. Acesso em: 04 maio 2024.
    • APA

      Torres, G. E. S. (2017). Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/
    • NLM

      Torres GES. Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos [Internet]. 2017 ;[citado 2024 maio 04 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/
    • Vancouver

      Torres GES. Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos [Internet]. 2017 ;[citado 2024 maio 04 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024