Busca indexada de padrões em textos comprimidos (2010)
- Authors:
- Autor USP: MACHADO, LENNON DE ALMEIDA - IME
- Unidade: IME
- Sigla do Departamento: MAC
- Assunto: RECUPERAÇÃO DA INFORMAÇÃO
- Language: Português
- Abstract: A busca de palavras em uma grande coleção de documentos é um problema muito recorrente nos dias de hoje, como a própria utilização dos conhecidos “motores de busca” revela. Para que as buscas sejam realizadas em tempo que independa do tamanho da coleção, é necessário que a coleção seja indexada uma única vez. O tamanho destes índices é tipicamente linear no tamanho da coleção de documentos. A compreensão de dados é outro recurso bastante utilizado para lidar com o tamanho sempre crescente da coleção de documentos. A intenção deste estudo é aliar a indexação utilizada nas buscas à compreensão de dados, verificando alternativas às soluções já propostas e visando melhorias no tempo de resposta das buscas e no consumo de memória utilizada nos índices. A análise de estruturas de índice com os algoritmos de compressão mostra que arquivo invertido por blocos em conjuntos com compressão Huffman por palavras é uma ótima opção para sistemas com restrição de consumo de memória, pois proporciona acesso aleatório e busca comprimida. Neste trabalho também são propostas novas codificações livres de prefixo a fim de melhorar a compressão obtida e capaz de gerar códigos auto-sincronizados, ou seja, com acesso aleatório realmente viável. A vantagem destas novas codificações é que elas eliminam a necessidade de gerar a árvore de codificação Huffman através dos mapeamentos propostos, o que se traduz em economia de memória, codificação mais compacta e menor tempo de processamento. Os resultados obtidos mostram redução de 7% e 9% do tamanho dos arquivos comprimidos com tempos de compressão e descompressão melhores e menor consumo de memória.
- Imprenta:
- Data da defesa: 07.05.2010
-
ABNT
MACHADO, Lennon de Almeida. Busca indexada de padrões em textos comprimidos. 2010. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2010. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/fr.php. Acesso em: 24 abr. 2024. -
APA
Machado, L. de A. (2010). Busca indexada de padrões em textos comprimidos (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/fr.php -
NLM
Machado L de A. Busca indexada de padrões em textos comprimidos [Internet]. 2010 ;[citado 2024 abr. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/fr.php -
Vancouver
Machado L de A. Busca indexada de padrões em textos comprimidos [Internet]. 2010 ;[citado 2024 abr. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/fr.php
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas