Autor
|
Recuperação de Informação Distribuída por Fontes Autónomas com SobreposiçãoTese de Doutoramento em Informática Departamento de Informática da Universidade do Minho Braga - Portugal Setembro de 2001 AutorResumoA Recuperação de Informação em Rede é uma área recente de investigação, definida com a intenção de repensar o campo já estabelecido da Recuperação da Informação (RI) no contexto do WWW e da crescente digitalização e acesso na Internet de fontes de informação das Bibliotecas convencionais. O principal objectivo é disponibilizar ao utilizador final um sistema de RI centralizado virtual, construindo programas que permitam seleccionar, de um largo número de fontes de informação, aquelas que são relevantes para uma determinada necessidade de informação do utilizador. Adicionalmente, deve ser devolvido ao utilizador um único conjunto ordenado de documentos pontuados. Para que a recuperação da informação em rede se torne uma verdadeira alternativa à recuperação de informação centralizada, é necessário encontrar soluções eficientes e eficazes para um conjunto de problemas bem definidos. O primeiro aspecto é a selecção das fontes relevantes para uma dada interrogação do utilizador -- o problema da selecção das Bases de Dados. Esta selecção é feita com base em resumos dos conteúdos das fontes (disponibilizados pelas próprias fontes ou construídos com base em interrogações com um único termo), e deve ser introduzida para substituir a simples difusão da interrogação, não escalável na presença dum grande número de fontes de informação. Como diferentes motores de busca podem ter linguagens de interrogação diferentes, a abordagem comum é usar um conjunto reduzido das funcionalidades comuns como linguagem de interrogação do sistema distribuído. Nesse contexto, a correspondência de interrogações é uma tarefa trivial. Uma abordagem mais eficiente, mas também mais complexa, é usar ao máximo a capacidade de cada motor. Neste último caso, o problema da correspondência da interrogação tem que ser resolvido. Outra questão pertinente é o problema da fusão dos resultados devolvidos por fontes potencialmente heterogéneas que usam modelos, heurísticas e algoritmos de pontuação diferentes. Este problema já se colocava na recuperação de informação tradicional quando se combinavam diferentes estratégias de recuperação de informação para melhorar a qualidade da resposta. Também é possível que os items de informação devolvidos por cada documento no conjunto de resposta variem de sistema para sistema, colocando-se o problema da correspondência da meta-informação. Como em qualquer aplicação distribuída, na recuperação distribuída de informação a replicação é usada para diminuir tempos de respostas e aumentar a fiabilidade e disponibilidade do sistema. Portanto, a transparência da replicação tem que ser assegurada ao nível de cada documento e de cada fonte. Dito por outras palavras, o problema da sobreposição tem que ser resolvido. O principal objectivo desta tese é o estudo da sobreposição na recuperação da informação em rede, principalmente no seu relacionamento com a selecção de base de dados e a fusão de resultados. Assim, são propostos algoritmos de selecção de bases de dados e fusão de resultados que consideram a sobreposição como parâmetro de entrada. Esses algoritmos são avaliados usando métodos e figuras de estilo normalizados. A introdução deste parâmetro permite melhorar a eficácia do resultado. Um resultado colateral importante do trabalho realizado é a concepção e concretização duma arquitectura que pode ser usada como bancada para investigação e desenvolvimento dos tópicos mais em foco na recuperação de informação em rede, apresentados nos parágrafos anteriores. O sistema resultante, designado por Webtrieve (Web reTRIEVE), baseado no modelo do espaço vectorial, pode também ser usado para iniciativas pedagógicas ou de prestação de serviço de recuperação de informação.
Bancada Experimental: Webtrieve Foi concebida e concretizada uma arquitectura de motor de busca distribuído que contempla todos os componentes necessários como Robot, BDT, EI, Alocador de Documentos e Clientes. Foram além disso concebidos e concretizados um conjunto um conjunto de programas auxiliares que permitem a automatização da criação de fontes suportadas por BDT distribuídas ou centralizadas. Essas fontes podem ser avaliadas em termos de eficácia e eficiência usando metodologias usadas na maior parte dos trabalhosreportados na literatura. Destaque-se em particular a utilização das colecções de teste TREC para avaliação da eficácia do sistema. Foram utilizados procotocolos normalizados como o HTTP e STARTS para comunicação entre os diversos componentes da arquitectura. A inclusão do STARTS arantiu uma abordagem completa e abrangente à problemática da RI distribuída O Dicionário de Termos foi concebido usando uma abordagem dual, para suportar as listas de ocorrência longas e curtas, que permite a utilização do Webtrieve emcenários dinâmicos como o WWW. O Alocador de Documentos dispõe de algoritmos de alocação e replicação que permitem a simulação em Laboratório de cenários de replicação coordenada e não coordenada. Nesta tese utilizaram-se cenários de replicação não coordenada. O protótipo Webtrieve foi concretizado usando a linguagem Java usando uma abordagem modular e extensível. Já foi testado em laboratório em ambiente multi-plataforma. Para além da experiência adquirida e dos resultados obtidos neste trabalho,
construiu-se uma verdadeira bancada de experiências para recuperação
distribuída de informação textual. Esta bancada permite realizar trabalho
futuro em que seja possível concentrar, ao contrário do que passou neste
trabalho, as energias no problema concreto a resolver sem ter de se criar
condições a usar como ponto de partida. Artigos relacionados
Bibliografia utilizada
|