Glossário

Aglomeração (Clustering)

Agrupamento de documentos ou termos que partilham um conjunto de propriedades comuns. A ideia é agrupar documentos similares ou termos que ocorram frequentemente nos mesmos documentos

Aglomeração Global

Agrupamento de todos documentos da colecção.

Aglomeração Local

Agrupamento do sub-conjunto de documentos relevantes para a interrogação, ignorando os restantes documentos.

Algoritmo de corte

Thresholding na terminologia inglesa. Permitem processar só parte das listas de ocorrência aumentando a eficiência no processamento da interrogação.

Anagrama (n-gram)

qualquer subpalavra de comprimento n.

Aprendizagem Computacional (Machine Learning)

Algoritmos ou programas que melhoram o seu comportamento com o tempo, aprendendo com a sua eficácia e eficiência no passado.

Base de Dados de Texto

Sistema que permite a Recuperação de Informação para uma determinada colecção de documentos. Motor de busca ou search engine, em inglês.

BDT

Acrónimo de Base de Dados de Texto

Basic-1

Esquema de registo para meta-informação

Cobertura (Recall)

Medida de eficácia usada em RI que corresponde à fracção de documentos relevantes existentes na colecção que foram devolvidos

Cobertura Alternativa

Medida de eficácia usada na selecção de BDTs em alternativa à cobertura. Em vez de se usar no denominador da fórmula o número de documentos relevantes existentes para as n BDTs seleccionadas como na cobertura, usa-se sempre o total de documentos relevantes existentes.

Colecção

Um grupo de itens, normalmente documentos. Nas bibliotecas digitais isso corresponde a um conjunto de documentos agrupados por qualquer razão de gestão.

Colecção distribuída

Colecção composta por colecções mais pequenas mas vistas como uma só pelo utilizador pelo facto de usar um sistema distribuído de RI.

Colecção de Teste

Uma colecção usada para testar modelos e algoritmos de recuperação de informação. Normalmente inclui um conjunto de documentos, um conjunto de interrogações de teste e os documentos consideardos como relevantes para cada interrogação.

Colecção TREC

Colecção de teste de referência.

Curva de Actualizações

Ritmo de actualizações, que pode ser experimental (obtido com base em registos históricos) ou distribuições estatísticas. Serve para animar as actualizações em Laboratório e avaliar a eficiência do sistema de RI face a actualizações.

Curva de Precisão e Cobertura

Gráfico de precisão e cobertura.

Curva de tráfego

Ritmo de interrogações, que pode ser experimental (obtido com base em registos históricos) ou distribuições estatísticas. Serve para animar as interrogações em Laboratório e avaliar a eficiência do sistema de RI face a interrogações.

Dados Multimédia

Dados que combinam vários media tal como texto, imagens, som e video.

Dados semi-estruturados

Dados cuja estrutura pode não unificar ou unifica parcialmente a estrutura descrita por um esquema de dados.

Dados semi-estáticos

Um colecção de textos que não muda muito frequentemente.

DC

Acrónimo de Dublin Core

Desacerto (fall-out)

Medida de eficácia. Proporção de documentos não relevantes devolvidos.

Detector de Língua

Programa que permite determinar a língua em que determinado documento está escrito. Existem várias técnicas baseadas em anagramas ou em palavras frequentes.

DIMF

Acrónimo de Distributed Index Markup Language.

Dicionário Negativo

Lista de palavras que ocorrem frequentemente no texto de qualquer documento. Exemplos são artigos, preposições e conjunções.

Distributed Index Markup Language

Linguagem de etiquetas usada no Webtrieve para especificar os vários tipos de objectos persistentes trocados em ficheiro pelos vários programas.

Documento

A unidade usada na recuperação de informação. Pode ser um artigo, uma página web, um livro, um parágrafo, uma se cção, uma imagem, etc...

Documento indexado

Representante do documento depois de processado pelo Indexador de Documentos Tipicamente corresponde a uma tabela de ocorrências e um registo de meta-informação.

Directório

Uma categorização hierárquica de conceitos numa área de conhecimento. Muitos portais mantêm os documentos organizados em directórios.

DTD

Definição de Tipo de Documento: Definição SGML para uma linguagem de etiquetas.

Dublin Core

Esquema para registo de meta-informação para documentos

Eficácia

Uma medida da correcção com que o sistema de RI responde às interrogações dos utilizadores. Tipicamente é aferida com base em curvas de precisão e cobertura.

Eficiência

Uma medida da relação entre a velocidade de resposta e os recursos (processamento, armazenamento e rede) gastos pelo sistema de RI.

EI

Acrónimo de Encaminhador de Interrogações

Encaminhador de Interrogações

Componente do sistema distribuído de RI responsável pelo encaminhamento das interrogações

Encaminhamento de interrogações

Ver Selecção de fontes

Escala

Tamanho do problema a resolver. No caso da RI os parâmetros desta escala são dados pelo número de documentos, número de BDTs, ritmo de interrogações e actualizações.

Escalável

Um sistema, algoritmo ou abordagem é escalável se se comporta normalmente em termos de eficiência e eficácia quando se aumenta a escala do problema a resolver.

Estrutura do documento

Informação incluída num documento para além do seu conteúdo que permite relacionar as suas partes de forma semântica

Estrutura do texto

Ver estrutura do documento

Etiqueta

Uma palavra que é usada para marcar o princípio ou fim dum elemento estrutural do texto

Expansão da interrogação

Um processo de adicionar novos termos à interrogação numa tentativa de uma melhor contextualização para devolução dos documentos relevantes para o utilizar.

Expressão regular

Padão genérico que permite a expressões com strings alternativas, repetições e concatenação de substrings.

Ficheiro invertido

Resultado da inversão das tabelas de ocorrência de todos os documentos que constituem a colecção.

Filtragem de informação

Sistema de RI que indexa perfis de informação que correspondem a necessidades de informação e compara com os documentos dum fluxo fazendo chegar aos utilizadores os documentos considerados relevantes pelo respectivo perfil.

Fonte

Entenda-se uma BDT centralizada ou distribuída que permita a pesquisa e o acesso a uma colecção de documentos. O conjunto de documentos é agrupado em colecção por qualquer razão administrativa, geográfica, política ou outra qualque

Fusão de resultados

Um processo de junção de respostas vindas das várias fontes interrogadas para juntar numa única a devolver ao utilizador. Trata-se dum problema importantíssimo da recuperação distruíde informação.

HPROF

Traçador de perfis que usa o JVMPI.

HTML

Acrónimo deHyperText Markup Language (HTML), a linguagem de etiquetas usada no Web.

HTTP

Acrónimo deHyperText Transfer Protocol, protcolo usado no Web para transferência de páginas de hipertexto.

ID

Acrónimo de Indexador de Documentos.

Indexador de Documentos

Componente do sistema de RI que processa os documentos extraindo a informação considerada útil para construir o ficheiro invertido e os registos de meta-informação.

Interrogação

Uma expressão da necessidade de informação do utilizador na linguagem disponibilizada pelo sistema. Normalmente inclui um conjunto de termos e operadores booleanos ou de proximidade.

JVMPI

Acrónimo de Java Virtual Machine Profiler Interface. Trata-se duma Interface entre a máquina virtual Java e o traçador de perfis.

Linguagem de etiquetas

Terminologia em Português para designar o conceito markup language.

Linguagem de interrogação

Linguagem usada para descrever as necessidades de informação em formato processável pelo sistema de RI.

Lista de ocorrência

Conjunto de registos de ocorrência relativo a um termo, isto é, informação a respeito da ocorrência do termo em cada documento. A terminologia usada em inglês é Posting List.

Listas não sobrepostas

Ver Modelo de Listas não sobrepostas.

LOC

Acrónimo de Lista de Ocorrência Curta

LOL

Acrónimo de Listas de Ocorrência Longa

MARC

Esquema normalizado para meta-informação usado nas Biliotecas para documentos

MBasic-1

Esquema para registo de meta-informação para BDTs ou EIs

Metadados

Dados a respeito de dados. Neologismo usado como sinónimo de meta-informação.

Meta-informação

Informação a respeito da informação. Atributos do documento tal como autor, título tamanho, hiperligações, etc... Normalmente é mantido num esquema como Dublin Core, MARC ou Basic-1

Modelo Booleano

Modelo clássico de recuperação de informação baseado na teoria dos conjuntos

Modelo Booleano Extendido

Um modelo de recuperação de informação basado numa extensão do modelo booleano clássico. A ideia é a interpretação das unificações parciais como distâncias euclideanas representadas num espaço vectorial de termos de índice.

Modelo do Espaço Vectorial

Modelo clássico de recuperação de informação baseado na representação de documentos e interrogações como vectores de termos. O modelo pressupõe a indepndência entre os termos.

Modelo Probabilístico

Modelo clássico de recuperação de informação baseado na interpretação probabilística da relevância dum documento para uma dada interrogação.

Modelo de Listas não sobrepostas

Um modelo de recuperação de documentos estruturados através de estruturas de índices concretizados como listas não sobrepostas.

Modelo de Nós Próximos

Um modelo para recuperação de documentos estruturados através duma estrutura hierárquica de índices.

Modelo de Recuperação de Informação

Um conjunto de premissas e uma algoritmo para pontuar documentos para uma determminada interrogação do utilizador.

Navegação (Browsing)

Processo interactivo em que o utilizador está mais interassado em explorar e conhecer os documentos do que satisfazer uma necessidade específica de informação.

Necessidade de informação do utilizador

Uma frase em linguagem natural que especifique a necessidade de informação do utilizador. Por exemplo, Procure documentos que discutam as implicações políticas resultantes dum Deputado do CDS/PP e Presidente da Câmara de Ponte de Lima, Daniel Campelo, ter viabilizado com a sua abstenção, a aprovação do Orcamento de Estado de 2000 apresentado pelo Governo do PS.

Nós próximos

ver Modelo dos Nós Próximos.

Palavra chave

Ver Termo de índice

Perfil de informação

Especificação duma necessidade permanente de informação do utilizador, com uma estrutura complexa, usada em sistemas de filtragem de informação.

Precisão

Medida de eficácia usada em RI que corresponde à fracção de documentos relevantes no total de devolvidos.

Preservação Digital

Serviço que assegura que um objecto digital continue acessível e útil durante um período de tempo (centenas de anos) acessível e passível de utilização. Isso requer normalmente transferência de media (de tape para CD,por exemplo) e conversão de formatos

Radicalização (Stemming)

Uma técnica para reduzir as palavras ao seu radical gramatical.

Realimentação de relevância

Mecanismo iterativo em que o utilizador vai usando as respostas do sistema para melhorar a sua interrogação ate obter uma resposta que o satisfaça. Trata-se da utilização, no contexto da RI, do mecanismo clássico de realimentação de sistemas de controle.

Recuperação de Dados

A recuperação de itens(tuplos, documentos, páginas Web, etc...) cujo conteúdo satisfaz exactamente as condições especificadas na interrogação (tipo expressão regular)

Recuperação distribuída de informação

A utilização de técnicas de computação distribuída para resolver o problema da recuperação da informação

Recuperação de Informação Multimedia

Sistema de recuperação de informação que manipula documentos multimedia.

Redes de Crença (Belief Networks)

Um modelo probabilístico de RI baseado na interpretação de documentos, interrogações e termos de índice como nós duma rede de Bayes. Este modelo é diferente das redes de inferência.

Redes de Inferência

Um modelo probabilístico de RI baseado na interpretação de documentos, interrogações e termos de índice como nós duma rede de Bayes. Este modelo é diferente das redes de crença.

Recuperação de Informação (Information Retrieval)

Área das ciências da computação que estuda a recuperação de informação (não de dados) duma colecção de documentos. Os documentos devolvidos têm como objectivo satisfazer uma necessidade de informação do utilizador expressa normalmente em linguagem natural

Registo de Ocorrência

Informação de ocorrência dum termo num documento. Pode incluir informação de localização e estatísticas de ocorrência. É designado por posting, na terminologia inglesa.

Refinamento da interrogação

Processo iterativo que permite ao utilizador ir melhorando a interrogação representando mais fielmente a sua necessidade de informação.

Relevância

Qualidade dos documentos que satisfazem a necessidade de informação do utilizador, explicitada na interrogação.

Representante

Forma mais compacta de representar os objectos relevantes (documentos e interrogações) num sistema de RI.

Selecção de fontes

Selecção no conjunto de colecções de documentos disponíveis daquelas que é suposto conterem os documentos relevantes para determinada interrogação. É um dos problemas mais importantes da recuperação distribuida de de informação

Servidor de Documentos

Um servidor que devolve documentos ao utilizador. Um servidor WWW, por exemplo.

SGML

Acrónimo para Standard Generalized Markup Language. Meta linguagem de etiquetas. O HTML é baseado no SGML.

Sobrecarga de informação

Grande número de documentos e fontes de informação disponíveis, e o utilizador tem dificuldade em escolher as mais relevantes.

Sobreposição

Documentos replicados em duas ou mais BDTs distintas ou em respostas a uma mesma interrogação.

STARTS

Acrónimo de Stanford Proposal for Internet Meta-Searching. O STARTS é um protocolo para RI distribuída em ambientes heterogéneos, desenvolvido na Universidade de Stanford, EUA, em cooperação com a indústria de produtos de RI.

Sumário da BDT

Resumo de informação da BDT exportada para o EI. Neste resumo existe informação do número de ocorrências e número de documentos para cada termo do vocabulário de termos.

Tempo de processamento

Tempo de CPU necessário para para correr determinado programa ou método.

Tempo de corrida

Tempo medido entre o início e o fim do programa.

Termo de índice

Um palavra usada para identificar o conteúdo dum documento. Normalmente é um nome ou uma frase (2 ou mais nomes).

Thesaurus

Uma estrutura de dados composta de uma lista de palavras importantes dum dado domínio de conhecimento e para palavra da lista, um lista de palavras relacionadas (sinónimos, etc...).

Totalidade

Usada como sinónimo de cobertura.

Traçador de Perfil

Pacote de software que permite estabelecer o perfil dum outro programa em termos de recursos necessários de processador, memória, E/S com base na monitorização de eventos.

Unificação exacta (Exact Match)

Mecanismo através do qual apenas os objectos que satisfazem exactamente algum critério bem especificado, é devolvido o utilizador como resposta à interrogação

URL

Acrónimo de Uniform Resource Locator, termo em inglês usado para designar o endereço de um recurso Internet, incluindo as páginas Web.

Vocabulário

O conjunto de todas as palavras diferentes num texto e ou numa colecção.

WAIS

Acrónimo de Wide Area Information Service: conjunto de protocolos concebidos para publicar information e interrogar bases de dados na Internet.

Webtrieve

Nome do protótipo de sistema de RI distribuído, concebido e concretizado no âmbito da parte experimental desta tese. O nome é o acrónimo usado para WEB reTRIEVE.

XML

Acrónimo de eXtended Markup Language. O XML é um subconjunto do SGML especialmente definido para o Web. No XML é mais simples definir novas linguagens de etiquetas.

Z39.50

Uma norma dos EUA que se tornou numa norma internacional. Trata-se dum protocolo para comunicação cliente/servidor em sistemas de RI. Permite a interacção de um cliente com mais que um sistema de RI, ou um sistema de RI (ou gateways) comunicarem com outros sistemas de RI. Suporta sessões orientadas à conexão havendo a possibilidade de um sistema descrever-se em resposta ao comando EXPLAIN, submissão de interrogações, obtenção de informação, lista de resultados e os próprios documentos encontrados.

 
Joaquim Macedo 2002-02-07