Aglomeração (Clustering)
Agrupamento de documentos ou termos que partilham um conjunto de propriedades comuns. A ideia é agrupar documentos similares ou termos que ocorram frequentemente nos mesmos documentos
Aglomeração Global
Agrupamento de todos documentos da colecção.
Aglomeração Local
Agrupamento do sub-conjunto de documentos relevantes para a interrogação, ignorando os restantes documentos.
Algoritmo de corte
Thresholding na terminologia inglesa. Permitem processar só parte das listas de ocorrência aumentando a eficiência no processamento da interrogação.
Anagrama (n-gram)
qualquer subpalavra de comprimento n.
Aprendizagem Computacional (Machine Learning)
Algoritmos ou programas que melhoram o seu comportamento com o tempo, aprendendo com a sua eficácia e eficiência no passado.
Base de Dados de Texto
Sistema que permite a Recuperação de Informação para uma determinada colecção de documentos. Motor de busca ou search engine, em inglês.
BDT
Acrónimo de Base de Dados de Texto
Basic-1
Esquema de registo para meta-informação
Cobertura (Recall)
Medida de eficácia usada em RI que corresponde à fracção de documentos relevantes existentes na colecção que foram devolvidos
Cobertura Alternativa
Medida de eficácia usada na selecção de BDTs em alternativa à cobertura. Em vez de se usar no denominador da fórmula o número de documentos relevantes existentes para as n BDTs seleccionadas como na cobertura, usa-se sempre o total de documentos relevantes existentes.
Colecção
Um grupo de itens, normalmente documentos. Nas bibliotecas digitais isso corresponde a um conjunto de documentos agrupados por qualquer razão de gestão.
Colecção distribuída
Colecção composta por colecções mais pequenas mas vistas como uma só pelo utilizador pelo facto de usar um sistema distribuído de RI.
Colecção de Teste
Uma colecção usada para testar modelos e algoritmos de recuperação de informação. Normalmente inclui um conjunto de documentos, um conjunto de interrogações de teste e os documentos consideardos como relevantes para cada interrogação.
Colecção TREC
Colecção de teste de referência.
Curva de Actualizações
Ritmo de actualizações, que pode ser experimental (obtido com base em registos históricos) ou distribuições estatísticas. Serve para animar as actualizações em Laboratório e avaliar a eficiência do sistema de RI face a actualizações.
Curva de Precisão e Cobertura
Gráfico de precisão e cobertura.
Curva de tráfego
Ritmo de interrogações, que pode ser experimental (obtido com base em registos históricos) ou distribuições estatísticas. Serve para animar as interrogações em Laboratório e avaliar a eficiência do sistema de RI face a interrogações.
Dados Multimédia
Dados que combinam vários media tal como texto, imagens, som e video.
Dados semi-estruturados
Dados cuja estrutura pode não unificar ou unifica parcialmente a estrutura descrita por um esquema de dados.
Dados semi-estáticos
Um colecção de textos que não muda muito frequentemente.
DC
Acrónimo de Dublin Core
Desacerto (fall-out)
Medida de eficácia. Proporção de documentos não relevantes devolvidos.
Detector de Língua
Programa que permite determinar a língua em que determinado documento está escrito. Existem várias técnicas baseadas em anagramas ou em palavras frequentes.
DIMF
Acrónimo de Distributed Index Markup Language.
Dicionário Negativo
Lista de palavras que ocorrem frequentemente no texto de qualquer documento. Exemplos são artigos, preposições e conjunções.
Distributed Index Markup Language
Linguagem de etiquetas usada no Webtrieve para especificar os vários tipos de objectos persistentes trocados em ficheiro pelos vários programas.
Documento
A unidade usada na recuperação de informação. Pode ser um artigo, uma página web, um livro, um parágrafo, uma se cção, uma imagem, etc...
Documento indexado
Representante do documento depois de processado pelo Indexador de Documentos Tipicamente corresponde a uma tabela de ocorrências e um registo de meta-informação.
Directório
Uma categorização hierárquica de conceitos numa área de conhecimento. Muitos portais mantêm os documentos organizados em directórios.
DTD
Definição de Tipo de Documento: Definição SGML para uma linguagem de etiquetas.
Dublin Core
Esquema para registo de meta-informação para documentos
Eficácia
Uma medida da correcção com que o sistema de RI responde às interrogações dos utilizadores. Tipicamente é aferida com base em curvas de precisão e cobertura.
Eficiência
Uma medida da relação entre a velocidade de resposta e os recursos (processamento, armazenamento e rede) gastos pelo sistema de RI.
EI
Acrónimo de Encaminhador de Interrogações
Encaminhador de Interrogações
Componente do sistema distribuído de RI responsável pelo encaminhamento das interrogações
Encaminhamento de interrogações
Ver Selecção de fontes
Escala
Tamanho do problema a resolver. No caso da RI os parâmetros desta escala são dados pelo número de documentos, número de BDTs, ritmo de interrogações e actualizações.
Escalável
Um sistema, algoritmo ou abordagem é escalável se se comporta normalmente em termos de eficiência e eficácia quando se aumenta a escala do problema a resolver.
Estrutura do documento
Informação incluída num documento para além do seu conteúdo que permite relacionar as suas partes de forma semântica
Estrutura do texto
Ver estrutura do documento
Etiqueta
Uma palavra que é usada para marcar o princípio ou fim dum elemento estrutural do texto
Expansão da interrogação
Um processo de adicionar novos termos à interrogação numa tentativa de uma melhor contextualização para devolução dos documentos relevantes para o utilizar.
Expressão regular
Padão genérico que permite a expressões com strings alternativas, repetições e concatenação de substrings.
Ficheiro invertido
Resultado da inversão das tabelas de ocorrência de todos os documentos que constituem a colecção.
Filtragem de informação
Sistema de RI que indexa perfis de informação que correspondem a necessidades de informação e compara com os documentos dum fluxo fazendo chegar aos utilizadores os documentos considerados relevantes pelo respectivo perfil.
Fonte
Entenda-se uma BDT centralizada ou distribuída que permita a pesquisa e o acesso a uma colecção de documentos. O conjunto de documentos é agrupado em colecção por qualquer razão administrativa, geográfica, política ou outra qualque
Fusão de resultados
Um processo de junção de respostas vindas das várias fontes interrogadas para juntar numa única a devolver ao utilizador. Trata-se dum problema importantíssimo da recuperação distruíde informação.
HPROF
Traçador de perfis que usa o JVMPI.
HTML
Acrónimo deHyperText Markup Language (HTML), a linguagem de etiquetas usada no Web.
HTTP
Acrónimo deHyperText Transfer Protocol, protcolo usado no Web para transferência de páginas de hipertexto.
ID
Acrónimo de Indexador de Documentos.
Indexador de Documentos
Componente do sistema de RI que processa os documentos extraindo a informação considerada útil para construir o ficheiro invertido e os registos de meta-informação.
Interrogação
Uma expressão da necessidade de informação do utilizador na linguagem disponibilizada pelo sistema. Normalmente inclui um conjunto de termos e operadores booleanos ou de proximidade.
JVMPI
Acrónimo de Java Virtual Machine Profiler Interface. Trata-se duma Interface entre a máquina virtual Java e o traçador de perfis.
Linguagem de etiquetas
Terminologia em Português para designar o conceito markup language.
Linguagem de interrogação
Linguagem usada para descrever as necessidades de informação em formato processável pelo sistema de RI.
Lista de ocorrência
Conjunto de registos de ocorrência relativo a um termo, isto é, informação a respeito da ocorrência do termo em cada documento. A terminologia usada em inglês é Posting List.
Listas não sobrepostas
Ver Modelo de Listas não sobrepostas.
LOC
Acrónimo de Lista de Ocorrência Curta
LOL
Acrónimo de Listas de Ocorrência Longa
MARC
Esquema normalizado para meta-informação usado nas Biliotecas para documentos
MBasic-1
Esquema para registo de meta-informação para BDTs ou EIs
Metadados
Dados a respeito de dados. Neologismo usado como sinónimo de meta-informação.
Meta-informação
Informação a respeito da informação. Atributos do documento tal como autor, título tamanho, hiperligações, etc... Normalmente é mantido num esquema como Dublin Core, MARC ou Basic-1
Modelo Booleano
Modelo clássico de recuperação de informação baseado na teoria dos conjuntos
Modelo Booleano Extendido
Um modelo de recuperação de informação basado numa extensão do modelo booleano clássico. A ideia é a interpretação das unificações parciais como distâncias euclideanas representadas num espaço vectorial de termos de índice.
Modelo do Espaço Vectorial
Modelo clássico de recuperação de informação baseado na representação de documentos e interrogações como vectores de termos. O modelo pressupõe a indepndência entre os termos.
Modelo Probabilístico
Modelo clássico de recuperação de informação baseado na interpretação probabilística da relevância dum documento para uma dada interrogação.
Modelo de Listas não sobrepostas
Um modelo de recuperação de documentos estruturados através de estruturas de índices concretizados como listas não sobrepostas.
Modelo de Nós Próximos
Um modelo para recuperação de documentos estruturados através duma estrutura hierárquica de índices.
Modelo de Recuperação de Informação
Um conjunto de premissas e uma algoritmo para pontuar documentos para uma determminada interrogação do utilizador.
Navegação (Browsing)
Processo interactivo em que o utilizador está mais interassado em explorar e conhecer os documentos do que satisfazer uma necessidade específica de informação.
Necessidade de informação do utilizador
Uma frase em linguagem natural que especifique a necessidade de informação do utilizador. Por exemplo, Procure documentos que discutam as implicações políticas resultantes dum Deputado do CDS/PP e Presidente da Câmara de Ponte de Lima, Daniel Campelo, ter viabilizado com a sua abstenção, a aprovação do Orcamento de Estado de 2000 apresentado pelo Governo do PS.
Nós próximos
ver Modelo dos Nós Próximos.
Palavra chave
Ver Termo de índice
Perfil de informação
Especificação duma necessidade permanente de informação do utilizador, com uma estrutura complexa, usada em sistemas de filtragem de informação.
Precisão
Medida de eficácia usada em RI que corresponde à fracção de documentos relevantes no total de devolvidos.
Preservação Digital
Serviço que assegura que um objecto digital continue acessível e útil durante um período de tempo (centenas de anos) acessível e passível de utilização. Isso requer normalmente transferência de media (de tape para CD,por exemplo) e conversão de formatos
Radicalização (Stemming)
Uma técnica para reduzir as palavras ao seu radical gramatical.
Realimentação de relevância
Mecanismo iterativo em que o utilizador vai usando as respostas do sistema para melhorar a sua interrogação ate obter uma resposta que o satisfaça. Trata-se da utilização, no contexto da RI, do mecanismo clássico de realimentação de sistemas de controle.
Recuperação de Dados
A recuperação de itens(tuplos, documentos, páginas Web, etc...) cujo conteúdo satisfaz exactamente as condições especificadas na interrogação (tipo expressão regular)
Recuperação distribuída de informação
A utilização de técnicas de computação distribuída para resolver o problema da recuperação da informação
Recuperação de Informação Multimedia
Sistema de recuperação de informação que manipula documentos multimedia.
Redes de Crença (Belief Networks)
Um modelo probabilístico de RI baseado na interpretação de documentos, interrogações e termos de índice como nós duma rede de Bayes. Este modelo é diferente das redes de inferência.
Redes de Inferência
Um modelo probabilístico de RI baseado na interpretação de documentos, interrogações e termos de índice como nós duma rede de Bayes. Este modelo é diferente das redes de crença.
Recuperação de Informação (Information Retrieval)
Área das ciências da computação que estuda a recuperação de informação (não de dados) duma colecção de documentos. Os documentos devolvidos têm como objectivo satisfazer uma necessidade de informação do utilizador expressa normalmente em linguagem natural
Registo de Ocorrência
Informação de ocorrência dum termo num documento. Pode incluir informação de localização e estatísticas de ocorrência. É designado por posting, na terminologia inglesa.
Refinamento da interrogação
Processo iterativo que permite ao utilizador ir melhorando a interrogação representando mais fielmente a sua necessidade de informação.
Relevância
Qualidade dos documentos que satisfazem a necessidade de informação do utilizador, explicitada na interrogação.
Representante
Forma mais compacta de representar os objectos relevantes (documentos e interrogações) num sistema de RI.
Selecção de fontes
Selecção no conjunto de colecções de documentos disponíveis daquelas que é suposto conterem os documentos relevantes para determinada interrogação. É um dos problemas mais importantes da recuperação distribuida de de informação
Servidor de Documentos
Um servidor que devolve documentos ao utilizador. Um servidor WWW, por exemplo.
SGML
Acrónimo para Standard Generalized Markup Language. Meta linguagem de etiquetas. O HTML é baseado no SGML.
Sobrecarga de informação
Grande número de documentos e fontes de informação disponíveis, e o utilizador tem dificuldade em escolher as mais relevantes.
Sobreposição
Documentos replicados em duas ou mais BDTs distintas ou em respostas a uma mesma interrogação.
STARTS
Acrónimo de Stanford Proposal for Internet Meta-Searching. O STARTS é um protocolo para RI distribuída em ambientes heterogéneos, desenvolvido na Universidade de Stanford, EUA, em cooperação com a indústria de produtos de RI.
Sumário da BDT
Resumo de informação da BDT exportada para o EI. Neste resumo existe informação do número de ocorrências e número de documentos para cada termo do vocabulário de termos.
Tempo de processamento
Tempo de CPU necessário para para correr determinado programa ou método.
Tempo de corrida
Tempo medido entre o início e o fim do programa.
Termo de índice
Um palavra usada para identificar o conteúdo dum documento. Normalmente é um nome ou uma frase (2 ou mais nomes).
Thesaurus
Uma estrutura de dados composta de uma lista de palavras importantes dum dado domínio de conhecimento e para palavra da lista, um lista de palavras relacionadas (sinónimos, etc...).
Totalidade
Usada como sinónimo de cobertura.
Traçador de Perfil
Pacote de software que permite estabelecer o perfil dum outro programa em termos de recursos necessários de processador, memória, E/S com base na monitorização de eventos.
Unificação exacta (Exact Match)
Mecanismo através do qual apenas os objectos que satisfazem exactamente algum critério bem especificado, é devolvido o utilizador como resposta à interrogação
URL
Acrónimo de Uniform Resource Locator, termo em inglês usado para designar o endereço de um recurso Internet, incluindo as páginas Web.
Vocabulário
O conjunto de todas as palavras diferentes num texto e ou numa colecção.
WAIS
Acrónimo de Wide Area Information Service: conjunto de protocolos concebidos para publicar information e interrogar bases de dados na Internet.
Webtrieve
Nome do protótipo de sistema de RI distribuído, concebido e concretizado no âmbito da parte experimental desta tese. O nome é o acrónimo usado para WEB reTRIEVE.
XML
Acrónimo de eXtended Markup Language. O XML é um subconjunto do SGML especialmente definido para o Web. No XML é mais simples definir novas linguagens de etiquetas.
Z39.50
Uma norma dos EUA que se tornou numa norma internacional. Trata-se dum protocolo para comunicação cliente/servidor em sistemas de RI. Permite a interacção de um cliente com mais que um sistema de RI, ou um sistema de RI (ou gateways) comunicarem com outros sistemas de RI. Suporta sessões orientadas à conexão havendo a possibilidade de um sistema descrever-se em resposta ao comando EXPLAIN, submissão de interrogações, obtenção de informação, lista de resultados e os próprios documentos encontrados.
Joaquim Macedo 2002-02-07