next up previous
Next: Radicalizador para português Up: Stemmer para Português Previous: Stemmer para Português

Introdução

A radicalização (stemming na terminologia inglesa) é uma técnica utiliza em sistemas de pesquisa e recuperação de informação para reduzir o tamanho do dicionário de termos (conjunto de termos indexáveis) resultantes no processo de indexação duma colecção de textos. Também é usado para permitir pesquisar variantes morfológicos dos termos duma interrogação.

A desvantagem da radicalização é perder-se a informação corresponente às palavras radicalizadas e ou então a necessidade de espaço adicional para guardar tanto o radical como a palavra original.

A figura 1 retirada de Frakes apresenta uma taxonomia para os algoritmos de radicalização. Os algoritmos de remoção de afixos eliminam sufixos e prefixos e deixam o radical(stem). Esses algoritmos algumas vezes por vezes tarnsformam o próprio radical. Os radicalizadores com base na variedade do sucessor, usam as frequências de sequência de letras no texto como base para a radicalização. O método dos anagramas reduzem os termos com base nos digramas e ngramas que partilham. Os termos e os seus radicais correspondentes podem ser armazenados em tabelas e o processo de radicalização ser feito usando uma tabela.


 
Figure 1: Taxonomia para os métodos de radicalização  
\begin{figure}
 \hrule height 1pt\relax
 \begin{center}
 \vspace{0.5cm}
 \epsfxsize=12cm
 \epsfbox{taxstem.eps}
 \end{center} \hrule height 1pt\relax
 \end{figure}

Há vários critérios para avaliar os radicalizadores: correcção, eficácia de pesquisa e nível de compressão.

Há duas formas de incorrecção do radicalizador: sobre-radicalização e sub-radicalização. Quando um termo está sobre-radicalizado significa que foram removidas letras a mais. Isto pode fazer com que termos originais não relacionados sejam reduzidos ao mesmo radical (colisões). Isto pode fazer com sejam devolvidos documentos não relevantes para a interrogação (diminuir a precisão). A sub-radicalização é um termo original ficar com mais letras que deve após a radicalização. Isto pode fazer com que dois termos relacionados não sejam reduzidos num único (diminuir a compressão) e fazer com que documentos relevantes para a interrogação não sejam devolvidos (diminuir a totalidade).

Finalmente, os radicalizadores são também avaliados com base na sua capacidade de compressão. Os radicalizadores para pesquisa de informação não são normalmente avaliados de acordo com a sua correcção linguística, já que os radicais produzidos são normalmente bastante similares aos radicais.


next up previous
Next: Radicalizador para português Up: Stemmer para Português Previous: Stemmer para Português
Joaquim Macedo
4/24/1999