Seleção de sintagmas nominais na indexação automática

AutorGustavo Diniz do Nascimento, Renato Fernandes Correa
Páginas1-19
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 24, n. 55, p. 01-19, mai./ago.,2019.
Universidade Federal de Santa Catarina. ISSN 1518-2924. DOI: https://doi.org/10.5007/1518-2924.2019.e57927
Artigo
Original
SELEÇÃO DE SINTAGMAS NOMINAIS NA INDEXAÇÃO
AUTOMÁTICA
Noun phase selection in automatic indexing
Gustavo Diniz do NASCIMENTO
Biblioteca Central, Universidade Federal de Campina
Grande, Campina Grande, Brasil
dinizufcg@hotmail.com
https://orcid.org/0000-0002-5130-4149
Renato Fernandes CORREA
Departamento de Ciência da Informação, Universidade
Federal de Pernambuco, Recife, Brasil
renato.correa@ufpe.br
https://orcid.org/0000-0002-9880-8678
Mais informações da obra no final do artigo
RESUMO
Objetivo : Sintetizar e classifi car critérios de seleção de sintagmas nominais utilizados em metodolog ias de indexação
automática por sintagmas nominais para textos escritos em lí ngua portuguesa.
Métodos: A metodologia da pesquisa tem natureza exploratória, de cunho bibliográfico, e tem como método
procedimental a análise de conteúdo. As metodologias de seleção de sintagmas nominais baseiam -se em critérios
como: frequência absoluta de ocorrência, frequência normalizada de ocorr ência, frequência inversa nos documentos,
não ocorrência em lista de sintagmas nominais pouco signifi cativos, na estrutura gramatical e no nível dos sintagmas
nominais.
Resultados: Quanto ao escopo dos critérios, predominam em núm ero os baseados em características do sintagma
nominal (estrutura gramatical, nível, conteúdo lexical) e quanto a adoção predominam os baseados no conteúdo do
documento e no conteúdo do corpus.
Conclusões: A principal contribuição deste estudo consiste do panorama dos cri térios de seleção de sintagmas
nominais relevantes para textos em português.
PALAVR AS-CHAVE: Indexação automática. Sintagmas nominais. Seleção de si ntagmas nominais. Língua portuguesa.
Recuperação da informação.
ABSTRACT
Objective: this study aims to synthetize and classif y the noun phrases selection criteria present in methods for automatic
indexing by noun phrases of texts written in Portuguese.
Methods: The research methodology has an exploratory nature and bibliogr aphic character, and has the content
analysis as procedural method. The bases of the noun phrases selection methodologies are criteria as absolute
frequency of occurrence, normalized frequency of occurrence, inverse document frequency, non-occurrence in list of
stopwords, and the grammatical structure and level of noun phrases.
Conclusions: As for the criteria scope, predominates in quantity those based on the noun phrases characteristics
(grammatical structure, level, lexical content), in adoption predominates those based on the document cont ent and the
corpus content.
Results: The main contribution of this work is the panora mic overview of the noun phrases selection criteria for texts
written in the Portuguese idiom.
KEYWORDS: Automatic indexing. Noun phrases. Noun phrase select ion. Portuguese language. Information retrieval.
1 INTRODUÇÃO
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 24, n. 55, p. 01-19, mai ./ago.,
2019. Universidade Federal de Santa Catarina. ISSN 1518-2924. DOI: https://doi.org/10.5007/1518-2924.2019.e57927
2
Este estudo tem como propósito investigar métodos de indexação automática por
sintagmas nominais quanto aos critérios utilizados para a seleção de sintagmas nominais
relevantes como descritores documentais.
No presente trabalho, a indexação pode ser entendida como a forma de
caracterizar os conceitos que estão presentes na escrita de certo tipo de documento de
modo a permitir a sua recuperação posterior. O propósito da indexação é representar
tematicamente os conteúdos dos documentos através de termos organizados em índices.
Tais termos podem ser denominados: descritores, palavras-chave ou metadados de
assunto.
Araújo e Oliveira (2011, p. 41), em relação à indexação, assinalam que essa é
uma das principais atividades desenvolvidas numa Biblioteca ou Unidade de Informação”.
No entanto, a indexação manual, realizada pelo profissional especializado, não
consegue abarcar todo o volume de informação que vem sendo produzido em meio
digital.
Como alternativa para dar conta do tratamento temático das informações
produzidas no ambiente digital, ganha destaque a indexação automática. A indexação
automática, além de ser rapidamente realizada, permitindo abarcar a massa documental
em ambiente digital, minimiza o problema da subjetividade encontrado na indexação
manual, uma vez que sendo desempenhada pelo ser humano está sujeita a influências
externas que podem afetar o resultado do processo.
Vieira (1988, p. 48), de forma simples e sucinta, conceitua a indexação automática
como sendo “uma operação que identifica, através de programas de computador,
palavras ou expressões significativas dos documentos para descrever de forma
condensada o seu conteúdo”.
A indexação automática baseia-se comumente na identificação de palavras
significativas que ocorrem no texto dos documentos. Várias tentativas vêm sendo
desenvolvidas com o intuito de se utilizar como pontos de acesso aos documentos outras
unidades em Sistemas de Recuperação de Informação (SRIs). Nesse contexto, uma
alternativa que vem se mostrando promissora é a utilização dos sintagmas nominais
presentes nos textos como pontos de acesso à informação.
A indexação automática por sintagmas nominais tem como ponto norteador a
extração de elementos textuais descritores de assuntos contidos nos documentos,
elementos que façam referência a objetos e fatos do mundo real, ou seja, os sintagmas
nominais.

Para continuar a ler

PEÇA SUA AVALIAÇÃO

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT