Análise da extração de descritores como sintagmas nominais através do software OGMA

AutorRenato Fernandes Corrêa, Luiz Henrique Teixeira Bazílio
Páginas46-60
44
v. 22, n. 50, 2017.
p. 44-58
ISSN 1518-2924
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 22, n. 50, p.
44-58, set./dez., 2017. ISSN 1518-2924. DOI: 10.5007/1518-2924.2017v22n50p44
Análise da extração de descritores como sintagmas nominais
através do software OGMA
Analysis of extraction of descriptors as noun phrases through the
OGMA software
Renato Fernandes CORRÊA (renato.correa@ufpe.br)*
Luiz Henrique Teixeira BAZÍLIO (henriquecatende@hotmail.com)**
* Docente do Programa de Pós-Graduação em Ciência da Informação - UFPE.
** Graduando em Gestão da Informação - UFPE.
Resumo
Analisa a indexação automática por sintagmas nominais de documentos, compostos por título e
resumo de 30 teses e dissertações, escritos em português e de três áreas do conhecimento
diferentes. O método de pesquisa é categorizado como exploratório, com base em revisão de
literatura e experimento computacional. O experimento consistiu na análise da saída do s oftware
OGMA quando aplicado ao corpus de documentos e a mensuração do nível de r evocação das
palavras-chaves. Durante a análise, foram observadas quais palavras-chave indicadas pelos
autores estavam nos documentos e depois observou-se quais palavras-chave presentes nos
documentos foram extraídas ou não como sintagmas nominais pelo software. Foi traçado um
perfil descritivo das sequências ou padrões de etiquetas gramaticais de cada grupo de palavras-
chaves presentes as extraídas e não extraídas como sintagmas nominais. Conclui-se que da
totalidade de palavras-chaves informadas pelos a utores 68% se encontravam no título ou resumo
da tese ou dissertação, dessas 66 % foram extraídas como sintagma s nominais, correspondendo
ao nível de revocação de palavras-chaves presentes alcançado pelo software OGMA. As pa lavras-
chaves presentes e não extraídas na grande maioria apresentavam substantivos ou adjetivos
etiquetados com classe gramatical errada pelo software, e por isso não foram extraídas. As
palavras-chaves presentes e extraídas eram na maioria substantivos isolados (30%), substantivos
seguidos de adjetivo (28%) e substantivo seguido de preposição e substantivo (19%). O OGMA
alcançou um bom nível de revocação das palavras-chaves presentes , e este nível ainda pode ser
aumentado em até 34% com ajustes no etiquetador gramatical do software.
Palavras-chaves: Indexação automática; Sintagmas Nominais; Palavras-chaves; Teses e
dissertações; software OGMA.
Abstract
This work investigates automatic indexing by noun phrases of documents cont aining title and
abstract of 30 theses and dissertations written in Portuguese and of three different areas of
knowledge. The research method is exploratory and based on literature review and an
experiment. The experiment consisted of the OGMA software output analysis for the document
corpus and the measurement of the level of reca ll of keywords present in the documents. It shows
a descriptive profile of the sequences of grammatical labels for keywords present extracted and
not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by
the authors were in the title or abstract of the thesis or dissertations, of these 66% were
extracted as noun phrases, which corresponds to the recall level of keywords present reached by
OGMA software. Keywords present and not extracted had ma inly nouns or adjectives labeled with
incorrect grammatical category by the software. Keywords present and extracted were mostly
single nouns (30%), noun-ad jective pair (28%) and noun-preposition-noun trigram (19%). The
OGMA obtained a good level of recall of keywords present, and this level can increases in almost
34% with adjustments in the part-of-speech tagger.
Keywords: Automatic indexing; Noun Phrases; Keywords; Theses and dissertations; OGMA
software.
Esta obra está licenciada sob uma Licença Creative Commons.
ARTIGO
Recebido em:
02/09/2016
Aceito em:
20/05/2017

Para continuar a ler

PEÇA SUA AVALIAÇÃO

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT