O Processamento de Linguagem Natural nos Estudos Métricos da Informação: uma análise dos artigos indexados pela Web of Science (2000- 2019)

AutorMirelys Puerta-Díaz, Bianca Savegnago de Mira, Daniel Martínez-Ávila, María-Antonia Ovalle-Perandones, Maria Cláudia Cabrini Grácio
Páginas1-24
Artigo
Original
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 26, p. 01-24 , 2021.
Universidade Federal de Santa Catarina. ISSN 1518-2924. DOI: ht tps://doi.org/10.5007/1518-2924.2021.e76886
O PROCESSAMENTO DE LINGUAGEM NATURAL
NOS ESTUDOS MÉTRICOS DA INFORMAÇÃO: UMA
ANÁLISE DOS ARTIGOS INDEXADOS PELA WEB OF
SCIENCE (2000- 2019).
Natural Language Processing in Information Metric Studies: an analysis
of the articles indexed by the Web of Science (2000-2019).
Mirelys PUERTA-DÍAZ
Doutoranda do Programa de Pós-graduação em Ciência da
Informação
Universidade Estadual Paulista, Departamento Ciência da
Informação, Marília, Brazil
mirelys.puerta@unesp.br
https://orcid.org/0000-0002-2312-2540
Bianca Savegnago de MIRA
Bacharel em Biblioteconmia.
Universidade Estadual Paulista, Departamento Ciência da
Informação, Marília, Brazil
bianca.mira@unesp.br
https://orcid.org/0000-0001-7913-4084
Daniel MARTÍNEZ-ÁVILA
Doutor e Professor.
Universidad de Carlos III de Madrid, Departamento de
Biblioteconomía y Documentación,Madri, Espanha
daniel.martinez@uc3m.es
https://orcid.org/0000-0003-2236-553X
María-Antonia OVALLE-PERANDONES
Doutora e Professora
Universidad Complutense de Madrid, Departamento de
Biblioteconomía y Documentación, Madri, Espanha
maovalle@ucm.es
https://orcid.org/0000-0002-6149-4724
Maria Cláudia Cabrini Grácio
Doutora e Professora
Universidade Estadual Paulista, Departamento Ciência da
Informação, Marília, Brazil
cabrini.gracio@unesp.br
https://orcid.org/0000-0002-8003-0386
A lista completa com informações dos autores está no final do artigo
RESUMO
Objetivo: Identificar a estrutura científica internacional das pesquisas que vinculam o uso do Processamento de
linguagem natural no campo dos estudos métricos da informação.
Método: A pesquisa é baseada em uma perspectiva qualiquantitativa própria dos estudos mét ricos da informação no
domínio da organização do conhecimento. A coleta de dados foi realizada em 02/02/2020 no recurso Web of Science
Core Collection com a expressão "natural language processing", na categoria artigos e revisão, refinada pelas Categorias
da We b of Science Information Science Library Science e li mitada à janela temporal dos últimos 20 anos completos
(período de 2000 a 2019). A Análise de Redes Sociais é utilizada como método de pesquisa para examinar e visualizar a
rede de colaboração científica, de cocitação e de coocorrência de palavras-chave.
Resultados: Dos 552 documentos recuperados, após a análise dos resumos, observou-se que 31 estavam inse ridos no
campo dos estudos métricos. A literatura científica mostra um crescente aumento das publicações nos últimos três anos,
com 2018 sendo o ano mais produtivo.
Conclusões: Considerando que o conjunto de técnicas de PLN (ex. bag of words, tokenization, word stemming, part-of-
speech tagging e SVM) vem permitindo ao pesquisador ir além da análise de citação tradicional, para uma análise mais
voltada ao conteúdo e contexto da citação, a literatura científica internacional so bre a aplicação do PLN nos estudos
métricos da informação tem se mostrado emerge nte. A revista Scientometrics configura o meio de d isseminação dos
trabalhos que alcançaram maior impacto. Finalizando, a análise de cocitação k-core mostra a existência de um importante
núcleo teórico, frequentemente citado na comunidade acadêmica internacional.
PALAVRAS-CHAVE: Processamento da Linguagem Natural. Estudos Métricos da Informação. Análise de Redes Sociais.
Pesquisa Científica. Mapeamento da Ciência
ABSTRACT
Objective: To identify the international scientific structure of the research on the use of natural language processing in the
information metric studies area.
Methods: It follows qualitative and quantitative approaches o f the information metric studies and the knowledge
organization domain. The data was retrieved on 02/02/2020 from the Web of Science Core Collection using the expression
"natural language processing", limited to the document types articles and reviews, the category Information Science Library
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianó polis, v. 26, p. 01-24, 2021.
Universidade Federal de Santa Catarina. ISSN 1518-2924. DOI: ht tps://doi.org/10.5007/1518-2924.2021.e76886
2
Science, and the timespan of the last 20 complete years (from 2000 to 2019). A Social Networks Analysis was conducted
for the visualization of the scientific collaboration, co-citation, and keywords co-occurrence networks.
Results: Out of the 552 documents retrieved, 31 papers were identified in the information metric studies area. Bibliometric
indicators of production, relationship, and impact were considered in the study and showed an increase of publications in
the last three years, being 2018 the most productive year.
Conclusions: The international scientific literature o n the application of NLP in informa tion metric studies is emerging.
Scientometrics was identified as the source that achieved a greatest impact. Finally, the k-core of the co-citation a nalysis
shows the existence of an important theoretical core, often cited in the international academic community. The set of NLP
techniques (e.., bag of words, tokenization, word stemming, part-of-speech tagging, and SVM) allows the researcher to go
beyond the traditional citation analysis and focus on content and context of the citations.
KEYWORDS: Natural Language Processing. Information Metric Studies. Social Network Analysis. Scientific Research.
Mapping of science.
1 INTRODUÇÃO
A pesquisa em processamento de linguagem natural vem se intensificando há vários
anos, desde o final da década de 1940. Nos anos 50, os estudos no campo do
Processamento de Linguagem Natural (PLN) procuraram aliar a Inteligência Artificial (IA) à
Linguística. Posteriormente, com o avanço das pesquisas científicas interdisciplinares, os
estudos em PLN se aproximaram do campo da Recuperação da Informação e, desde a
década de 1960, o PLN passou a ser utilizado como técnica de indexação e pesquisa em
grandes volumes de texto e como fornecedor de dados estatísticos (NADKARNI; OHNO-
MACHADO; CHAPMAN, 2011), revelando também sua relevância para a área da Ciência
da Informação. Na década de 1970, desenvolveram-se os modelos matemáticos aplicados
à indexação e à recuperação de documentos, baseados na teoria das probabilidades,
estendidos nas décadas subsequentes (SMEATON, 1999).
Estudos nos quais os métodos de PLN e as análises bibliométricas são realizados
em conjunto são mais comuns nos últimos anos. Segundo Taşkin et al. (2019), essas
pesquisas podem ser categorizadas em dois grupos: um no qual o PLN é método dos
estudos bibliométricos aplicados; e outro nos quais os artigos que abordam o campo do
PLN são o objeto de pesquisa dos estudos metateóricos sustentados no método
bibliométrico. Nesse contexto em que é método para os estudos bibliométricos, a análise
das citações de qualquer conjunto de artigos em grande escala nos seus quatro níveis
(sentença, parágrafo, seção e artigo) de proximidade textual tem constituído uma tarefa
complexa e desafiante, para a qual o PLN traz contribuições significativas (LIU; CHEN,
2011).
Apoiando-se em componentes da análise de texto, Glänzel, Heeffer e Thijs (2017)
combinam técnicas baseadas em enlaces para agrupar espaços de documentos e detectar
tópicos de pesquisa emergentes em larga escala. Aspectos estatísticos, distribuições
geográficas e relações de colaboração da pesquisa em computação móvel com PLN foram

Para continuar a ler

PEÇA SUA AVALIAÇÃO

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT