Análisis textual de artículos científicos publicados sobre fósiles colombianos

AutorCristina Restrepo-Arango, Andrés L. Cárdenas-Rozo
CargoDoctora en Bibliotecología y Estudios de la Información Universidad de Córdoba, División de Bibliotecas y Recursos Educativos, Montería, córdoba, Colombia crestrepoarango@gmail.com / Grupo GITEC, Departamento de Ciencias de la Tierra, Escuela de Ciencias, Universidad Eafit, Medellín, Antioquia, Colombia acarde17@eafit.edu.co
Páginas23-47
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 27, p. 01-25, 2022.
Universidade Federal de Santa Catarina. ISSN 1518-2924. DOI: ht tps://doi.org/10.5007/1518-2924.2022.e83470
Artigo
Original
ANÁLISIS TEXTUAL DE ARTÍCULOS CIENTÍFICOS
PUBLICADOS SOBRE FÓSILES COLOMBIANOS
Textual analysis of scientific articles published on Colombian fossils
Cristina Restrepo-Arango
Doctora en Bibliotecología y Estudios de la Información
Universidad de Córdoba, División de Bibliotecas y Recursos Educativos, Montería, córdoba, Colombia
crestrepoarango@gmail.com
https://orcid.org/0000-0003-4275-4102
Andrés L. Cárdenas-Rozo
Grupo GITEC, Departamento de Ciencias de la Tierra, Escuela de Ciencias, Universidad Eafit, Medellín, Antioquia, Colombia
acarde17@eafit.edu.co
https://orcid.org/0000-0003-3849-1514
A lista completa com informações dos autores está no final do artigo
RESUMO
Objetivo: Identificar as proximidades lexicais em um corpus de textos de artigos científicos publicados em revistas
acadêmicas indexadas na base de dados Scopus sobre fósseis colombianos.
Método: Este trabalho aplica a análise textual a cinco artigos paleontológicos sobre fósseis colombianos, a fim de
identificar a proximidade lexical em um corpus de textos. Este trabalho permitiu determinar: as categorias gramaticais, a
proximidade entre categorias de palavras e variáveis com a análise de especificidades (AE), o agrupamento das palavras
com a análise da classificação hierárquica descendente (CJD) e a apresentação gráfica das palavras.
Resultado: Verificamos que o corpus documental é composto por 31.319 ocorrências de palavras, 1.450 formas ativas
ou palavras específicas e 303 formas complementares ou palavras comuns. A categoria gramatical de substantivo
predomina (24%) e palavras não reconhecidas no dicionário (17%). As palavras comuns com maior número de frequências
são artigos, conjugações, proposições e pronomes.
Conclusões: Constatou-se que existe uma proximidade lexical entre o artigo 1 e as formas ativas de “Colômbia” e o artigo
2 e as formas ativas de “fóssil”. As palavras foram agrupadas em cinco classes e a nuvem de palavras foi criada com
1271 palavras.
PALAVRAS-CHAVE: Colômbia. Iramuteq. Lexicon. Paleontologia.
ABSTRACT
Objective: Identify the lexical proximities in a corpus of texts of scientific articles published in academic journals indexed
in the Scopus database on Colombian fossils.
Methodology: This work applies textual analysis to five paleontological articles on Colombian fossils to identify lexical
proximity in a corpus of texts. This work allowed us to determine: the grammatical categories, the proximity between
categories of words and variables with the analysis of specificities (AE), the grouping of the words with the study of the
descending hierarchical classification (CJD) and the graphic presentation of the words.
Results: The documentary corpus comprises 31,319-word occurrences, 1,450 active forms or specific words and 303
complimentary forms or common words. The grammatical category of nouns predominates (24%) and words not
recognized in the dictionary (17%). The familiar words with the highest frequencies are articles, conjugations, propositions,
and pronouns.
Conclusions: It was found that there is linguistic proximity between article 1 and the active forms of “Colombia” and article
2 and the active forms of “fossil”. The words were grouped into five classes, and the word cloud was created with 1271
words.
KEYWORDS: Colombia. Iramuteq. Lexicon. Paleontology.
RESUMEN
Objetivo: Identificar las proximidades léxicas en un corpus de textos de artículos científicos publicados en revistas
académicas indexadas en la base de datos Scopus sobre fósiles colombianos
Metodología: Este trabajo aplica el análisis textual a cinco artículos paleontológicos sobre fósiles colombianos, con el
propósito de identificar las proximidades léxicas en un corpus de textos. Este trabajo, permitió determinar: las categorías
gramaticales, la proximidad entre categorías de palabras y variables con el análisis de especificidades (AE), el
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 27, p. 01-25, 2022.
Universidade Federal de Santa Catarina. ISSN 1518-2924. DOI: ht tps://doi.org/10.5007/1518-2924.2022.e83470
2
agrupamiento de las palabras con el análisis de la clasificación jerárquica descendiente (CJD) y la presentación gráfica
de las palabras.
Resultados: Encontramos, que el corpus documental está conformado por 31.319 ocurrencias de palabras, 1.450 formas
activas o palabras específicas y 303 formas complementarios o palabras comunes. Predomina la categoría gramatical de
sustantivo (24%) y las palabras no reconocidas en el diccionario (17%). Las palabras comunes con el mayor número de
frecuencias son los artículos, las conjugaciones, las proposiciones y los pronombres.
Conclusiones: Se halló que hay proximidad léxica entre el artículo 1 y las formas activas de “Colombia” y el artículo 2 y
las formas activas de “fossil”. Las palabras se agruparon en cinco clases y la nube de palabras se creó con 1271 palabras.
Palabras-clave: Colombia. Iramuteq. Léxico. Paleontología.
1 INTRODUCCIÓN
El análisis de textos se originó a finales del siglo XIX cuando en 1888 Benjamin
Bourdon analizó el libro del Éxodo de la Biblia y calculó frecuencias, reorganizó, clasificó y
eliminó palabras vacías. A partir de este estudio se publicaron otros trabajos a principios
del siglo XX entre los cuales apareció la ley de Zipf
1
(IEZZI; CELARDO, 2018). También la
informática a mediados del siglo XX permitió que el análisis de textos evolucionara e
impulsara la implementación del tratamiento automático de textos, es decir, no se requiere
la lectura por parte de un individuo para analizar un texto. En la década del 40 apareció la
calculadora mecánica y se generalizó su uso en todas las áreas del conocimiento, esta
innovación nació de la fusión entre la informática, la lingüística, la estadística y la
matemática. En la década de los 50 la perspectiva del análisis cambió y nacen medidas e
índices específicos del vocabulario. Es así como en la década del 60 nació el corpus textual,
además el matemático y estadístico francés J. P. Benzécri introdujo el análisis de formas
gráficas, segmentos repetidos, análisis de correspondencias de tablas léxicas, etc. al
estudio de un corpus textual, en otras palabras, la estadística al análisis de textos o
textometría (IEZZI; CELARDO, 2018).
A partir de la introducción de la estadística al análisis de textos, en la década de los
80 aparecen varios softwares para realizar análisis de textos; por ejemplo, SPAD software
(Système Portable pour l’Analyse des Donneés) (IEZZI; CELARDO, 2018) y Alceste
(Análisis de lexemas concurrentes en los enunciados simples de un texto), entre otros. El
software de Alceste fue desarrollado por Reinert (1983, 1986, 1995, 1998, 2008), quien
incorporó las ideas de Benzécri para realizar el análisis textual. El análisis que introdujo
Reinert con el software Alceste se basa en el concepto de “mundos lexicales” que es el
conjunto de palabras que forman un discurso y están presentes en las “unidades de
1
se basa en contar el número de veces que se usa cada palabra en un texto más o menos extenso y ordenar
las palabras de las más frecuentes a las menos frecuentes por rangos. Esta tendencia se explica porque
siempre es más fácil escribir una palabra conocida que usar una menos conocida (URBIZÁGASTEGUI
ALVARADO; RESTREPO ARANGO, 2011, p. 17).

Para continuar a ler

PEÇA SUA AVALIAÇÃO

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT