Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

Bryam David Vega Moreno; Gabriel Alejandro Leon Paredes; David Andres Morales Rivera

doi:10.53592/convtech.v5iV.14

Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

Translated title of the contribution: Latent Semantic Analysis for the Detection of Fake News about Covid-19 Using Heterogeneous Computing

Bryam David Vega Moreno, Gabriel Alejandro Leon Paredes, David Andres Morales Rivera

Research output: Contribution to journal › Article

Abstract

The detection of fake news nowadays is a great challenge for prediction systems due to the large amount of information that is currently available, especially in information sources such as social networks, blogs or websites. In addition, the processing capacity required to analyze large amounts of data is very large so the execution time tends to be high. In this paper, a learning system using parallel processing paradigms at CPU and GPU level using the COVID-19 Open Research Dataset Challenge (CORD-19) dataset is proposed for a first approach to fake news detection on COVID-19. The prediction system is based on natural language processing techniques using latent semantic analysis (LSA) as a training model. Also, CPU-level multiprocessing techniques are used for text preprocessing, keyword retrieval, term-by-document matrix retrieval, value normalization using TF-IDF and cosine similarity retrieval, while for the dimensionality reduction part using singular value decomposition or SVD, the CUDA architecture has been used for GPU-level processing.

Translated title of the contribution	Latent Semantic Analysis for the Detection of Fake News about Covid-19 Using Heterogeneous Computing
Original language	Spanish (Ecuador)
Pages (from-to)	18-29
Number of pages	12
Journal	Convergence Tech
Volume	5
Issue number	5
DOIs	https://doi.org/10.53592/convtech.v5iV.14
State	Published - 26 Oct 2021

Keywords

Covid-19
Heterogeneous computing
Latent semantic analysis
Natural language processing

CACES Knowledge Areas

116A Computer Science

Access to Document

10.53592/convtech.v5iV.14

Cite this

@article{2577c444fda441858456259eb1fb8d09,

title = "An{\'a}lisis Sem{\'a}ntico Latente para la Detecci{\'o}n de Noticias Falsas sobre Covid-19 Utilizando Computaci{\'o}n Heterog{\'e}nea",

abstract = "La detecci{\'o}n de noticias falsas hoy en d{\'i}a es un gran reto para los sistemas de predicci{\'o}n debido a la gran cantidad de informaci{\'o}n que se tiene actualmente, en especial, en fuentes de informaci{\'o}n como las redes sociales, blogs o sitios de web. En adici{\'o}n, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecuci{\'o}n tiende a ser alto. En este art{\'i}culo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detecci{\'o}n de noticias falsas sobre COVID-19. El sistema de predicci{\'o}n est{\'a} basado en t{\'e}cnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el an{\'a}lisis sem{\'a}ntico latente o LSA, por sus siglas en ingles. Tambi{\'e}n, se utilizan t{\'e}cnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtenci{\'o}n de t{\'e}rminos o palabras claves, obtenci{\'o}n de matriz termino por documento, normalizaci{\'o}n de valores utilizando TF-IDF y obtenci{\'o}n de la similitud de coseno, mientras que para la parte de reducci{\'o}n de la dimensionalidad utilizando la descomposici{\'o}n de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.",

keywords = "Covid-19, Heterogeneous computing, Latent semantic analysis, Natural language processing, Covid-19, Heterogeneous computing, Latent semantic analysis, Natural language processing",

author = "{Vega Moreno}, {Bryam David} and {Leon Paredes}, {Gabriel Alejandro} and {Morales Rivera}, {David Andres}",

year = "2021",

month = oct,

day = "26",

doi = "10.53592/convtech.v5iV.14",

language = "Espa{\~n}ol (Ecuador)",

volume = "5",

pages = "18--29",

journal = "Convergence Tech",

issn = "2661-6858",

number = "5",

}

TY - JOUR

T1 - Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

AU - Vega Moreno, Bryam David

AU - Leon Paredes, Gabriel Alejandro

AU - Morales Rivera, David Andres

PY - 2021/10/26

Y1 - 2021/10/26

N2 - La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.

AB - La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.

KW - Covid-19

KW - Heterogeneous computing

KW - Latent semantic analysis

KW - Natural language processing

KW - Covid-19

KW - Heterogeneous computing

KW - Latent semantic analysis

KW - Natural language processing

UR - https://revista.sudamericano.edu.ec/index.php/convergence/article/view/14

U2 - 10.53592/convtech.v5iV.14

DO - 10.53592/convtech.v5iV.14

M3 - Artículo

SN - 2661-6858

VL - 5

SP - 18

EP - 29

JO - Convergence Tech

JF - Convergence Tech

IS - 5

ER -

Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

Abstract

Keywords

CACES Knowledge Areas

Access to Document

Other files and links

Fingerprint

Cite this