TY - JOUR
T1 - Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea
AU - Vega Moreno, Bryam David
AU - Leon Paredes, Gabriel Alejandro
AU - Morales Rivera, David Andres
PY - 2021/10/26
Y1 - 2021/10/26
N2 - La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.
AB - La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.
KW - Covid-19
KW - Heterogeneous computing
KW - Latent semantic analysis
KW - Natural language processing
KW - Covid-19
KW - Heterogeneous computing
KW - Latent semantic analysis
KW - Natural language processing
UR - https://revista.sudamericano.edu.ec/index.php/convergence/article/view/14
U2 - 10.53592/convtech.v5iV.14
DO - 10.53592/convtech.v5iV.14
M3 - Artículo
SN - 2661-6858
VL - 5
SP - 18
EP - 29
JO - Convergence Tech
JF - Convergence Tech
IS - 5
ER -