Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

Bryam David Vega Moreno; Gabriel Alejandro Leon Paredes; David Andres Morales Rivera

doi:10.53592/convtech.v5iV.14

Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

Bryam David Vega Moreno, Gabriel Alejandro Leon Paredes, David Andres Morales Rivera

Grupo de Investigación de Inteligencia Artificial y Tecnologías de Asistencia (GI-IATa)
Grupo de Investigación en Cloud Computing Smart Cities & High Perfomance Computing (GIHP4C)

Producción científica: Contribución a una revista › Artículo

Resumen

La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.

Título traducido de la contribución	Latent Semantic Analysis for the Detection of Fake News about Covid-19 Using Heterogeneous Computing
Idioma original	Español (Ecuador)
Páginas (desde-hasta)	18-29
Número de páginas	12
Publicación	Convergence Tech
Volumen	5
N.º	5
DOI	https://doi.org/10.53592/convtech.v5iV.14
Estado	Publicada - 26 oct. 2021

Palabras clave

Covid-19
Heterogeneous computing
Latent semantic analysis
Natural language processing

Areas de Conocimiento del CACES

116A Computación

Acceder al documento

10.53592/convtech.v5iV.14

Otros archivos y enlaces

Other Link

Citar esto

@article{2577c444fda441858456259eb1fb8d09,

title = "An{\'a}lisis Sem{\'a}ntico Latente para la Detecci{\'o}n de Noticias Falsas sobre Covid-19 Utilizando Computaci{\'o}n Heterog{\'e}nea",

abstract = "La detecci{\'o}n de noticias falsas hoy en d{\'i}a es un gran reto para los sistemas de predicci{\'o}n debido a la gran cantidad de informaci{\'o}n que se tiene actualmente, en especial, en fuentes de informaci{\'o}n como las redes sociales, blogs o sitios de web. En adici{\'o}n, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecuci{\'o}n tiende a ser alto. En este art{\'i}culo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detecci{\'o}n de noticias falsas sobre COVID-19. El sistema de predicci{\'o}n est{\'a} basado en t{\'e}cnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el an{\'a}lisis sem{\'a}ntico latente o LSA, por sus siglas en ingles. Tambi{\'e}n, se utilizan t{\'e}cnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtenci{\'o}n de t{\'e}rminos o palabras claves, obtenci{\'o}n de matriz termino por documento, normalizaci{\'o}n de valores utilizando TF-IDF y obtenci{\'o}n de la similitud de coseno, mientras que para la parte de reducci{\'o}n de la dimensionalidad utilizando la descomposici{\'o}n de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.",

keywords = "Covid-19, Heterogeneous computing, Latent semantic analysis, Natural language processing, Covid-19, Heterogeneous computing, Latent semantic analysis, Natural language processing",

author = "{Vega Moreno}, {Bryam David} and {Leon Paredes}, {Gabriel Alejandro} and {Morales Rivera}, {David Andres}",

year = "2021",

month = oct,

day = "26",

doi = "10.53592/convtech.v5iV.14",

language = "Espa{\~n}ol (Ecuador)",

volume = "5",

pages = "18--29",

journal = "Convergence Tech",

issn = "2661-6858",

number = "5",

}

TY - JOUR

T1 - Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

AU - Vega Moreno, Bryam David

AU - Leon Paredes, Gabriel Alejandro

AU - Morales Rivera, David Andres

PY - 2021/10/26

Y1 - 2021/10/26

N2 - La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.

AB - La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.

KW - Covid-19

KW - Heterogeneous computing

KW - Latent semantic analysis

KW - Natural language processing

KW - Covid-19

KW - Heterogeneous computing

KW - Latent semantic analysis

KW - Natural language processing

UR - https://revista.sudamericano.edu.ec/index.php/convergence/article/view/14

U2 - 10.53592/convtech.v5iV.14

DO - 10.53592/convtech.v5iV.14

M3 - Artículo

SN - 2661-6858

VL - 5

SP - 18

EP - 29

JO - Convergence Tech

JF - Convergence Tech

IS - 5

ER -

Análisis Semántico Latente para la Detección de Noticias Falsas sobre Covid-19 Utilizando Computación Heterogénea

Resumen

Palabras clave

Areas de Conocimiento del CACES

Acceder al documento

Otros archivos y enlaces

Huella

Citar esto