Resumen
La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.
Título traducido de la contribución | Latent Semantic Analysis for the Detection of Fake News about Covid-19 Using Heterogeneous Computing |
---|---|
Idioma original | Español (Ecuador) |
Páginas (desde-hasta) | 18-29 |
Número de páginas | 12 |
Publicación | Convergence Tech |
Volumen | 5 |
N.º | 5 |
DOI | |
Estado | Publicada - 26 oct. 2021 |
Palabras clave
- Covid-19
- Heterogeneous computing
- Latent semantic analysis
- Natural language processing
Areas de Conocimiento del CACES
- 116A Computación