Procesamiento de lenguaje natural y Bert para el perfilado de autores en la red social X
Palabras clave:
Lenguaje natural, Bert, Perfilado, Red Social XResumen
En la actualidad X se ha convertido en una de las redes sociales más importantes para expresar opiniones e intereses en la red. La gran cantidad de datos generados permite
obtener sistemas automatizados para perfilar a los usuarios en función del género, nacionalidad e intereses temáticos.
Hay dificultades en este proceso no solo por el contenido breve, sino también por la ambigüedad y el uso de varios idiomas.
El objetivo de esta propuesta es el de generar un modelo de aprendizaje profundo utilizando BERT que sea capaz de identificar atributos demográficos y temáticos a partir de los tweets. Se usarán modelos preentrenados del tipo de BERT y Multilingual BERT, aplicados sobre corpus del PAN Author Profiling Task (CLEF 2019) en inglés y español.
El trabajo propuesto profundizará en el análisis mediante datos de la clasificación supervisada para la clasificación de género y nacionalidad y la extracción de temas a través de técnicas no supervisadas, como LDA y BERTopic. Estas opciones incluyen técnicas de preprocesamiento, reducción dimensional (UMAP) y evaluación mediante métricas como la precisión y la exactitud.
Es previsible que los resultados del análisis puedan demostrar la aplicabilidad de BERT para conseguir perfilados automáticos aplicados en el ámbito de marketing, de análisis
sociopolíticos y de personalización de contenidos.
Descargas
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Ivan Petrlik Azabache, Ciro Rodríguez Rodríguez, Pedro Lezama Gonzales, Luz Torres-Talaverano, Enma Graciela Vásquez Hurtado, Karina Inés Hinojosa Pedraza

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.