Procesamiento de lenguaje natural y Bert para el perfilado de autores en la red social X

Autores/as

  • Ivan Petrlik Azabache
  • Ciro Rodríguez Rodríguez
  • Pedro Lezama Gonzales
  • Luz Torres-Talaverano
  • Enma Graciela Vásquez Hurtado
  • Karina Inés Hinojosa Pedraza

Palabras clave:

Lenguaje natural, Bert, Perfilado, Red Social X

Resumen

En la actualidad X se ha convertido en una de las redes sociales más importantes para expresar opiniones e intereses en la red. La gran cantidad de datos generados permite
obtener sistemas automatizados para perfilar a los usuarios en función del género, nacionalidad e intereses temáticos.
Hay dificultades en este proceso no solo por el contenido breve, sino también por la ambigüedad y el uso de varios idiomas.
El objetivo de esta propuesta es el de generar un modelo de aprendizaje profundo utilizando BERT que sea capaz de identificar atributos demográficos y temáticos a partir de los tweets. Se usarán modelos preentrenados del tipo de BERT y Multilingual BERT, aplicados sobre corpus del PAN Author Profiling Task (CLEF 2019) en inglés y español.
El trabajo propuesto profundizará en el análisis mediante datos de la clasificación supervisada para la clasificación de género y nacionalidad y la extracción de temas a través de técnicas no supervisadas, como LDA y BERTopic. Estas opciones incluyen técnicas de preprocesamiento, reducción dimensional (UMAP) y evaluación mediante métricas como la precisión y la exactitud.
Es previsible que los resultados del análisis puedan demostrar la aplicabilidad de BERT para conseguir perfilados automáticos aplicados en el ámbito de marketing, de análisis
sociopolíticos y de personalización de contenidos.

Descargas

Los datos de descarga aún no están disponibles.

Descargas

Publicado

2025-08-22

Número

Sección

Artículos

Artículos similares

11-20 de 129

También puede Iniciar una búsqueda de similitud avanzada para este artículo.