Procesamiento de lenguaje natural y Bert para el perfilado de autores en la red social X

Autores

  • Ivan Petrlik Azabache
  • Ciro Rodríguez Rodríguez
  • Pedro Lezama Gonzales
  • Luz Torres-Talaverano
  • Enma Graciela Vásquez Hurtado
  • Karina Inés Hinojosa Pedraza

Palavras-chave:

Lenguaje natural, Bert, Perfilado, Red Social X

Resumo

En la actualidad X se ha convertido en una de las redes sociales más importantes para expresar opiniones e intereses en la red. La gran cantidad de datos generados permite
obtener sistemas automatizados para perfilar a los usuarios en función del género, nacionalidad e intereses temáticos.
Hay dificultades en este proceso no solo por el contenido breve, sino también por la ambigüedad y el uso de varios idiomas.
El objetivo de esta propuesta es el de generar un modelo de aprendizaje profundo utilizando BERT que sea capaz de identificar atributos demográficos y temáticos a partir de los tweets. Se usarán modelos preentrenados del tipo de BERT y Multilingual BERT, aplicados sobre corpus del PAN Author Profiling Task (CLEF 2019) en inglés y español.
El trabajo propuesto profundizará en el análisis mediante datos de la clasificación supervisada para la clasificación de género y nacionalidad y la extracción de temas a través de técnicas no supervisadas, como LDA y BERTopic. Estas opciones incluyen técnicas de preprocesamiento, reducción dimensional (UMAP) y evaluación mediante métricas como la precisión y la exactitud.
Es previsible que los resultados del análisis puedan demostrar la aplicabilidad de BERT para conseguir perfilados automáticos aplicados en el ámbito de marketing, de análisis
sociopolíticos y de personalización de contenidos.

Downloads

Os dados de download ainda não estão disponíveis.

Publicado

2025-08-22

Edição

Seção

Artículos

Artigos Semelhantes

1-10 de 129

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.