Tesis de la UNC (Argentina) que ayudan a predecir la popularidad de una publicación en Twitter

Con una efectividad del 87 por ciento

redes sociales, Twitter, popularidad

Dos tesis de la Facultad de Matemática, Astronomía, Física y Computación (FaMAF) de la Universidad Nacional de Córdoba (UNC) han analizado el comportamiento de los usuarios de Twitter con el fin de predecir la popularidad de una publicación. La novedad es que se ha tenido en cuenta el entorno de los usuarios y no al contenido de los mensajes.

En 2017, Pablo Celayes dio el primer paso. Dirigido por Martín Domínguez, su trabajo estuvo enfocado en predecir la probabilidad de que un usuario retuitee un tuit de un tercero, basándose solo en el comportamiento que se da en su entorno de Twitter, es decir, aquellos a quienes sigue y, a su vez, los seguidos por estos.

De esa manera, generó un modelo capaz de predecir cuándo un tuit será retuiteado por ese usuario particular con una efectividad del 87 por ciento, ignorando el contenido del tuit y basándose solo en el comportamiento del usuario y sus “vecinos” de Twitter.

Un año más tarde, y dirigido por Domínguez y Celayes, Matías Silva demostró cómo los influencers son decisivos al momento de definir si un tuit será o no popular, independientemente del contenido que se exprese en los 280 caracteres que ofrece la red.

Su modelo permite predecir si un retuit será tendencia con una precisión del 78 por ciento, señalan desde UNCiencia. Si a ello se suman técnicas para analizar el contenido, la efectividad de las predicciones asciende al 87 por ciento.

Los tres –Domínguez, Celayes y Silva– han constituido un grupo de investigación sobre la temática, centrándose en una red social cuya información es pública. “En Twitter es fácil acceder al contenido”, explica Domínguez.

El equipo de trabajo elaboró una especie de mapa donde están representadas todas las conexiones: quién está conectado, quién sigue a quién y quién es seguido por quién. “Es como tomar una muestra de Twitter”, explica Silva.

Se construyó entonces un set de datos de más de 5.000 usuarios, de manera tal que cada usuario tuviera a su vez a sus contactos más relevantes incluidos dentro del set. Esta propiedad de la red de usuarios construida permitió observar un entorno representativo para cualquier usuario elegido al cual se le quieran estudiar sus preferencias.

Del comportamiento de ese entorno realizaron las inferencias, separando la muestra en dos partes: a una la observaron y en base a su comportamiento formularon hipótesis; con la otra verificaron esas hipótesis.

Un dato clave es que los usuarios que integraron el entorno fueron anonimizados, es decir, no son identificables, ya que a los investigadores lo que les interesaba era ver su actividad: las conexiones desplegadas, la cantidad y frecuencia de publicaciones, el retuiteo.

“El estudio realizado por Pablo Celayes predecía sobre un usuario particular, si iba a retuitear o no –explica Silva–. Lo que pensamos con mi estudio fue generalizar y ver si todos o la mayoría de los usuarios son predecibles. Entonces, lo que probamos fue la predictibilidad de un tuit en todo el entorno. Es decir si ese tuit iba o no a ser tendencia”.

Domínguez resume de la siguiente forma sus conclusiones: “Dime el comportamiento de tu entorno respecto a este tuit y yo voy a determinar, voy a establecer una corroboración, entre el comportamiento de tu entorno y vos”.

Dejar una respuesta

Please enter your comment!
Please enter your name here