[jet_engine component="meta_field" field="antetitulo"]

La importancia de cocinar bien los datos

DataCentric y Tinsa exponen cómo llevar a nuevos territorios el análisis inteligente de la información en un contexto en el que la madurez del big data les obliga a enfrentarse a retos complejos
De izquierda a derecha Marcos Ríos, Rocío Jiménez y Ricardo Lanza, ayer en Impact Hub. Imagen: InnovaSpain.

Hace unos días se hacía público el acuerdo por el que DataCentric, experta en big data, geomarketing y soluciones digitales para la toma de decisiones se integraba en Tinsa, el grupo líder en valoración y servicios de data inmobiliario en Europa y Latinoamérica. La suma de fuerzas por parte de las dos empresas españolas, veteranas en sus respectivos negocios, tenía ayer un primer acto público en Impact Hub Piamonte con el Open Data como objeto de análisis.  

Una aproximación fuera de las prácticas tradicionales a un entorno en el que, como apuntaba haciendo un símil gastronómico Gerardo Raído, CDO de DataCentric , “todo el mundo tiene acceso a los alimentos, pero lo importante es saber cómo cocinarlos”.

“Si queremos aportar valor a la información y que los resultados finales estén optimizados, un punto prioritario pasa por entender cómo funcionan los datos”, explicaba Marcos Ríos, Analytics Manager de DataCentric, para quien el perfil de profesionales de la compañía, una mezcla ‘multitarea’ de veteranos y nativos digitales es una de las claves de su vigencia en un terreno que ha evolucionado a un ritmo desbocado.

Ríos define el Open Data como un ecosistema “que crece y crece” gracias a ayuntamientos, universidades y otras fuentes públicas obligadas por Ley a ese aperturismo. “El reto ya no es acceder a la información, sino saber qué hacer con el dato en bruto, que en sí mismo no vale nada”.

En este contexto, la propuesta de valor de DataCentric, además del manejo de algunos clásicos –INE, padrón, catastro- es estructurar con tecnología desarrollada a medida, la “ingente cantidad de información” que las empresas publican en internet sobre sí mismas. “Trabajamos para que esos datos tengan una utilidad real”.

Rocío Jiménez, Data Scientist de DataCentric, añadía que el abordaje de estos ‘maremágnum’ corporativos varía según el caso. “Usamos técnicas NER, NLP y análisis de redes para sacar el máximo partido”. Inteligencia artificial, machine learning y deep learning, utilizadas de forma trasversal, para separar el grano de la paja, y que, por ejemplo, la información visible de manera prioritaria de un comercio sea de verdad la importante para el negocio.

En DataCentric han creado un modelo de NLP ‘entrenado’ sobre un corpus propio. Una vez acumulan el mayor número posible de datos, toca analizarlos. “No hemos usado corpus construidos previamente porque no tiene nada que ver el texto de una web con el de un periódico cuando se trata de extraer información de una empresa. El modelo tiene que aprender y sacar conclusiones”, detallaba Jiménez. En cuanto al análisis de redes, Jiménez ha expuesto las ventajas de las bases de datos relacionales frente a las tradicionales para, a través de infinitas conexiones, “ver lo que no veíamos”.

La mayor base de datos de Real Estate del mundo

A Ricardo Lanza, director de Smartdata de Tinsa Digital, le tocó ser uno de los artífices de la transformación de una compañía con tres décadas a sus espaldas, 1.300 tasadores, 1.000 tasaciones diarias y 8.000 datos comprobados por tasación. “Se trataba de tomar mejores decisiones, así que apostamos por los datos y por los Data Scientists”, señalaba Lanza. “Empezamos a aplicar ciencia de datos para reducir tiempos, evitar saturaciones o premiar al tasador más rápido. Esa eficiencia asignativa gracias a los algoritmos la conseguimos con datos operativos que teníamos en casa y creamos un modelo propio”. Así pudieron determinar la capacidad de cada tasador, su cola de trabajo, la complejidad de sus tasaciones, las incidencias, sus condiciones particulares…

"Hicimos las preguntas adecuadas para mejorar la empresa, y tanto aprendimos que fuimos capaces de proponer un segundo paso que añadiera más valor a la toma de decisiones para multiplicar la eficiencia operativa”. El equipo de digital ganó en reputación. “Había quienes no confiaban en que el algoritmo mejorase los resultados, pero pronto se redujeron los tiempos y las quejas mientras la rentabilidad mejoraba”.

[Te puede interesar leer... ¿Por qué los datos que ofrece Idealista son tan valiosos?]

Ahora tienen previsto ir un poco más lejos y sacarle partido a los millones de datos comprobados que atesoran. “Hemos lanzado alguna aplicación y pronto haremos algo importante para dar servicio al sector inmobiliario. Empresas que trabajan en un campo donde nos es fácil acceder a información verídica. Nosotros tenemos la mayor base de datos de Real Estate del mundo”.

Del dato orientativo al dato real

Como explica a este periódico Marcos Ríos, hasta la llegada de la RGPD y las leyes de transparencia impuestas por Europa, el manejo y el acceso a la información eran complicados. Tampoco era fácil cruzar varias fuentes de datos para tratarlos desde una óptica inteligente. “No disponíamos de la tecnología. El big data es volumen, pero también velocidad”.

Según Ríos, la siguiente fase de la tecnología de datos será un viaje de la información de entorno a la información de comportamiento. “No es sencillo por cuestiones éticas, pero es el próximo paso en la aportación de valor”. El responsable de DataCentric señala que, a día de hoy, el open data se basa en encuestas "que hacen su labor", pero que "van dos pasos por detrás de lo que hace la gente”,  tienen un margen de error, preguntas sesgadas, etc.

“Hay un gap enorme entre el dato orientativo, recogido en un momento concreto, puesto a disposición del público un tiempo después, y el dato real, que nos dice cómo se comporta una persona, cuáles son sus gustos o por dónde se mueve”. Para Ríos, el acceso a esa huella digital es un cambio que va a costar porque "en Europa son todo restricciones; pero no se le puede pone puertas al campo". 

Una imagen del encuentro de ayer. Imagen: InnovaSpain.

Para un enriquecimiento total de la información, en DataCentric han puesto en marcha Pyramid Data Lake, que considera el mundo real, el entorno digital, la empresa y al individuo, “que permite entrar con un dato por cualquiera de las otras caras de la pirámide y enriquecerlo”. DataCentric pone a su disposición modelos internos que vinculan la información en base a una demanda específica y que mejoran el dato.

“Por ejemplo, imaginemos que tenemos las direcciones postales de la cartera de clientes anonimizada de una empresa. A esos datos les podemos añadir coordenadas, información del catastro sobre el tamaño de los pisos en esa zona, el tipo de empresas que hay en el barrio o los ingresos medios”. DataCentric dibuja así un perfil mucho más nítido de potencial cliente para una empresa. “Ahora es más fácil afinar cualquier acción de mercado, sabemos más”.

Recomendadas

Deja un comentario