Dataiku DSS es una herramienta de Data Science creada por la empresa francesa Dataiku, su función principal es la de poder ayudar a los diferentes roles de la empresa a trabajar, modelar y presentar todo tipo de datos ya sean técnicos, analíticos o de negocio. Todo esto gracias a su uso colaborativo, donde cualquiera de los roles puede participar en las diferentes partes del proceso.

Se trata de una herramienta visual donde es posible trabajar, mediante workflows, con grandes cantidades de datos obtenidos desde multitud de fuentes. Podemos subir nuestros propios archivos de datos en formato csv, conectar a bases de datos SQL o trabajar con un gran número de conectores externos donde destacan los de Google Cloud Storage o Amazon S3 entre otros.

Una vez obtenidos los datos, la herramienta nos permite explorar, preparar, enriquecer, mezclar o limpiar datos de manera sencilla gracias a su interfaz. Existen muchas funciones para preparar los datos, algunas de ellas que utilizamos en Miss Conversion son por ejemplo:

  • Clasificación de User-Agents para logs.
  • Unión de datasets para vincular datos de varias herramientas o fuentes.
  • Tokenización de textos.
  • Extracción de N-gramas.

recetas dataiku

La librerías actuales de la versión 5.0 incluyen más de 120 funciones listas para usar.

librerias dataiku

Muchos de estos procesos se podrían hacer con Excel o Google Spreadsheets, la ventaja de usar Dataiku es la rapidez de trabajar con grandes archivos de datos de forma fluida. Por ejemplo, puedes trabajar y procesar un archivo csv de 2 millones de líneas sin problemas (con un equipo medio).

Sistema de visualización de datos

Dataiku nos ofrece una gran cantidad de gráficas y opciones a la hora de visualizar nuestros datos, ya sea para uso propio o bien para la presentación de informes. Disponemos de las clásicas gráficas de barras, líneas, tartas o donuts y tablas, hasta otras más complejas pueden ser las gráficas de dispersión y las geográficas. Todas ellas fáciles de componer mediante un sistema de arrastrar y soltar.

graficas

Modelado de datos

Uno de los puntos fuertes y de nuestros favoritos es el de modelado de datos, gracias a esto podemos definir modelos ya predefinidos de Machine Learning o bien programar nuestros propios algoritmos, para ello disponemos del lenguaje python o R entre otros en la versión gratuita. También es posible trabajar con Impala, Hive y otros más aunque para ello debemos irnos a la versión de pago.

En cuanto a algoritmos ya definidos en el sistema seremos capaces de utilizar modelos predictivos o de clusterización a golpe de clic.

modelos de Machine Learning

  • Predicción: En este caso podremos lanzar en pocos pasos análisis predictivos mediante Machine Learning no supervisado, gracias a esto podremos llevar a cabo regresiones lineales con potentes algoritmos como son Random Forest o XGBoost utilizando nuestros propios datos.
  • Clusterización: Gracias a esta herramienta podremos generar un modelo de clusterización en base a nuestros datos utilizando algoritmos como K-Means, también podremos detectar anomalías en los datos y generar diferentes clusters.

En ambos casos disponemos de un modo avanzado donde podremos sacarle todo el partido a la herramientas, podremos seleccionar cualquiera de los algoritmos disponibles, generas modelos de Deep Learning con Keras o Tensor Flow o incluso diseñar nuestro propio algoritmo. Pero esto ya es algo más avanzado que trataremos más adelante ;).

Notebooks, Scenarios, Dashboards y mucho más

Hasta aquí podriamos decir que ya teneis lo básico para poder empezar con Dataiku sin tener conocimientos técnicos, pero aún hay mucho más. Dataiku nos permite elaborar nuestro propio código interactivo mediante notebooks de Jupyter, transformarlo en webapps estándar utilizando HTML, Javascript y CSS o bien con Bokeh (Python) o Shiny (R) a través de una interfaz visual muy intuitiva y sencilla.

En la sección de trabajos (Jobs) y Scenarios podremos automatizar nuestros procesos ya sean de extracción de datos o de ejecución de modelos mediante activadores y monitorizar su estado. En la versión gratuita solo podemos ejecutar estos activadores basándonos en tiempos (similar a los cron jobs), para activar activadores en base a cambios en los datos, consultas SQL y similares tendremos que irnos a la versión de pago.

Wiki: dispondremos dentro de nuestro propio sistema una sección wiki donde poder redactar y almacenar nuestra propia documentación.

La última pestaña del menú superior nos permite generar nuestros propios paneles utilizando nuestros propios datos ya sean datasets, gráficas, modelos o análisis. Estos paneles nos dan la posibilidad de compartirlos con terceros.

dashboard dataiku

Aplicaciones prácticas en Marketing Digital

A la hora de enfocar la herramienta en proyectos de Marketing Digital nos vienen a la cabeza multitud de ideas y formas de utilizar Dataiku en nuestro día a día. A continuación os proponemos algunas de ellas que ya hemos llevado a cabo y nos resultan útiles e interesantes:

  • Unir una gran cantidad de documentos de varias fuentes y unirlos por un dato común. Un ejemplo válido sería cruzar datos de Google Analytics, Search Console, Semrush y Ahrefs utilizando como dato común la URL.
  • Crear un modelo de clusterización para detectar anomalías en el perfil de enlaces de un dominio, para ello utilizamos datos de enlaces de Ahrefs y el algoritmo de Isolation Forest con el que fuimos capaces de detectar aquellos enlaces anómalos.
  • Predecir mejores horarios de pujas y coste estimado a invertir en Google Adwords en base al histórico de la cuenta mediante una regresión lineal.
  • Predecir el ciclo de vida de los clientes en base a su historial web, sus compras pasadas, información geográfica y las campañas de marketing recibidas.

Las posibilidades son casi infinitas y depende de qué datos queráis clasificar o predecir, con Dataiku podreis iniciaros en el mundo de la inteligencia artificial y de la ciencia de los datos de una forma práctica y utilizando una interfaz cómoda y sencilla.

En Miss Conversion hemos preparado una serie de cursos para iniciarse en Machine Learning orientado a SEO en Valencia, Madrid y Barcelona, ¿te animas a venir?