Soirée Big Data en collaboration avec JDuchess

Le Mardi 28 avril 2015 à partir de 18h30

Avec Ludwine Probst et Amira Lakhal et Julia Mateo


Aujourd’hui Google, Facebook et Twitter font du business sur les données ! Nous en avons de plus en plus à notre dispositions, représentent de vrais enjeux et ont une vraie valeur. Il nous faut donc des outils pour les stocker, traiter et analyser. Partons à la rencontre de deux outils qui font beaucoup parler d’eux ces derniers mois ! Apache Cassandra est une base de données NoSql scalable, multi-datacenters et très simple à déployer, qui permet le stockage de grandes quantités de données et est adaptée pour différents data modèles. Apache Spark est un framework de traitement de données distribué et in-memory, qui correspond parfaitement à l’analyse de large volumes de données. Lors de cette présentation, nous définirons les concepts clé de Cassandra et Spark, puis ceux du connecteur Spark-Cassandra et de l’écosystème Spark (Mllib, Spark streaming…). Nous terminerons avec une démo se basant sur des données issus d’un accéléromètre, lors de laquelle nous verrons comment les traiter et les analyser en utilisant Cassandra et son connecteur, Spark et ses librairies de Machine Learning (MLlib).




Vidéo de la session