Naviguer dans les courants d'opportunités des flux de Big Data
Les technologies de traitement du Big Data sont généralement élaborées pour travailler sur des données générées par des humains provenant de systèmes basés sur le web, tels que Facebook. En conséquence, l'approche standard consiste à faire des lots de données stockées sur des systèmes de fichiers distribués. Cependant, avec les technologies «intelligentes» comme les communications entre véhicules, le volume de données générées par les interactions de machine à machine (M2M) dépasse largement celui des données générées par des gens. Une nouvelle approche est nécessaire pour apporter évolutivité globale, vitesse et facilité d'utilisation pour les non-experts, et permettre la mise en œuvre de tâches analytiques complexes en temps réel sur des sources de données distribuées. Le projet FERARI, financé par l'UE, a été mis en place pour fournir un tel système adapté à ces objectifs. Développer une architecture puissante, modulaire et élastique. L'un des défis les plus importants pour le traitement des données M2M est la génération continue de flux de données très volumineux, qui empêche leur stockage. Cela signifie que les données transitoires sont souvent traitées à la volée, sans être stockées. Même si les données pouvaient être envoyées dans un emplacement central (ou un système de cloud), il y aurait toujours des goulets d'étranglement le long du réseau, entraînant des coûts et des délais supplémentaires. Ces obstacles devraient devenir encore plus importants avec l'augmentation de la taille des capteurs locaux pour la collecte des données. La réponse du projet a consisté à décomposer l'approche en une série d'objectifs associés. En premier lieu, il s'agissait de cultiver le «traitement in situ», que le Dr Michael Mock, coordinateur du projet, décrit comme «le traitement de flux de données qui a lieu à proximité du site où les données sont générées, ce qui permet d'éviter la congestion du réseau et les délais». À cet égard, le projet a adopté le système CEP (Complex Event Processing). En rassemblant des données de plusieurs sources, des schémas ont été détectés, aboutissant à l'identification de situations (évènements) prédéterminées, qui ont ensuite immédiatement déclenché des réponses programmées. Cependant, la combinaison de ces deux objectifs, technologie CEP avec traitement in situ, s'est avérée être l'un des défis les plus importants du projet. Comme l'explique le Dr Mock, «les technologies CEP existantes ne sont pas adaptées pour une exécution sur des systèmes Big Data distribués, mais plutôt pour une utilisation sur des ordinateurs autonomes, en général très puissants». La solution du projet a consisté à exécuter le moteur CEP (traitement avec Proton - PROactive Technology Online d'IBM) au-dessus de la plateforme de flux de Big Data Apache Storm. De plus, le projet a développé un planificateur de requêtes qui optimise le moteur CEP pour convertir une «expression» CEP globale unique en un ensemble d'expressions CEP qui peuvent être réparties dans l'ensemble du système FERARI pour évaluation. Pour permettre de la souplesse, l'architecture FERARI est modulaire, avec ses composants structurels séparés de la plateforme de flux de Big Data sous-jacente. Ainsi, la structure peut être adaptée à toute plateforme sous-jacente. Des tests de scénarios à l'apprentissage machine L'approche du projet FERARI a été appliquée à deux scénarios de tests exigeants: l'analyse de la fraude au téléphone mobile dans les réseaux de télécommunications et le suivi de santé en temps réel dans les «clouds» et les grands centres de données. Le Dr Mock a conclu ainsi: «Les scénarios ont été évalués avec succès sur des données réelles. Par exemple, il a été montré que sur les enregistrements de téléphone mobile anonymisés, fournis par le partenaire du projet HT Croatian Telekom, la détection de la fraude est possible avec le système FERARI avec une latence inférieure à la seconde». Il poursuit de la manière suivante: «Ces réalisations permettront à l'industrie européenne de créer des produits de pointe dans divers domaines d'applications dans lesquels il est essentiel d'évaluer et de contrôler des volumes énormes de données qui sont produites en continu, comme dans l'Internet des objets ou dans l'industrie 4.0.» Le cadre FERARI est sorti en open source avec des conteneurs logiciels Docker pour une installation facile sur n'importe quel type de machine, depuis un ordinateur personnel jusqu'à un cluster ou un système de cloud, permettant ainsi aux communautés scientifiques et des affaires de l'explorer et l'utiliser. L'équipe a également mis à disposition un guide pour expliquer l'installation et l'utilisation, ainsi que pour fournir un exemple instructif de fonctionnement. Malgré la supériorité de ce système par rapport à d'autres technologies, il dépend encore de la saisie manuelle d'experts de domaine pour créer les règles algorithmiques. En se projetant dans le futur, le Dr Mock estime qu'«une autre étape serait d'apprendre les règles pertinentes à partir des données avec des techniques d'apprentissage machine. De même pour configurer les méthodes de traitement in situ. C'est à ça que nous voulons désormais consacrer notre énergie.»
Mots‑clés
FERARI, flux de Big Data, technologie intelligente, systèmes distribués, Internet des objets, industrie 4.0, gros volumes de données