On entend souvent « A tout problème il y a une solution ». Dans l’IT également, mais le problème est souvent lié à de nombreux facteurs, incluant souvent des interconnexions entre eux qui, avec le temps et les différentes couches technologiques et l’évolution des organisations forment un casse-tête pour dénouer les informations.
Lorsqu’il s’agit de monitorer les infrastructures, alors que celles-ci sont de plus en plus complexes et hybrides, avec une ouverture vers l’extérieur et de nouveaux assets très différents : la tâche est ardue.
Dans ces environnements de plus en plus dynamiques et hétérogènes (micro services, conteneurs, IoT, Cloud…) la recherche des causes réelles d’un incident est de plus en plus complexe.
De plus, l’évolution des factory logiciels et des chaines CI/CD, et l’approche DevOps accroit l’exigence d’agilité des plateformes de gestion des opérations. La transparence des interactions est clé. On parle ici d’Ops as Code.
Il est donc important d’évoluer d’une approche de monitoring classique (on ne surveille que ce que l’on connait) vers une approche d’observabilité (on collecte l’ensemble des données disponibles).
On considéra comme sources de données classiques
- L’ensemble des événements et métriques issus des solutions de monitoring
- L’ensemble des journaux de log
- La topologie issue de la découverte technique et du CMS (configuration management system)
Mais il faut aussi s’attacher à pouvoir intégrer de nouvelles sources de données comme par exemple celles issues d’open telemetry pour les applications, de la télémétrie réseau ou de tout autre API.
Pour cela il est nécessaire de mettre à disposition une data plateforme avec quelques composants essentiels tels que :
- Un service d’ingestion de la donnée robuste et résilient afin de garantir la délivrance.
- Un service de normalisation, d’enrichissement et d’agrégation permettant de facilement manipuler les données brutes
- Un service d’API ouverte pour la définition de jeux de données additionnels
- Un système de base de données performant permettant d’injecter de gros volumes de données mais aussi de les manipuler et consommer en continu
Une fois ces données collectées, une couche d’IA est nécessaire pour pouvoir traiter toutes les informations afin de trouver les sources réelles du problème.
- Modèles d’apprentissage
- Détection de l’inconnu « unknown »
- Analyse comportementale
Un système de base de données supportant nativement des fonctions d’analyse (régression linéaire ou logistique, Naive Bayes, arbre de décision …) est un plus réel afin de faciliter la définition de modèles IA.
Pour lire la suite de l’article, c’est par ici : https://itsocial.fr/tribunes/tribunes-par-thematique/ae-it-service-management/lobservabilite-et-la-telemetrie/
Quentin de Sainte Marie, Consultant Avant-vente ITOM Senior OpenText.