Mise en place de SLI SLO SLA

Contexte du projet

En tant que Site Reliability Engineer (SRE) avec 4 ans d’expérience, j’ai eu l’opportunité de contribuer à l'amélioration de la fiabilité et des performances des systèmes dans mon entreprise. L'une des initiatives clés a été la mise en place de SLI (Service Level Indicators), SLO (Service Level Objectives) et SLA (Service Level Agreements), essentiels pour assurer la stabilité, la performance et la disponibilité des services critiques.

Client: Scale-up tech en forte croissance
Nature du projet :

Mise en place d'indicateurs de performance afin d'observer et améliorer les performance et la disponibilité des services.

Stack technique :
Opensearch
Opensearch Dashboard
Fluentd / Fluentbit

Définition des Objectifs et Indicateurs

Service Level Indicators (SLI)

Les SLI sont des indicateurs qui mesurent la qualité d’un service. Lors de leur définition, j’ai collaboré avec des équipes produit et techniques pour identifier les points les plus critiques pour nos utilisateurs. Parmi les métriques suivies :

  • Disponibilité : Mesure du pourcentage de temps pendant lequel le service est opérationnel.
  • Temps de réponse : Suivi du temps moyen de traitement des requêtes utilisateurs
  • Taux d'erreurs : Suivi du nombre d'erreurs.

Service Level Objectives (SLO)

Les SLI sont des indicateurs qui mesurent la qualité d’un service. Lors de leur définition, j’ai collaboré avec des équipes produit et techniques pour identifier les points les plus critiques pour nos utilisateurs. Parmi les métriques suivies :

  • Disponibilité de 99.95 % pour les services critiques.
  • Temps de réponse inférieur à 200ms pour les API.
  • Taux d’erreurs inférieur à 0.1 % sur les transactions utilisateur.

Ces SLO sont régulièrement revus et ajustés pour s’adapter à l’évolution des besoins et de la charge.

Service Level Agreements (SLA)

Les SLA sont des engagements formels pris envers nos utilisateurs ou clients.

Processus de mise en oeuvre

  • Analyse des besoin utilisateur Comprendre ce qui était le plus important pour nos utilisateurs en termes de fiabilité et de performance.
  • Collecte des données : Mise en place d'outils de monitoring pour collecter les métriques nécessaires à la mesure des SLI, via Opensearch, Opensearch Dashboards et d’autres solutions de surveillance.
  • Monitoring et détection des anomalies : J'ai configuré des outils de monitoring pour détecter des comportements anormaux dans l'usage de l'application.
  • Communication Collaboration avec toutes les parties prenantes (produit, technique, business) pour assurer une transparence sur les niveaux de service fournis.

Conclusion

La mise en place des SLI, SLO et SLA a permis non seulement d'améliorer la fiabilité des services, mais aussi d’instaurer un cadre de travail où la qualité des services est mesurée et ajustée en continu. Cette expérience m’a permis de développer une expertise solide en gestion des performances et des SLA, tout en renforçant ma capacité à collaborer efficacement avec des équipes pluridisciplinaires.

© 2024 DevHop! All rights reserved.