Sélectionner une page
Contenu du cours
Systèmes d’Exploitation
Devenez autonome dans la gestion des environnements Linux et Windows Server. Vous apprendrez à administrer, automatiser et sécuriser les serveurs grâce à des outils et langages comme Bash, Systemd, PowerShell et Active Directory. Ce bloc développe les compétences essentielles à la maintenance et à la supervision des systèmes d’exploitation d’entreprise.
0/4
Réseaux et Télécommunications
Maîtrisez la conception, la configuration et le dépannage d’infrastructures réseau complexes. Ce module couvre les fondamentaux du modèle OSI, du subnetting, des VLAN, du routage et des services réseau (DNS, DHCP) à l’aide d’équipements professionnels (Cisco, HP). Vous apprendrez également à renforcer la sécurité et la performance des architectures réseau.
0/3
Virtualisation et Cloud
Développez une expertise en virtualisation et en Cloud Computing. Vous apprendrez à déployer des machines virtuelles avec VMware ou Proxmox, à orchestrer des conteneurs avec Docker et Kubernetes, et à utiliser les principaux Clouds publics (AWS, Azure). L’accent est mis sur l’automatisation via Terraform et Ansible pour une gestion d’infrastructure moderne et scalable.
0/4
Sécurité des Systèmes d’Information
Renforcez la résilience et la conformité des systèmes informatiques. Ce bloc vous forme au hardening des serveurs, à la configuration des pare-feu (iptables, pfSense), à la mise en place de VPN, ainsi qu’à la réalisation d’audits de sécurité. Vous serez capable d’anticiper, détecter et corriger les failles afin de protéger les infrastructures contre les cybermenaces.
0/3
DevOps et Automatisation
Intégrez les pratiques DevOps pour une gestion fluide du cycle de vie des applications. Vous apprendrez à utiliser Git, à mettre en place des pipelines CI/CD (avec Jenkins, GitLab CI), et à surveiller les systèmes via des outils d’observabilité comme Prometheus, Grafana et ELK. Ce bloc met l’accent sur l’efficacité, la collaboration et la proactivité dans la gestion IT.
0/2
Projet Final et Certification
Mettez en pratique l’ensemble des compétences acquises à travers un projet d’envergure. Vous concevrez, déploierez et documenterez une infrastructure hybride (On-Premise + Cloud), intégrant sécurité, réseau, virtualisation et DevOps. Ce projet constitue la synthèse du cursus et vous prépare directement à la certification RNCP de niveau 6 (Bac+3).
0/2
Administrateur SysOps & DevOps
À propos de la leçon

Semaine 31-32 : Supervision et Métriques 📈

Objectifs pédagogiques

  • Mettre en place une architecture de monitoring basée sur Prometheus et Grafana.
  • Centraliser les logs pour l’analyse des événements de sécurité et de performance en utilisant la Stack ELK.
  • Créer des tableaux de bord pertinents et configurer un système d’alerte intelligent.
  • Comprendre les notions d’Observabilité (métriques, logs, tracing).

 


 

1 — Concepts de Supervision, Monitoring et Observabilité

La supervision est essentielle pour garantir la performance, la stabilité et la sécurité des applications et des infrastructures modernes.

 

Monitoring vs. Observabilité

Monitoring (Surveillance) Observabilité
Répond à la question : « Pourquoi mon système est-il lent ? » (Hypothèses connues) Répond à la question : « Pourquoi mon système a-t-il fait ça ? » (Comprendre les états internes inconnus)
Se concentre sur des métriques prédéfinies (CPU, RAM, Disque). Se concentre sur les trois piliers : Métriques, Logs et Tracing (traçage).

 

Les Trois Piliers de l’Observabilité

  • Métriques : Valeurs numériques agrégées au fil du temps (latence moyenne, taux d’erreurs). Idéal pour l’alerte.
  • Logs : Événements textuels discrets avec horodatage (erreurs détaillées, connexions réussies). Idéal pour le diagnostic et le forensique.
  • Tracing (Traçage) : Suit une seule requête utilisateur à travers tous les services d’une architecture distribuée. Idéal pour optimiser les microservices.

 


 

2 — Métriques avec Prometheus et Grafana

Prometheus est la solution de référence pour la collecte et le stockage des métriques en temps réel. Grafana est l’interface utilisateur pour la visualisation de ces métriques.

 

Prometheus : Un Système Pull

  • Modèle « Pull » : Contrairement à d’autres systèmes, Prometheus ne reçoit pas les données, il les « tire » (scrape) à intervalles réguliers auprès des cibles.
  • Exporters : Des logiciels légers installés sur les machines cibles qui exposent les métriques dans un format lisible par Prometheus (ex: Node Exporter pour les OS, cAdvisor pour les conteneurs).
  • Langage PromQL : Le langage de requête puissant de Prometheus, permettant de sélectionner et d’agréger les données pour l’alerte et la visualisation.

 

Grafana : L’Interface de Visualisation

Grafana sert de tableau de bord pour toutes vos sources de données (Prometheus, bases de données, logs ELK).

  • Datasource : Connexion à différentes sources de données via des plugins.
  • Dashboards : Création de vues personnalisées (graphiques, jauges, tables) pour suivre l’état de l’infrastructure.

 


 

3 — Centralisation des Logs (Stack ELK/EFK)

Centraliser les logs depuis des milliers de sources est vital pour la sécurité, le dépannage et la conformité. La Stack ELK (Elasticsearch, Logstash, Kibana) est la solution la plus populaire.

 

Composants de la Stack ELK

Composant Rôle
Elasticsearch Moteur de recherche et de stockage distribué, indexe et stocke les logs.
Logstash / Fluentd (EFK) Collecteur/Processeur. Il ingère les logs, les filtre, les enrichit (parser) et les envoie à Elasticsearch.
Kibana Interface de visualisation et d’exploration. Permet de chercher, d’analyser et de créer des tableaux de bord à partir des données Elasticsearch.

 

Collecteurs (Beats)

Les Agents légers (appelés « Beats ») sont souvent utilisés pour collecter les logs et les métriques directement sur les serveurs avant de les envoyer à Logstash ou Elasticsearch.

  • Filebeat : Collecte les fichiers journaux (logs).
  • Metricbeat : Collecte les métriques système (CPU, RAM).

 


 

4 — Alerting et Tableaux de Bord (Dashboards)

Une supervision sans alerte est incomplète. Il faut être averti immédiatement quand un problème survient.

 

Critères d’Alerte (Basés sur les Métriques)

  • Seuil Statique : L’alerte se déclenche lorsque la métrique dépasse une valeur fixée (Ex: CPU > 95%).
  • Seuil Dynamique : L’alerte se déclenche lorsque la métrique dévie d’un comportement normal (détection d’anomalie).
  • SLO (Service Level Objective) : L’alerte se déclenche lorsque vous risquez de ne pas atteindre votre objectif de niveau de service (Ex: alerte si la latence risque de dépasser 500 ms sur la dernière heure).

 

Prometheus Alertmanager

Alertmanager est le composant de Prometheus qui gère et route les alertes.

  • Déduplication : Supprime les alertes répétitives pour éviter le « bombardement » des équipes.
  • Groupement : Regroupe les alertes liées à un même incident pour envoyer une seule notification.
  • Silencing : Permet de désactiver temporairement les alertes lors d’une fenêtre de maintenance planifiée.

 

Tableaux de Bord Pertinents

Un bon tableau de bord doit raconter une histoire simple et actionable :

  • Golden Signals (Signaux d’Or) : Concentration sur les métriques les plus importantes :
    • Latence (vitesse de réponse)
    • Taux d’Erreur
    • Trafic (demandes par seconde)
    • Saturation (utilisation des ressources)