Superviser son blog avec Nagios
Pour moi, la vraie révolution Internet de ces dernières années est l'apparition de blogs ayant petit à petit pris le relais des sites institutionnels pour diffuser de l'information. Souvent tenu à bout de bras par des particuliers, ils ne disposent pas d'une infrastructure informatique professionnelle.
Ainsi en cas de problème technique, l'administrateur est souvent prévenu par ses lecteurs...
Nous allons donc voir dans ce billet comment utiliser le logiciel libre de supervision Nagios pour surveiller automatiquement son blog.
Voilà ce que donnera le résultat dans l'interface Web de Nagios:
Contexte
Afin d'illustrer ce billet, nous allons partir sur l'hypothèse ou vous disposer d'un blog hébergé sur un serveur dédié ou virtuel sous Ubuntu Server 10.04 avec un accès SSH et un compte utilisateur avec les droits d'administration (sudo>r00t).
Aller on se connecte en SSH sur son serveur et on suit le guide.
Installation de Nagios
Nous allons utiliser le script d'installation automatique de Nagios (développé par votre serviteur).
On commence par le télécharger le script nagiosautoinstall-ubuntu.sh:
mkdir ~/monitoring/
cd ~/monitoring
wget http://svn.nicolargo.com/nagiosautoinstall/trunk/nagiosautoinstall-ubuntu.sh
chmod a+x nagiosautoinstall-ubuntu.sh
Puis on lance l'installation (il y a quelques questions auxquelles il faudra répondre) :
sudo ./nagiosautoinstall-ubuntu.sh
On devrait ensuite pourvoir accéder à l'interface Web de Nagios à partir de l'URL suivant: http://@IP/nagios/
Ou @IP est l'adresse IP de votre serveur.
Configuration de Nagios
Comme Nagios tourne sur la même machine que le serveur à superviser, toutes la configuration se fera dans le fichier de configuration localhost.cfg.
J'utilise deux plugins non inclus dans les plugins de bases de Nagios (mais installé automatiquement par le script nagiosautoinstall-ubuntu.sh):
- check_ddos: Détection des attaques DDOS.
- check_memory: Pour surveiller l'occupation mémoire des serveurs GNU/Linux.
- check_url: Vérifier l'existence d'un fichier sur un serveur Web.
On édite le fichier /usr/local/nagios/etc/objects/localhost.cfg (à adapter à votre configuration...):
#######################################################################
#
# Supervision du blog blog.nicolargo.com
#
#######################################################################
#######################################################################
#######################################################################
#
# HOST DEFINITION
#
#######################################################################
#######################################################################
# Define a host for the local machine
define host{
use linux-server
host_name blog
alias blog.nicolargo.com
address 127.0.0.1
}
#######################################################################
#######################################################################
#
# SERVICE DEFINITIONS
#
#######################################################################
#######################################################################
# Define a service to "ping" the local machine
define service{
use local-service
host_name blog
service_description PING
check_command check_ping!100.0,20%!500.0,60%
}
# Define a service to check the disk space of the root partition
# on the local machine. Warning if < 20% free, critical if
# < 10% free space on partition.
define service{
use local-service
host_name blog
service_description Root Partition
check_command check_local_disk!10%!5%!/
}
# Define a service to check the number of currently logged in
# users on the local machine. Warning if > 2 users, critical
# if > 3 users.
define service{
use local-service
host_name blog
service_description Current Users
check_command check_local_users!2!3
}
# Define a service to check the number of currently running procs
# on the local machine. Warning if > 250 processes, critical if
# > 400 processes.
define service{
use local-service
host_name blog
service_description Total Processes
check_command check_local_procs!250!400!RSZDT
}
# Check memoire avec script check_memory
# http://blog.nicolargo.com/2008/07/surveiller-la-memoire-de-vos-serveurs-avec-nagios.html
# -w 800000000 -c 900000000
define service{
use local-service
host_name blog
service_description Memory
check_command check_memory!800000000!900000000
}
# Define a service to check the load on the local machine.
define service{
use local-service
host_name blog
service_description Current Load
check_command check_local_load!5.0,4.0,3.0!10.0,6.0,4.0
}
# Define a service to check the swap usage the local machine.
# Critical if less than 10% of swap is free, warning if less than 20% is free
define service{
use local-service
host_name blog
service_description Swap Usage
check_command check_local_swap!20!10
}
# Define a service to check SSH on the local machine.
# Disable notifications for this service by default, as not all users may have SSH enabled.
define service{
use local-service
host_name blog
service_description SSH
check_command check_ssh
#notifications_enabled 0
}
# Define a service to check HTTP on the local machine.
# Disable notifications for this service by default, as not all users may have HTTP enabled.
define service{
use local-service
host_name blog
service_description HTTP
check_command check_http
#notifications_enabled 0
}
# Define a service to check URL
# http://blog.nicolargo.com/google89d0cf0b89815a2a.html
define service{
use local-service
host_name blog
service_description URL Google check file
check_command check_url!http://blog.nicolargo.com/googl
e89d0cf0b89815a2a.html
}
# Define a service to check URL
# http://blog.nicolargo.com/sitemap.xml.gz
define service{
use local-service
host_name blog
service_description URL Sitemap
check_command check_url!http://blog.nicolargo.com/sitem
ap.xml.gz
}
# Define a DDOS detection service
# http://blog.nicolargo.com/?p=4100
# Warning: >50 SYN_RECV
# Critical: >70 SYN_RECV
define service{
use local-service
host_name blog
service_description DDOS detect
check_command check_ddos!50!70
}
Ce fichier de configuration va permettre de superviser les choses suivantes:
- état du serveur (réponse au ping en moins de 500ms et 60% de paquets perdus)
- espace disque disponible > 5% de la taille totale (10% pour un warning)
- pas plus de 3 personnes connectés en même temps sur le serveur (2 pour un warning)
- pas plus de 400 processus lancés en parallèle (250 pour un warning)
- mémoire disponible (basée sur RAM 1 Go) > 10% de la mémoire totale (20% pour un warning)
- charge (CPU) moyenne sur 5 minutes < 10% (5% pour un warning)
- espace de swap disponible > 10% de la taille totale du swap (20% pur warning)
- Port SSH en écoute
- Port HTTP en écoute
- Vérification de l'existence du fichier de check de Google
- Vérification de l'existence du fichier sitemap.xml (référencement dans moteur de recherche)
Il y a surement plein d'autres choses à vérifier...
A vos claviers pour nous dire cela dans les commentaire.