L'Agent Zabbix qui ne répond plus
Symptôme
Malgré la configuration qui n'a pas bougé, le serveur Zabbix indique qu'une des machines qu'il doit superviser ne répond pas. Son agent est inaccessible.
L'agent se lance bien (ce que l'on vérifie via un service zabbix-agent status), mais dans les logs du serveur à superviser,
tail -f /var/log/zabbix/zabbix_agentd.log
9932:20181111:165615.451 **************************
9932:20181111:165615.451 using configuration file: /etc/zabbix/zabbix_agentd.conf
9932:20181111:165615.452 agent #0 started [main process]
9933:20181111:165615.452 agent #1 started [collector]
9934:20181111:165615.453 agent #2 started [listener #1]
9935:20181111:165615.454 agent #3 started [listener #2]
9936:20181111:165615.454 agent #4 started [listener #3]
9937:20181111:165615.454 agent #5 started [active checks #1]
9937:20181111:165618.457 active check configuration update from [zabbixserveur.com:10051] started to fail (cannot connect to [[zabbixserveur.com]:10051]: [4] Interrupted system call)
Tests
On regarde, l'agent est bien en écoute sur le bon port :
netstat -lpn | grep zabbix
tcp 0 0 0.0.0.0:10050 0.0.0.0:* LISTEN 9932/zabbix_agentd
tcp6 0 0 :::10050 :::* LISTEN 9932/zabbix_agentd
On teste alors la connexion au serveur via
telnet zabbixserveur.com 10050
Connexion refused
De même, depuis le serveur
telnet machine_avec_zabbixagent.com 10050
Connexion refused
Ca sent le soucis de pare-feu / firewall
Solution
# iptables -L
Chain f2b-recidive (1 references)
target prot opt source destination
(..)
REJECT all -- zabbixserveur.com anywhere reject-with icmp-port-unreachable
Eureka ! Zabbix a été bloqué par fail2ban
Pour avoir la liste des jails de Fail2Ban et son exact
# fail2ban-client status
Status
|- Number of jail: 11
`- Jail list: (...)recidive, ssh, (...)
On enlève le serveur des règles de blocage créé par fail2ban via :
# fail2ban-client set recidive unbanip W.X.Y.Z
Conclusion
Zabbix sollicite beaucoup son agent (une interrogation toutes les minutes) d'autant plus qu'il y a beaucoup de services à monitorer sur le serveur. Un soucis d'interruption de services sur le serveur à multiplier les demandes de Zabbix ce qui a conduit au blocage de l'IP du serveur Zabbix sur la machine cliente par fail2ban.
Il faut donc ajouter en liste blanche le serveur Zabbix sur la machine cliente via l'ajout de l'IP dans le fichier de configuration de fail2ban :
# vi /etc/fail2ban/jail.conf
ignoreip =W.X.Y.Z
Et on redémarre ensuite fail2ban
# service fail2ban restart