Centos- Nagios 的Last Check更新时间与当前时间差距分析问题及处理方法总结-白红宇

Centos- Nagios 的Last Check更新时间与当前时间差距分析问题及处理方法总结

阅读量：5931 次

发布时间：2019-06-19

本文共 4340 字，大约阅读时间需要 14 分钟。

故障现象：

2014年6月4日收到客户邮件说：bjd nagios 的Last Check更新时间与当前时间差距很大

具体处理过程如下：

盲目处理阶段：

想将问题尽快处理掉，所以有点只看问题表象忽略了重点，唉，说多了都是泪。

查询该机器各种log 发现除了一些常规报错信息，没有重要发现。

检查机器磁盘空间，内存，IO，CPU正常。

此问题首次出现，之前未有遇到。通过查询资料得知是由于此文件权限发生变化导致。但是任我怎么修改文件的权限和所属组都不能解决问题。并参考了，恕不知此问题不是解决本次问题的关键，结果造成误导。

[root@nagios01 ~]#cd/usr/local/nagios/var/rw/

[root@nagios01 rw]#ll

total 0

prwxrwxrwx 1 nagios nagios 0Jun 7 02:11 nagiosNaNd

5. 继续为绕此问题进行分析和尝试，并进行多次重启服务操作均未解决，但在重启服务时发现，服务启过程中有报错:/etc/init.d/nagios: line 67: kill: (1777) - No such process 在之前重启服务中均未出现此问题，觉得应该不正常，于是查之，陷于分析过程，参考网络文章无数未找到解决方法，先忽略之。此时主服务一直未启动具然不知道，并且没有引起足够的重视。

6. 比对运行正常的机器，各种比对，配置文件均一致，无解。

7. 没有找到合理的解决方法，重启机器，重启完成后未解决，心灰意冷了。

8. 由于时间差距大，与用户商议先决定开启备机上的报警功能，。

9. 备机启动时也是多灾多难，不过最终切至备机上开始运行。

10. 关闭当前机器报警功能，让同事将此机器生成快照，为了日后找到问题时回退。

11. 把之间忽略的信息重新分析并解决，但问题已然存在。

n 发现转折点阶段：

1. 备机开启，没有什么提心了，继续排查。

2. 此时发现nagios主服务未启动，但是web访问的页面也能打开，各种数据都有，诧异各种诧异，之前的处理都是被误导到天国去了。

3. 随即开启nagios主程序，发现启动1-3分钟后就自动停止。于是先打开日志文件保持更新状态，一边开启nagios主程序，观察启动过程。这次在日志中有重大发现：

启动nagios时在系统日志中出现如下报错信息：

Jun 7 00:41:41nagios01 kernel: EXT3-fs warning (device dm-0): ext3_dx_add_entry: Directoryindex full!

Jun 7 00:41:50nagios01 /usr/sbin/gmetad[2964]: data_thread() got no answer from any [MonitorHost] datasource

Jun 7 00:41:56nagios01 kernel: EXT3-fs warning (device dm-0): ext3_dx_add_entry: Directoryindex full!

4. 当nagios自动停止后，此日志不在出现，根据经验判断有重大嫌疑，于时查之。随着深入查阅资料更能加深这一判断：

找到相关资料

此问题为inodes(索引节点)已满,引用"inode译成中文就是索引节点，每个存储设备（例如硬盘）或存储设备的分区被格式化为文件系统后，应该有两部份，一部份是inode，另一部份是Block，Block是用来存储数据用的。而inode呢，就是用来存储这些数据的信息，这些信息包括文件大小、属主、归属的用户组、读写权限等。inode为每个文件进行信息索引，所以就有了inode的数值。操作系统根据指令，能通过inode值最快的找到相对应的文件。"通过几台的情分析判断,每一G的空间,有120000左右的inodes可以在格式化分区时指定inodes的大小,加个 -N参数,如

mkfs.ext3 -N 2500000/dev/sda6 #2500000 为inodes的大小

实际应用需要要根据分区的大小来定，造成此问题通常是产生了大量的小文件（附合nagios的特点）