如何读懂 D 监控通知详情
推荐使用IGTM产品进行故障检查&切换,您可通过云解析容灾切换功能或登录IGTM控制台进行配置。
好多同学在收到D监控宕机通知的邮件后,发现自己网站还能访问,并没有宕机,认为这是D监控的误报。
其实D监控的报警策略是很严谨的:每个网站都会被至少3个监测点监控,只有所有监测点都不能访问您的网站才会给予报警。
一、查看各监测点历史
如果您收到宕机报警,可以点击查看详情,里面的实时状态图表会显示各个监测点对您网站的访问历史,您可以看到你的网站从正常到宕机的全过程。
比如看上图,该网站有“深圳联通”,“上海电信”和“汕头移动”三个监测点,在13点10分之前每个监控点都能正常访问网站。
但在13:10的时候各监测点均不能访问该网站。
二、查看各监测点宕机原因
然后结合各线路快照,可以得到各个监测点访问网站的失败的原因,如下:
像上面这个图,就是每个监测点在连接您的网站时都超时了,目前每个探测点的超时时间是15秒,是一个很长的数字,如果你的网站15秒都没打开,那肯定算是无法访问了。
对于一些常见宕机原因,我们整理了一个列表,主要分两大类:
1.服务器错误:是您的网站的应用本身,HTTP服务器,反向代理,CDN等出现的问题,这些原因引起的宕机报警肯定不是误报,都是您的服务器返回的错误。
错误原因
错误解释
建议解决途径
500 Internal Server Error(服务器内部错误)
一般是您网站代码引起的问题,比如数据库访问出错,网站依赖的服务崩溃等引起的。
需要查看网站运行日志进一步排查问题,对于500错误应该在日志里记录详细的错误上下文,如请求参数等。
502 Bad Gateway(网关错误)
如果您使用了nginx,apache等软件架设服务器,当你后端的cgi worker失去响应时就会报502错误。
需要去服务器上检查相关的cgi进程是否正常,服务器是否负载过高来进一步排查问题。
503 Service Unavailable(服务不可用)
一般是请求太多引起的,比如短时间内你的网站被很多人访问.
需要根据http访问日志,第三方统计系统如腾讯分析等确认你的网站是否不是访问量上升,做好后续扩容和性能优化的工作。
504 Gateway Timeout(网关超时)
和502错误类似,但比较少见,一般是一些专门的网关或代理(如CDN,运营商wap网关等)才会返回这个错误。
如果网关和代理是第三方服务,需要联系对方和您一起排查超时是如何造成的。当然您可以先对自己的网站进行自查。
2.网络问题:是由于您网站所在机房的网络,运营商网络,以及监测点所在机房的网络出现的问题。
因为监测点至少有三个,且分布在不同运营商不同的机房,所有监测点同时都出现网络问题的几率很小,误报的几率其实也极小。
错误原因
错误解释
Connection timed out(连接超时)
TCP三步握手没有成功,监测点连续发送多次syc,但您的服务器没有回复ack。
Connection reset by peer (连接被重置)
TCP连接建立成功后,您的服务器马上把连接重置了。
Connection refused(连接被拒绝)
您的服务器正常启动,但网站的端口没有打开,就会出现这个错误。
这些网络问题的定位和排查一般比较困难,建议从以下几步入手:
1、 首先确认你的网站应用,HTTP服务器运行正常,服务器负载不高,网络流量没有异常上升和异常下降。
2、 如果您的网站所在机房有网络防火墙,则有可能会屏蔽掉监测点的HTTP请求,如果可以,在您的防火墙上把监测点IP加入到防火墙的白名单。监测点的IP列表:https://support.dnspod.cn/Kb/showarticle/tsid/16
3、 如果您的服务器在国外VPS,国内的云主机上,出现网络问题的几率比较大,因为这些服务器上本身会有好多网站,而且有专业的网络防护设备。
4、 如果您确认网站本身以及机房的网络都没有问题,而监测点访问时出现网络错误,那就是运营商网络和骨干网的问题了,你可以结合tracert等命令来定位问题。
5、 如果您还有疑问,可以加入 DNSPod 官方微信群,我们帮您深入分析该问题。
DNSPod 域名检测工具
查询域名信息,快速排查网站问题
网站自助排障
快速判断问题、提供合适的解决方案