故障症状 网关监控出现连接数突增突降的情况,监控显示网关丢弃了某些SNAT连接,K8S中某些应用调用第三方接口偶尔会失败,不稳定(已知第三方平台稳定提供服务) 分析过程 1、分析网关SNAT连接被哪个K8S节点占用 2、登陆K8S节点,查看节点连接数 3、docker top containerID 查看节点上所有的容器的PID 4、获取每个进程的连接数,通过进程判断链接是哪个容器产生的,从而定位到具体的Pod 分析网关SNAT连接被哪个节点占用 这一步一般可以通过监控直接分析出来 监控显示连接数每半个小时突增一次…