解决问题的思路:排除法

我最近又一次刚刚解决了工作中的一个不大不小的技术问题,想分享下自己的这个简单的方法论:排除法。

先说说这个问题是什么,我又是怎么解决的。因为产品需要,购买了淘宝上的一种mini主机,决定采用Linux系统做产品,首先就要解决发行版的问题。经过比较选择,初步选用Manjaro Linux。但是上周突然发现一个很诡异的现象:启动时间太长,每次启动的时间从几秒钟到2分半种不等。我这么描述,实际上不够精确,那么启动时间是什么呢?从电源开启,到自动登录完成并且桌面显示出来了,总共的时间。而这里面最有意思的是会在桌面显示出来之前会有一个黑屏时间,这个时间是不太固定的。作为企业产品,启动时间慢和不固定都是不能容忍的。那么,怎么来解决这个问题呢?其实,我一直在使用排除法,缩小问题的范围,直到最终精准定位。

第一个范围排除:显示相关还是其他?为了搞清楚系统是不是其他部分都启动了,而显示部分可能会滞后,将系统的ssh服务开启,当发现“卡死”的时候,立刻从另一个机器去远程登录,发现每次都能登录,因此排除了其他问题,确认与显示相关。

第二个范围排除:是否与自动登录相关?把系统的自动登录关掉,让启动的时候必须输入用户名密码,结果发现:问题消失!这就证明了,问题与自动登录相关。

第三个范围排除:卡在自动登录之前还是自动登录之后?由于是黑屏,很不给力,找一下自动登录的机制,发现可以设置自动登录的延时,默认是0,改成3秒,发现登录界面闪过,出现了鼠标和背景,不动。原来黑屏的现象变成了固定背景的问题。初步判断是在自动登录之后。因此需要研究从登录到桌面出现,需要经过哪些步骤。

第四个范围排除:进程筛选。研究了X11的Display Manager(本例中lightdm)和桌面系统(本例中Xfce)的进程父子关系,通过ssh,找出卡死的进程,最后发现卡在 gnome_keyring_daemon程序上。

最后,综合判断,给出结论。gnome_keyring_daemon程序在初始化的时候会读 /dev/random获得随机数,而 /dev/radom 这个内核接口需要足够的熵来产生随机数,当采用自动登录的方案时,如果对系统没有任何刺激,内核获得熵的速度会比较慢,导致 gnome_keyring_daemon阻塞;此时如果动一动鼠标,则很快进入桌面系统;在手动登录的方案中,用户输入密码和回车就产生了足够的熵,进入系统也就顺利了。

当然,上面说到的是一个简化的排查模型,排除法只是一种方法,需要和其他的一些条件一起使用。

首先,解决问题的信念。没办法,作为产品,不解决这个问题没法用。当遇到岔路时,尽管问题没有解决,但也学到了更多的知识,不能气馁。我解决这个问题的过程中一直有一个支线问题在干扰我:系统会识别出一个没有硬件连接的笔记本显示屏。为了排除这种可能,我通过配置让系统忽略这个不存在的显示屏,发现问题依旧。这个做法有两个好处:排除了多屏问题,我顺便理解了X11的忽略显示屏配置方法。另外,当自动登录相关的结论出来之后,作为绕过问题的策略,可以设为手动登录而不去研究,但这样导致浅尝辄止,除非有更重要的事情,这种刨根问底的精神不能丢。

其次,对比尝试。第二个范围排除,我的灵感源于这样一个偶然事实:当黑屏的时候,我动动鼠标或者敲击键盘,总是能进入系统。没有这个尝试,我很难想到登录的问题。

第三,知识储备。我对X11其实理解得不算太全面,这次为了解决这个问题,不得不去更深的理解了不同部分的关系,尤其是启动顺序。