简单爬虫
想给闺女下载些MP3,百度一下倒是有些网站有,可惜下载麻烦,于是想到写个爬虫来自动下载。原来没写过,脑子里闪过几个思路后,决定先用phantomjs [1] 试试。
很快写了一个phantomjs的版本,测试了下,用是能用,就是有些慢。嗯,phantomjs能够渲染页面,但渲染页面恰恰是我这个爬虫不需要的,要是专注dom解析,应该能节省不少时间。于是google到 jsdom [2] ,改了改,发现好用多了。
源代码在 这里 。
我的思路:
- Nodejs, 开发快
- 不自己下载,丢给bash/wget,可以把生成好的脚本丢到Openwrt路由器上
基础工作:
- 使用Chrome inspector,分析网站结构,选用任何技术都无法避免的前提。
[1] | http://phantomjs.org |
[2] | https://github.com/tmpvar/jsdom |