简单爬虫

想给闺女下载些MP3,百度一下倒是有些网站有,可惜下载麻烦,于是想到写个爬虫来自动下载。原来没写过,脑子里闪过几个思路后,决定先用phantomjs [1] 试试。

很快写了一个phantomjs的版本,测试了下,用是能用,就是有些慢。嗯,phantomjs能够渲染页面,但渲染页面恰恰是我这个爬虫不需要的,要是专注dom解析,应该能节省不少时间。于是google到 jsdom [2] ,改了改,发现好用多了。

源代码在 这里

我的思路:

  • Nodejs, 开发快
  • 不自己下载,丢给bash/wget,可以把生成好的脚本丢到Openwrt路由器上

基础工作:

  • 使用Chrome inspector,分析网站结构,选用任何技术都无法避免的前提。
[1]http://phantomjs.org
[2]https://github.com/tmpvar/jsdom