三月 29, 2016

简单爬虫

想给闺女下载些MP3，百度一下倒是有些网站有，可惜下载麻烦，于是想到写个爬虫来自动下载。原来没写过，脑子里闪过几个思路后，决定先用phantomjs [1] 试试。

很快写了一个phantomjs的版本，测试了下，用是能用，就是有些慢。嗯，phantomjs能够渲染页面，但渲染页面恰恰是我这个爬虫不需要的，要是专注dom解析，应该能节省不少时间。于是google到 jsdom [2] ，改了改，发现好用多了。

源代码在这里。

我的思路：

基础工作：

[1]	http://phantomjs.org

[2]	https://github.com/tmpvar/jsdom

发布者 Pluswave

标签: nodejs, 爬虫, jsdom, phantomjs

小福星