最近都在学nodeJs,刚好看到http模块,于是就心血来潮,想写个简单的爬虫。
简单的爬虫实现原理很简单:发送http请求至目标地址获取HTML页面数据,然后从获取来的页面数据中提取需要的数据保存。
用nodeJs写爬虫,主要就是用到http.get发送请求至目标地址,然后在res.on("data")中监听数据传输并且保存数据,最后在res.on("end")数据传送完毕后对数据进行处理,保存。
先来说步骤吧。
我用了express框架,先进入项目目录,在命令行敲入express -e myCreeper 生成express的目录。然后进入myCreeper的目录下再敲入命令npm install。然后项目就搭建好了。