网络爬虫——网络爬虫的发展

原创
2015/09/04 14:54
阅读数 1.3K

网络爬虫本质就是模拟人模拟浏览器访问网站,保存网站内容。


网络爬虫最开始是为了整理网络信息,抓取初步处理成资料文档,类似heritrix爬虫。

另一个广泛的应用就是搜索引擎,搜索引擎需要全网采集内容构建倒排索引。


后来国内出现了一片做网络舆情的公司,网络爬虫需要采集的东西主要是新闻资讯,和搜索引擎的爬虫相似,

近期伴随着大数据的热潮,爬虫也被归于大数据范畴,

原因我猜是大家hadoop框架搭好之后,发现,没数据。

写爬虫吧,这其中有代表性的是互联网金融,需要采集用户信息,构建用户行为。


展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部