文档章节

我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言

96PHPCN
 96PHPCN
发布于 2016/09/30 10:15
字数 1419
阅读 38
收藏 0
点赞 0
评论 0

【更新】:源码在这里:https://github.com/owner888/phpspider

看了不少朋友圈里推荐的Python爬虫文章,都觉得太小儿科,处理内容本来就是PHP的强项,Python唯一的好处估计也就天生的Linux自带,和Perl一样,这点觉得挺不够意思的Linux,还是Mac厚道,天生就自带了Python、Perl、PHP、Ruby,当然我也很讨厌讨论一门语言的好坏,每门语言存在就一定有它的道理,反正PHP是全世界最好用的语言,大家都懂的^_^

前几天比较火的是一个人用C#写了一个多线程爬虫程序,抓取了QQ空间3000万QQ用户,其中有300万用户是有QQ号、昵称、空间名称等信息的,也就是说,有详情也就300万,跑了两周,这没什么,为了证明PHP是全世界最好的语言,虽然大家都懂的^_^,我用PHP写了一个多进程爬虫程序,只用了一天时间,就抓了知乎100万用户,目前跑到第8圈(depth=8)互相有关联(关注了和关注者)的用户。

爬虫程序设计:

因为知乎需要登录才能获取到关注者页面,所以从chrome登录之后把cookie拷贝下来给curl程序模拟登录。

使用两大独立循环进程组(用户索引进程组、用户详情进程组),用的是php的pcntl扩展,封装了一个非常好用的类,使用起来和golang的携程也差不多了。

下面是用户详情的截图,用户索引代码类似

这里插个题外话,经过测试,我的8核的Macbook,跑16进程的速度最快,而16核的Linux服务器,居然是跑8进程最快,这点有点让我莫名其妙了,不过既然测试出最后进程数,就按照最后设置就好啦。

1、用户索引进程组先以一个用户为起点,抓取这个用户的关注了和关注者,然后合并入库,因为是多进程,所以当有两个进程在处理同一个用户入库的时候就会出现重复的用户,所以数据库用户名字段一定要建立唯一索引,当然也可以用redis这些第三方缓存来保证原子性,这个就见仁见智了。

通过步骤一之后,我们就得到下面的用户列表:

2、用户详情进程组按照时间正序,拿到最先入库的用户抓取详情,并且把更新时间更新为当前时间,这样就可以变成一个死循环,程序可以无休止的跑,不断的循环更新用户信息。

程序稳定运行到第二天,突然没有新数据了,检查了一下发现知乎改规则了,不知是为了防我,还是碰巧,反正给我返回的数据是这样的

第一感觉就是胡乱给我输出数据让我采集不到,换了IP、模拟伪装了些数据,都没用,突然感觉这个很熟悉,会不会是gzip?抱着怀疑的态度,试了试gzip,首先当然是告诉知乎不要给我gzip压缩过的数据

把 “Accept-Encoding: gzip,deflate\r\n”; 改成 “Accept-Encoding:deflate\r\n”; 去掉了 gzip,然并卵!

看来知乎是强制要给我gzip压缩数据了,既然如此,那我就解压呗,查了一下php解压gzip,发现就一个函数gzinflate,于是把获取到得内容加上:

$content = substr($content, 10);

$content = gzinflate($content));

这里我真想说,PHP真的是全世界最好的语言,就两个函数,就彻底解决了问题,程序又欢快的跑起来了。

在匹配内容的时候,知乎的细心也是给了我无数的帮助,例如我要分清用户性别:

    

哈哈开玩笑的拉,其实是样式里面有 icon-profile-female 和 icon-profile-male ^_^

我蛋疼的抓了它那么多用户,到底有什么用呢?

其实没什么用,我就是闲的蛋疼 ^_^

有了这些信息,其实就可以做一些别人开头闭口就乱吹一通的大数据分析拉

最常见的当然是:

1、性别分布

2、地域分布

3、职业分布

4、每个职业的男女比例

当然,按照关注人数、浏览人数、提问数、回答数等排序,看看人民都在关注什么,民生、社会、地理、政治,整个互联网都尽收眼底拉。。

也许,你还可以把头像拿来分析,用开源的验黄程序,把色情的筛选出来,然后去拯救东莞? ^_^

然后,你还可以看看那些大学出来的人,最后都干了什么。

有了这些数据,是不是可以打开脑洞 ^_^

下面是利用这些数据做出来的一些有趣的图表,实时图表数据可以去 http://www.epooll.com/zhihu/ 上看

本文转载自:http://blog.jobbole.com/88788/

共有 人打赏支持
96PHPCN
粉丝 3
博文 7
码字总数 2371
作品 0
西安
程序员
Python爬虫五大零基础入门教程

教程一:Python爬虫学习系列教程 这个博主的这个爬虫学习系列教程,很详细啊,从入门到实战、进阶等都有详细的文档介绍,对爬虫感兴趣的小伙伴推荐一看。 教程二:学习网站上的爬虫教程 实验...

不怕摔倒的菜鸟 ⋅ 2017/11/29 ⋅ 0

JIANGWL/ZhihuSpider

ZhihuSpider User spider for www.zhihu.com 1.Install python3 and packages Make sure you have installed python3. Using pip to install dependencies. pip install Image requests beau......

JIANGWL ⋅ 2016/12/12 ⋅ 0

干货大汇总:从零开始,重新发明各种轮子

程序员总爱重新发明轮子,于是做了个轮子汇总。 从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架...

justjavac ⋅ 2015/01/08 ⋅ 13

写了100万行代码的程序员是什么样的程序员

写了100万行代码的程序员是什么样的程序员 2018-06-07 14:05编辑: suiling分类:程序人生来源:程序师 代码程序员程序人生 招聘信息: C++工程师 Cocos2d-x游戏客户端开发 iOS开发工程师 京...

suiling ⋅ 06/07 ⋅ 0

“深受主流女性青睐”?感觉像是活在梦里一样

从开始加入简书开始,写的基本都是技术博客类的文章,今天想换种风格。因为昨天看到几篇饱醉豚抹黑程序员的文章,其实我不明白程序员怎么招惹你了,但是你是不是对程序员这职业有偏见了?这偏...

_知几 ⋅ 2017/12/13 ⋅ 0

代码传奇丨专业造轮子,进度已至2%的轮子哥

“轮子哥”,号称知乎三大程序员(与 @赵劼 @winter 并称“温赵轮”,概因其皆在微软工作,人称三大软狗。另据“路边社”报道,三人年薪皆过百万,于是另有号曰 “软狗三百万”。)江湖代号V...

csdnsevenn ⋅ 2017/11/28 ⋅ 0

Python 模拟登录知乎

前言 前天看到一个爬取了知乎50多万评论的帖子, 羡慕的同时也想自己来尝试一下。看看能不能获取一些有价值的信息。 必备知识点 下面简单的来谈谈我对常见的防爬虫的一些技巧的理解。 header...

郭璞 ⋅ 2017/04/07 ⋅ 0

Python 爬虫进公司必会项目

WechatSogou [1]– 微信公众号爬虫。 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 github地址: https://github...

徐代龙 ⋅ 2017/12/20 ⋅ 0

LINUX NGINX 网络连接错误 118代码

搭了一套广告系统,一天一百万IP,PV 三百万 , 环境 是LINUX NGINX PHP5.2 MYSQL 每过一段时间 网站就会突然打不开!访问时提示 网络连接错误 118代码。 我查看了NGINX服务器连接数设置的有...

将筱云 ⋅ 2014/11/21 ⋅ 1

一些关于外语学习的事实和原则

儿童和成人学习语言的方法是不一样的 学习第二外语和学习母语是不一样的 一万小时定律适用于英语学习,如果一天花2个小时的话,一万小时,差不多是十年 别人的学习方法不一定适合你,选择适合...

很小的小小鱼儿 ⋅ 2016/03/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

win10怎么彻底关闭自动更新

win10自带的更新每天都很多,每一次下载都要占用大量网络,而且安装要等得时间也蛮久的。 工具/原料 Win10 方法/步骤 单击左下角开始菜单点击设置图标进入设置界面 在设置窗口中输入“服务”...

阿K1225 ⋅ 今天 ⋅ 0

Elasticsearch 6.3.0 SQL功能使用案例分享

The best elasticsearch highlevel java rest api-----bboss Elasticsearch 6.3.0 官方新推出的SQL检索插件非常不错,本文一个实际案例来介绍其使用方法。 1.代码中的sql检索 @Testpu...

bboss ⋅ 今天 ⋅ 0

informix数据库在linux中的安装以及用java/c/c++访问

一、安装前准备 安装JDK(略) 到IBM官网上下载informix软件:iif.12.10.FC9DE.linux-x86_64.tar放在某个大家都可以访问的目录比如:/mypkg,并解压到该目录下。 我也放到了百度云和天翼云上...

wangxuwei ⋅ 今天 ⋅ 0

PHP语言系统ZBLOG或许无法重现月光博客的闪耀历史[图]

最近在写博客,希望通过自己努力打造一个优秀的教育类主题博客,名动江湖,但是问题来了,现在写博客还有前途吗?面对强大的自媒体站点围剿,还有信心和可能型吗? 至于程序部分,我选择了P...

原创小博客 ⋅ 今天 ⋅ 0

IntelliJ IDEA 2018.1新特性

工欲善其事必先利其器,如果有一款IDE可以让你更高效地专注于开发以及源码阅读,为什么不试一试? 本文转载自:netty技术内幕 3月27日,jetbrains正式发布期待已久的IntelliJ IDEA 2018.1,再...

Romane ⋅ 今天 ⋅ 0

浅谈设计模式之工厂模式

工厂模式(Factory Pattern)是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 在工厂模式中,我们在创建对象时不会对客户端暴露创建逻...

佛系程序猿灬 ⋅ 今天 ⋅ 0

Dockerfile基础命令总结

FROM 指定使用的基础base image FROM scratch # 制作base image ,不使用任何基础imageFROM centos # 使用base imageFROM ubuntu:14.04 尽量使用官方的base image,为了安全 LABEL 描述作...

ExtreU ⋅ 昨天 ⋅ 0

存储,对比私有云和公有云的不同

导读 说起公共存储,很难不与后网络公司时代的选择性外包联系起来,但尽管如此,它还是具备着简单和固有的可用性。公共存储的名字听起来也缺乏专有性,很像是把东西直接堆放在那里而不会得到...

问题终结者 ⋅ 昨天 ⋅ 0

C++难点解析之const修饰符

C++难点解析之const修饰符 c++ 相比于其他编程语言,可能是最为难掌握,概念最为复杂的。结合自己平时的C++使用经验,这里将会列举出一些常见的难点并给出相应的解释。 const修饰符 const在c...

jackie8tao ⋅ 昨天 ⋅ 0

聊聊spring cloud netflix的HystrixCommands

序 本文主要研究一下spring cloud netflix的HystrixCommands。 maven <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-clo......

go4it ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部