文档章节

current.vc项目的分析

FeanLau
 FeanLau
发布于 2017/05/02 11:04
字数 946
阅读 10
收藏 0
点赞 0
评论 0

仅仅current.vc这个网站的项目,这里写好文档对网站的抓取分析。

1.chinavc

原本以为newsChannlid已经被我找完了,实际上还有很多。但是,我仔细看了一下网站的首页,分析了AJAX,得到未必需要全部的newsChannlid。

找到标题的对应关系了,上面有8个对应的栏目,下面有按照顺序的8个对应的AJAX请求。

      //网站的栏目数组
      $column = array(
        '11'=>'VC/PE',
        '3'=>'瞰三板',
        '20'=>'产业资本',
        '14'=>'锐公司',
        '5'=>'金融',
        '4'=>'潮讯Hot',
        '23'=>'人物',
        '2'=>'原创'
      );

分析网站的URL链接:

https://www.chinaventure.com.cn/cmsmodel/news/detail/312533.shtml

https://www.chinaventure.com.cn/cmsmodel/report/detail/1277.shtml

目前从URL上面看,能抓取的数据是news和report,report目前没有抓取的必要,所以只抓取news的数据了。

 

2. 36kr

36kr网站上的URL分析与上面的chinavc栏目分析是基本相同的。

    //网站的栏目数组
    $column = array(
      '23'=>'明星公司',
      '104'=>'行业新闻',
      '67'=>'早期项目',
      '70'=>'深度报道',
      '103'=>'技能GET',
      '71'=>'行业研究'
    ); 

 

3.如何测试

通过URL进行测试,可以用来测试的URL链接如下:

http://daily.me.com/?/scrape/index/chinavc/

http://daily.me.com/?/scrape/index/pencil/

http://daily.me.com/?/scrape/index/GPLP/

http://daily.me.com/?/scrape/index/36kr/

http://daily.me.com/?/scrape/index/pedaily/pe/

http://daily.me.com/?/scrape/index/pedaily/news/

http://daily.me.com/?/scrape/index/pedaily/people/

如果上面的每个URL都能返回正确的消息,基本就完全测试完全了。

 

4.整合出栏目

目前,先用这里的作为测试。

5.目前的困难

目前我的困难在于思路的不清晰,思路一但乱了,程序也就写不下去了。现在的思路还是分模块的进行测试。先从比较简单点的36kr网站开始。

测试的URL: http://daily.me.com/?/scrape/index/36kr/

 

 

6.通过URL传递参数

在我们的系统中,甚至微信公众平台的开发中,通过URL来传递参数成为了一种通用的做法。通过seg()函数获取参数,通过URL在控制器和视图层之间传递URL参数。

数据一般的处理流程,1->2->3或者1->2->5或者1->2->3->4->5这样的三个流程。

1->2->3:是显示索引(栏目索引)

1->2->5:直接点击了文章索引,点击出了文章信息

1->2->3->4->5:是点击出栏目,出现索引,索引出现后又点击文章信息

如果又要加上分页,越来越复杂了。

分页这个功能加在什么地方?

 

7.发现铅笔道这个项目难度

https://www.pencilnews.cn/deep这个项目有难度。

分析获取的JSON数据。

{
    "code": 1000,
    "message": "SUCCESS",
    "data": {
        "items": [
            {
                "user_contact_id": "8377",
                "article_id": "13919",
                "uid": "106139",
                "contact_uid": "109954",
                "reason": "",
                "create_at": "2017-05-07 16:26:49",
                "contactU": {
                    "uid": "109954",
                    "name": "李晟博",
                    "sex": "0",
                    "avatar": null,
                    "cert": {
                        "uid": "109954",
                        "state": "1",
                        "cert_type": "1",
                        "com": "山丘",
                        "job": "创始人",
                        "charge": null,
                        "card": "提交人:玛依热",
                        "create_at": "2017-05-06 23:08:15",
                        "update_at": "2017-05-06 23:08:15",
                        "op_uid": "101370",
                        "reason": null,
                        "show_barrage": "1",
                        "revise_reason": "0"
                    }
                },
                "u": {
                    "uid": "106139",
                    "name": "闫久领",
                    "sex": "0",
                    "avatar": null,
                    "cert": {
                        "uid": "106139",
                        "state": "1",
                        "cert_type": "2",
                        "com": "众筹客",
                        "job": "投资总监",
                        "charge": "负责互联网消费类,人工智能机器,连锁实体品牌领域投资",
                        "card": "users/card/7be9f234f2dc2b716b263dc3d73822d81490165872.jpg",
                        "create_at": "2017-03-22 14:59:49",
                        "update_at": "2017-03-22 15:36:33",
                        "op_uid": "100041",
                        "reason": null,
                        "show_barrage": "1",
                        "revise_reason": "0"
                    }
                }
            }
        ]
    }
}

上面的信息是联系人的信息,没有什么关系的,抓取网站不是从这里抓取的。

8. 总结

现在看这个项目,是比较简单的。36kr、chinavc、pencil都是利用抓包的方式抓取的。GPLP、pedaily都是比较传统类型的网站,按照套路来抓取就可以了。如果抓包的方式,写两个函数。如果比较传统类型的网站,都是基本的4个函数。

 

© 著作权归作者所有

共有 人打赏支持
FeanLau
粉丝 3
博文 201
码字总数 129363
作品 0
浦东
程序员
网站架构书的写法之需求分析(项目开发大体过程)

在进行项目开发之前,必须进行需求分析,需求分析是一个了解客户需求并进行项目规划的过程。如果需求分析做得不不够,项目开发时必然会事倍功半,有可能有返工的现象,因此,需求分析非常重要...

五味格子 ⋅ 2011/10/12 ⋅ 0

项目可行性评估

项目正式开发前,需要对项目做出可行性评估,对项目的可行性评估是项目立项前的重要工作。上节就是从客户需求、产品服务、市场、竞争等方面让创始人对项目做了简单评估。 可行性评估的任务就...

langhonglin ⋅ 2017/05/31 ⋅ 0

居然还有人用 3 个空格来对齐代码

对齐代码时,该用 Tab ,还是空格。这个话题,就像浏览器和操作系统之战,也是能让程序员争辩很久的。甚至还动粗,比如下面漫画。 Uku Pattak 最近分析了 GitHub 上多种语言的热门项目(sta...

oschina ⋅ 2016/01/04 ⋅ 127

大数据分析项目中的“最差”实践

在这里还是要推荐下我自己建的大数据学习交流群:784557197,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的...

p柯西 ⋅ 06/15 ⋅ 0

Git@OSC 携手腾讯优测支持安卓项目一键分析

Git@OSC 面世已经三年了,我们致力于为用户提供免费的优质托管服务,目前已经成为国内最大的代码托管服务提供商,越来越多的优秀开源项目使用 Git@OSC ,越来越多的团队入驻 Git@OSC 。2014年...

oschina ⋅ 2016/03/04 ⋅ 31

项目进度管理和项目成本管理作业

项目进度管理和项目成本管理作业 一、项目进度管理作业: 1、活动资源估算的方法、技术和工具; 专家判断,多案例分析,出版的估算数据,项目管理软件,自下而上估算 2、活动历时估算的方法、...

jihfang ⋅ 2015/10/13 ⋅ 0

使用SonarQube Scanner for Maven 分析

特征 建议使用此分析器启动Java Maven项目的分析。 兼容性 Maven版本 2.X 3.X 兼容性 从maven-sonar-plugin 3.4.0.905开始,不再支持SonarQube <5.6。 如果使用5.6之前的SonarQube实例,则应...

如风达 ⋅ 04/26 ⋅ 0

这一件月薪30K+的事,我们一起来撮合一下

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能 ⋅ 06/01 ⋅ 0

NDK开发——Android Studio+CMake实现QQ变声效果

项目演示 源码下载 Github:https://github.com/AndroidHensen/NDKVoice 项目分析 项目采用Fmod开源库,一个非常简单通用的音频引擎,对原始声音进行音效的处理即可做出变声的效果,下面是变...

qq_30379689 ⋅ 2017/09/02 ⋅ 0

[转]主题:我们应当怎样做需求分析

又到新年了,日历又要从2011年翻到2012年了,这使我有太多的感慨,进而勾起了对太多往事的回忆。过去的10年,毫无疑问是中国软件业发展最快的10年。当我们刚刚毕业的时候,还在使用VB、PB开发...

kellyoschina ⋅ 2012/02/07 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

实验楼—MySQL基础课程-挑战3实验报告

按照文档要求创建数据库 sudo sercice mysql startwget http://labfile.oss.aliyuncs.com/courses/9/createdb2.sqlvim /home/shiyanlou/createdb2.sql#查看下数据库代码 代码创建了grade......

zhangjin7 ⋅ 昨天 ⋅ 0

一起读书《深入浅出nodejs》-node模块机制

node 模块机制 前言 说到node,就不免得提到JavaScript。JavaScript自诞生以来,经历了工具类库、组件库、前端框架、前端应用的变迁。通过无数开发人员的努力,JavaScript不断被类聚和抽象,...

小草先森 ⋅ 昨天 ⋅ 0

Java桌球小游戏

其实算不上一个游戏,就是两张图片,不停的重画,改变ball图片的位置。一个左右直线碰撞的,一个有角度碰撞的。 左右直线碰撞 package com.bjsxt.test;import javax.swing.*;import j...

森林之下 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部