抓取网站的思路分析
博客专区 > FeanLau 的博客 > 博客详情
抓取网站的思路分析
FeanLau 发表于7个月前
抓取网站的思路分析
  • 发表于 7个月前
  • 阅读 0
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

这段期间,我在公司主要从事抓取网站的工作,让我真的是收益非浅:

  1. 分析了大量的站点:
  • 投中网:https://www.chinaventure.com.cn/
  • 中国招商网:http://www.zhaoshang.net/
  • 投资界:http://www.pedaily.cn/
  • 36kr:http://www.36kr.com
  • 铅笔道:https://www.pencilnews.cn/
  • GPLP:http://www.gplp.cn/

上面这些站点,都是比较成熟的,从上面分析网站的思路入手,得到了很多的思路和启发。其中,上面的站点当中,以36kr为最为困难的,36kr所有的文章数据都是获取在底部的JSON数据中,通过HTML标签进行定位的方式,根本抓取不到。好在我想出了,利用正则表达式去抓取JSON数据,轻松获取所需要的文章信息数组。

        2.抓取网站的基本思路

最关键的是获取网站的内容页面。前面的程序,获取索引等等,都是为了能在最终获取网站的内容页面content。

       3.simple_html_dom.php

抓取网站,用的php脚本是simple_html_dom.php,这个是国外人写得抓取工具包,与jQuery的语法很类似的。我看了下内部的源代码,利用了大量的正则表达式去定位,达到CSS选择器的效果,获取标签内部的字符串是最终的目的。

      4.关于抓取文章数据存储

为了方便和简洁考虑,所有的文章数据都存储在一个数据表中,不建议多建立数据表存储。我都只建立了一个表articlde表,一个模型层操作文件article_m.php文件。能够精简的尽量精简化。

    5.关于分页函数的处理

现在的网站的分页函数的处理,都是基本上利用AJAX来实现动态加载分页的,很多网站都是的。异步加载获取网站的页面数据。

共有 人打赏支持
粉丝 2
博文 194
码字总数 99378
×
FeanLau
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: