文档章节

瓜子二手车爬虫源码

数据工厂V
 数据工厂V
发布于 2016/06/08 14:19
字数 309
阅读 73
收藏 2

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息。

代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了,

不需要安装编译环境。要爬取其他网站,可以更改源码即可。

 

代码执行具体步骤点这里

更多源码下载点这里

*/

 

var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www.guazi.com/城市名称/buy/”)

if (scanUrl.trim().length > 0) {
    var city = scanUrl.trim().substring(scanUrl.indexOf(".com/") + 5, scanUrl.indexOf("/buy/"));
}

var configs = {
    domains: ["guazi.com"],
    scanUrls: [scanUrl],
    contentUrlRegexes: ["https?://www\\.guazi\\.com/" + city + "/\\w+\\.htm"],
    helperUrlRegexes: ["https?://www\\.guazi\\.com/" + city + "/buy/(o\\d+/)?"],
    enableJS: false,
    interval: 10000,
    fields: [
        {
            name: "car_name",
            selector: "//h1[contains(@class,'dt-titletype')]"
        },
        {
            name: "car_price",
            selector: "//span[contains(@class,'fc-org pricestype')]"
        },
        {
            name: "car_license",
            selector: "//li[contains(@class,'one')]/b"
        },
        {
            name: "car_mileage",
            selector: "//ul[contains(@class,'assort')]/li[2]/b"
        },
        {
            name: "car_gearbox",
            selector: "//ul[contains(@class,'assort')]/li[3]/b"
        },
        {
            name: "car_emission_standard",
            selector: "//li[contains(@class,'em-sta detailHoverTips')]/b"
        },
        {
            name: "car_license_location",
            selector: "//ul[contains(@class,'assort')]/li[5]/b"
        },
        {
            name: "car_owner",
            selector: "//li[contains(@class,'owner')]/text()[2]"
        },
        {
            name: "car_description",
            selector: "//*[@id='base']/p"
        }
    ]
};

configs.afterExtractField = function(fieldName, data, page) {
    if (fieldName == "car_price") {
        var price = extract(data, "//b").replace("¥", "¥");
        var coinUnit = exclude(data, "//b");
        return (price + coinUnit);
    }
    else if (fieldName == "car_owner") {
        return data.trim();
    }
    else if (fieldName == "car_description") {
        return data.replace("<em></em>", "");
    }
    return data;
};

var crawler = new Crawler(configs);
crawler.start();

 

© 著作权归作者所有

数据工厂V
粉丝 9
博文 24
码字总数 25887
作品 0
杭州
私信 提问
人人车诉瓜子"遥遥领先"造假 法院:下架相关广告

近日,在人人车起诉瓜子二手车的案件中,北京市海淀区人民法院的裁定认为,瓜子二手车“遥遥领先”相关广告目前尚无充分事实依据,涉嫌构成引人误解的虚假宣传的不正当竞争行为,责令瓜子二手...

智科技
2017/12/01
0
0
瓜子仁手车有木有源码?

正在学习,请问有瓜子二手车源码吗? 有请分享哈,谢谢

待机时间
2015/10/31
326
0
AI+大数据:科技技术手段促使二手车电商的“升阶”战

导读 技术已经成为二手车电商的“标配”竞争意识。二手车电商行业从几年前的圈地扩张看似平静下来,但其下仍然暗流涌动。论竞争规模,这个领域还不足以和当年的千团大战相比较,但其中,也经...

问题终结者
2018/10/05
26
0
车好多CTO张小沛:从高管到一线,如何营造全公司一致的数据价值观

     大数据文摘出品   记者:郑璇真、魏子敏   本文为清华数据科学研究院联合大数据文摘发起的年度白皮书《顶级数据团队建设全景报告》系列专访的第二篇内容。《报告》囊括专家访谈...

大数据文摘
2018/07/11
0
0
谈谈互联网泡沫

最近几年 互联网兴起的,尤其是移动互联网,铺天盖地的应用, 从以前的好奇,到现在倒贴钱用户让使用,都没能吸引我下载点击进去使用 至今有多少应用面都没见过。。 先说最近楼主见过打广告厉...

hlevel
2015/09/22
4.5K
22

没有更多内容

加载失败,请刷新页面

加载更多

rime设置为默认简体

转载 https://github.com/ModerRAS/ModerRAS.github.io/blob/master/_posts/2018-11-07-rime%E8%AE%BE%E7%BD%AE%E4%B8%BA%E9%BB%98%E8%AE%A4%E7%AE%80%E4%BD%93.md 写在开始 我的Arch Linux上......

zhenruyan
今天
4
0
简述TCP的流量控制与拥塞控制

1. TCP流量控制 流量控制就是让发送方的发送速率不要太快,要让接收方来的及接收。 原理是通过确认报文中窗口字段来控制发送方的发送速率,发送方的发送窗口大小不能超过接收方给出窗口大小。...

鏡花水月
今天
8
0
OSChina 周日乱弹 —— 别问,问就是没空

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @tom_tdhzz :#今日歌曲推荐# 分享容祖儿/彭羚的单曲《心淡》: 《心淡》- 容祖儿/彭羚 手机党少年们想听歌,请使劲儿戳(这里) @wqp0010 :周...

小小编辑
今天
889
10
golang微服务框架go-micro 入门笔记2.1 micro工具之micro api

micro api micro 功能非常强大,本文将详细阐述micro api 命令行的功能 重要的事情说3次 本文全部代码https://idea.techidea8.com/open/idea.shtml?id=6 本文全部代码https://idea.techidea8....

非正式解决方案
今天
5
0
Spring Context 你真的懂了吗

今天介绍一下大家常见的一个单词 context 应该怎么去理解,正确的理解它有助于我们学习 spring 以及计算机系统中的其他知识。 1. context 是什么 我们经常在编程中见到 context 这个单词,当...

Java知其所以然
昨天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部