如家酒店房价爬虫
博客专区 > wx9944 的博客 > 博客详情
如家酒店房价爬虫
wx9944 发表于9个月前
如家酒店房价爬虫
  • 发表于 9个月前
  • 阅读 24
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 新注册用户 域名抢购1元起>>>   

摘要: 我本人从事酒店行业,经常需要对比周边酒店价格,去年还可以抓取ajax,如家官网升级后,改善了反爬机制。试了各种方法,还是selenium好使。由于爬虫代码寿命较短,下面只写套路。

爬取地址:http://m.homeinns.com/hotels/J10013 (如家精选-北京中关村东路店) 首先,从chrome浏览器打开F12审查元素。价格是用背景图片形式展现的,我们先获取背景图片,图片url,图片地址为 http://m-homeinns-assets.b0.upaiyun.com/1fa47e8ded78008c6974dc1a4e8e7a51.png 图片名称是uuid,一般到这里都应该明白,既然是uuid,那么图片极有可能是动态生成的 获取到的图片数字为6135247890.

然后,审查背景图片与css元素之间的对应关系, 房价314,class元素后缀是215,6135247890是图片数字顺序,多看几条价格,可以看出:数字的下标215刚好是房价314,假设imageNumber=6135247890.那么价格price=imageNumber[class后缀]。

imageNumber=6135247890.那么价格price=imageNumber[class后缀]。

class元素后缀字符是数字下标

待续.......

共有 人打赏支持
粉丝 0
博文 7
码字总数 1526
×
wx9944
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: