文档章节

curl带cookies采集

史帝文
 史帝文
发布于 2017/02/28 09:56
字数 265
阅读 43
收藏 0
点赞 0
评论 0

今天接到一个任务,需要采集https://www.dianping.com 大众点评站。使用php curl时发现存在2个问题。

1,curl 针对https的设置。这个好解决。 curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);

2,后面采集时,发现还是被dianping.com转到别的链接上去了。经过分析和排查发现这个是带cookeis访问的。见图

3,使用php的curl存放dianping.com站的cookies失败。采用linux环境内的 curl -c cookie.txt https://www.dianping.com/search/category/207/10 直接得到cookies.txt。比php内的简单见cookies.txt内容

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This file was generated by libcurl! Edit at your own risk.

.dianping.com   TRUE    /       FALSE   0       PHOENIX_ID      0a0102fe-15a825c9312-1834aca
.dianping.com   TRUE    /       FALSE   1551317789      s_ViewType      10
www.dianping.com        FALSE   /       FALSE   0       JSESSIONID      D5829965CE0CE4E539181967FE7FB063
.dianping.com   TRUE    /       FALSE   1519781789      aburl   1

4,直接在php内加上cookies文件,去采集了。成功了。见截图及代码

<?php
$url = 'https://www.dianping.com/search/category/207/10#breadCrumb';
   
$curl = curl_init();    
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)");
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_COOKIEFILE, "cook.txt");
curl_setopt($curl, CURLOPT_URL, $url);  
curl_setopt($curl, CURLOPT_TIMEOUT, 60); 
$contents = curl_exec($curl);
var_dump($contents);
curl_close( $curl ); 
?>

© 著作权归作者所有

共有 人打赏支持
史帝文
粉丝 6
博文 55
码字总数 21238
作品 0
武汉
后端工程师
cURL、file_get_contents、snoopy.class.php 优缺点

curl()、filegetcontents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,他们功能相当,到底有什么优缺点呢,下面逐一介绍: snoopy.class.php snoopy 是用 fsockopen 自开发的...

Junn
2013/07/29
0
0
求助!天猫的商品详情页怎么都采集不到内容,之前还好好的~~~

天猫的商品详情页(http://detail.tmall.com/item.htm?id=45028136433)两周前还能用snoopy采集到内容,但最近应该又修改了什么,curl(cookies也试了)、snoopy、fopen、filegetcontents都试过...

shuyaode
2015/07/12
2.5K
8
snoopy(强大的PHP采集类) 实例应用

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。 下载地址: http://sourceforge.net/project/showfiles.php?groupid=2091 Snoopy的一些特点: 1抓取网页的内容 fetc...

疯狂的流浪
2010/12/10
0
0
Linux curl命令参数详解

一、Linux curl用法举例: 1. linux curl抓取网页: 抓取百度: curl http://www.baidu.com 如发现乱码,可以使用iconv转码: curl http://iframe.ip138.com/ic.asp|iconv -fgb2312 iconv的用...

大糊涂
2015/07/03
0
0
PHP curl采集防盗链网站乱码问题求助

在采集一个视频资讯网站时发现其用了防盗链和爬虫、禁用cookies会报错,完全模拟采集后全是乱码。 用fillder抓包设置no compression 之后就可以看到正常的HTML代码了,不知道这是社么原理,如...

wsy5344
2015/05/02
1K
5
CURL模拟HTTP浏览器动作常用命令-作弊投票利器

当到处都是作弊,作弊,作弊。在curl都只被当作强力投票工具的今天。你就应该了解为什么4,6级考试为什么每年都会出现泄题了。以下讨论的是投票作弊中curl的常用参数(身不由己).其他参数请访...

飞龙栖息地
2013/08/18
0
0
PHP curl模拟登陆取不到数据

代码如下,模拟登陆学校成绩系统: 打开 是空白的,查看cookies文件有值,带该cookies可以看到是登陆成功了的。 另外怎么打开跳转之后的页面?

rain53
2014/10/24
103
3
php curl请求信息和返回信息设置代码实例,特别是在请求过程中存在重定向的时候获取请求返回头信息

在用curl抓取网页内容的时候,经常要知道,网页返回的请求头信息,和请求的相关信息,特别是在请求过程中存在重定向的时候获取请求返回头信息对分析请求内容很有帮助 下面就是一个请求中存在...

蜗牛奔跑
2015/06/26
0
0
【转】重新封装FetchUrl函数一枚,支持COOKIES,喜欢领走~!

mjj520 发表于 2012-6-2 09:14 唉 cpu超级耗芸豆的 查了下开发文档,fetchurl原来是不算CPU的,是我误导了大家。

夏春涛
2014/04/15
0
0
flask request 对象

flask request 对象 这个对象是WEB客户端发送到web服务端的全局请求对象,request需要从flask模块中导入。 form args cookies files method request监听如下信息: 1、form(POST) -> Immutab...

煮酒品茶
2016/08/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

20位活跃在Github上的国内技术大牛 leij 何小鹏 亚信

本文列举了20位在Github上非常活跃的国内大牛,看看其中是不是很多熟悉的面孔? 1. lifesinger(玉伯) Github主页: https://github.com/lifesinger 微博:@ 玉伯也叫射雕 玉伯(王保平),...

海博1600
12分钟前
0
0
高性能服务器本质论

一 服务器分类 从软件性能角度,高性能服务器分:cpu密集型服务器/IO密集型服务器 (1)CPU密集型:该类服务器没有对io的访问/没有同步点,性能瓶颈在于对cpu的充分利用。 典型的如转发服务器/...

码代码的小司机
13分钟前
0
0
Mybatis收集配置

一、Mybatis取Clob数据 1、Mapper.xml配置 <resultMap type="com.test.User" id="user"> <result column="id" property="id"/> <result column="json_data" property="jsonData" ......

星痕2018
38分钟前
0
0
centos7设置以多用户模式启动

1、旧版本linux系统修改inittab文件,在新版本执行vi /etc/inittab 会有以下提示 # inittab is no longer used when using systemd. # # ADDING CONFIGURATION HERE WILL HAVE NO EFFECT ON......

haha360
今天
0
0
OSChina 周日乱弹 —— 局长:怕你不爱我

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @ andonny :分享周二珂的单曲《孤独她呀》 《孤独她呀》- 周二珂 手机党少年们想听歌,请使劲儿戳(这里) @孤星闵月 :没事干,看一遍红楼梦...

小小编辑
今天
192
9
Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式 Factory工厂模式 Singleton单例模式 Delegate委派模式 Strategy策略模式 Prototype原型模式 Template模板模式 Spring5 beans 接口实例化 代理Bean操作 ...

小致dad
今天
0
0
SpringBoot | 第十章:Swagger2的集成和使用

前言 前一章节介绍了mybatisPlus的集成和简单使用,本章节开始接着上一章节的用户表,进行Swagger2的集成。现在都奉行前后端分离开发和微服务大行其道,分微服务及前后端分离后,前后端开发的...

oKong
今天
11
0
Python 最小二乘法 拟合 二次曲线

Python 二次拟合 随机生成数据,并且加上噪声干扰 构造需要拟合的函数形式,使用最小二乘法进行拟合 输出拟合后的参数 将拟合后的函数与原始数据绘图后进行对比 import numpy as npimport...

阿豪boy
今天
17
0
云拿 无人便利店

附近(上海市-航南路)开了家无人便利店.特意进去体验了一下.下面把自己看到的跟大家分享下. 经得现场工作人员同意后拍了几张照片.从外面看是这样.店门口的指导里强调:不要一次扫码多个人进入....

周翔
昨天
1
0
Java设计模式学习之工厂模式

在Java(或者叫做面向对象语言)的世界中,工厂模式被广泛应用于项目中,也许你并没有听说过,不过也许你已经在使用了。 简单来说,工厂模式的出现源于增加程序序的可扩展性,降低耦合度。之...

路小磊
昨天
254
1

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部