文档章节

curl带cookies采集

史帝文
 史帝文
发布于 2017/02/28 09:56
字数 265
阅读 51
收藏 0

今天接到一个任务,需要采集https://www.dianping.com 大众点评站。使用php curl时发现存在2个问题。

1,curl 针对https的设置。这个好解决。 curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);

2,后面采集时,发现还是被dianping.com转到别的链接上去了。经过分析和排查发现这个是带cookeis访问的。见图

3,使用php的curl存放dianping.com站的cookies失败。采用linux环境内的 curl -c cookie.txt https://www.dianping.com/search/category/207/10 直接得到cookies.txt。比php内的简单见cookies.txt内容

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This file was generated by libcurl! Edit at your own risk.

.dianping.com   TRUE    /       FALSE   0       PHOENIX_ID      0a0102fe-15a825c9312-1834aca
.dianping.com   TRUE    /       FALSE   1551317789      s_ViewType      10
www.dianping.com        FALSE   /       FALSE   0       JSESSIONID      D5829965CE0CE4E539181967FE7FB063
.dianping.com   TRUE    /       FALSE   1519781789      aburl   1

4,直接在php内加上cookies文件,去采集了。成功了。见截图及代码

<?php
$url = 'https://www.dianping.com/search/category/207/10#breadCrumb';
   
$curl = curl_init();    
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)");
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_COOKIEFILE, "cook.txt");
curl_setopt($curl, CURLOPT_URL, $url);  
curl_setopt($curl, CURLOPT_TIMEOUT, 60); 
$contents = curl_exec($curl);
var_dump($contents);
curl_close( $curl ); 
?>

© 著作权归作者所有

共有 人打赏支持
史帝文
粉丝 6
博文 56
码字总数 22088
作品 0
武汉
后端工程师
cURL、file_get_contents、snoopy.class.php 优缺点

curl()、filegetcontents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,他们功能相当,到底有什么优缺点呢,下面逐一介绍: snoopy.class.php snoopy 是用 fsockopen 自开发的...

Junn
2013/07/29
0
0
求助!天猫的商品详情页怎么都采集不到内容,之前还好好的~~~

天猫的商品详情页(http://detail.tmall.com/item.htm?id=45028136433)两周前还能用snoopy采集到内容,但最近应该又修改了什么,curl(cookies也试了)、snoopy、fopen、filegetcontents都试过...

shuyaode
2015/07/12
2.5K
8
snoopy(强大的PHP采集类) 实例应用

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。 下载地址: http://sourceforge.net/project/showfiles.php?groupid=2091 Snoopy的一些特点: 1抓取网页的内容 fetc...

疯狂的流浪
2010/12/10
0
0
Linux curl命令参数详解

一、Linux curl用法举例: 1. linux curl抓取网页: 抓取百度: curl http://www.baidu.com 如发现乱码,可以使用iconv转码: curl http://iframe.ip138.com/ic.asp|iconv -fgb2312 iconv的用...

大糊涂
2015/07/03
0
0
PHP curl采集防盗链网站乱码问题求助

在采集一个视频资讯网站时发现其用了防盗链和爬虫、禁用cookies会报错,完全模拟采集后全是乱码。 用fillder抓包设置no compression 之后就可以看到正常的HTML代码了,不知道这是社么原理,如...

wsy5344
2015/05/02
1K
5

没有更多内容

加载失败,请刷新页面

加载更多

一次由HandlerInterceptor进行的深入思考

HandlerInterceptor 是SpringFramework为我们提供的拦截器,一般我们可以用来鉴权或者日志记录等。 它是一个interface,主要方法有: /** * Intercept the execution of a handler. Called...

kipeng300
30分钟前
1
0
cmd中查询mysql表出现中文乱码

问题:在pycharm中正常的fetchall拉取数据,能够正常显示,而在cmd中直接select却出现中文乱码。 解决思路:右键查看cmd命令窗口属性得到,cmd窗口默认编码是gbk(如下图所示),而设置的mys...

fang_faye
56分钟前
2
0
centOS 安装Python3与python2并存

centOS 安装Python3与python2并存 如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的python2环境, 比如yum!!!!! 不要动现有的python2环...

MedivhXu
今天
2
0
Spring JdbcTemplate模板模式与回调结合分析

在看Spring的JdbcTemplate的时候,看到其将模板模式和回调模式结合使用的实现,可以精妙的解决很多的问题。详见Spring中涉及的设计模式总结中的关于模板模式和回调模式结合的具分析,本文利用...

宸明
今天
1
0
docker update:更新一个或多个容器的配置

更新容器的配置 docker update:更新一个或多个容器的配置。 具体内容请访问:https://docs.docker.com/engine/reference/commandline/update/#options 语法:docker update [OPTIONS] CONTA...

lwenhao
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部