Python3 爬虫(一)-----爬取网页源代码
Python3 爬虫(一)-----爬取网页源代码
禅心情 发表于1年前
Python3 爬虫(一)-----爬取网页源代码
  • 发表于 1年前
  • 阅读 59
  • 收藏 2
  • 点赞 2
  • 评论 0

腾讯云 十分钟定制你的第一个小程序>>>   

摘要: Python3 爬虫数据分析笔记(一)-----爬取网页

参考博客:http://blog.csdn.net/mr_tank_/article/details/14102159 刚刚学了正则表达式,就用Python玩了玩

由于Python3 和Python2 有着区别,urllib2库和urllib库合并,同时一般正则表达式爬取的为英文对象,参考一博客,对爬取的内容进行转码以解析中文:

#encoding:UTF-8 import urllib.request def getdata(): htmlresponse=urllib.request.urlopen("http://www.baidu.com") data=htmlresponse.read() zdata=data.decode('UTF-8')

print(data)

print('\n')

print('***********************************************')
print(zdata)
print('***********************************************')

getdata()

运行结果为:


百度一下,你就知道
共有 人打赏支持
粉丝 0
博文 5
码字总数 1036
×
禅心情
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: