Python3.x中beautifulsoup的使用注意事项

原创
2014/10/28 19:12
阅读数 327

beautifulsoup的官方中文文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html


1.从urlopen中读取url,然后传入beautifulsoup,beautifulsoup默认网页编码格式是UTF-8,如果是GBK之类的会显示

WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.

就是说beautifulsoup看不懂这个网页,也无法解析网页。

比如http://www.sina.com.cn/ 使用的就是gb2312(为什么就不能用UTF啊,浪费我时间!!)

fg=urllib.request.urlopen('http://www.sina.com.cn/')
beautifulsoup(fg)

就显示上面的WARNING

如果把新浪改成百度就可以正常使用,至于如何读取新浪,戳这里


2.改变beautifulsoup的默认编码

c.BeautifulSoup(page, from_encoding='gb2312')

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部