文档章节

jsoup解析出现非常规乱码后处理方法

RealMatrix
 RealMatrix
发布于 2015/11/26 14:31
字数 271
阅读 245
收藏 0
碰到怪问题jsoup解析在ECLIPSE调试环境正常,放到TOMCAT上独立跑时JSOUP解析出现怪字符,后来发现是byte 63,用replaceall无法解决,后写了下面这个函数处理,问题虽解决但为何会出现乱码尚不清楚。 UTF-8是3个字节 GBK是2个字节 常用中文字符用utf-8编码占用3个字节(大约2万多字),但超大字符集中的更大多数汉字要占4个字节(在unicode编码体系中,U+20000开始有5万多汉字)。 GBK、GB2312收编的汉字占2个字节,严格地用iso8859-1无法表示汉字,只能转为问号。 public String reStringByte(String tmpsStr,int reInt) { byte[] tmp=tmpsStr.getBytes(); int p=0; for (int i = 0; i < tmp.length; i++) { if (tmp[i]!=reInt){ p=p+1; } } byte[] stmp=new byte[p]; p=0; for (int i = 0; i < tmp.length; i++) { if (tmp[i]!=63){ stmp[p]=tmp[i]; p=p+1; } } try { log.info("字节差:"+(tmp.length-stmp.length)); } catch (Exception e) { } return new String(stmp); }

© 著作权归作者所有

共有 人打赏支持
RealMatrix
粉丝 17
博文 18
码字总数 10452
作品 0
深圳
架构师
私信 提问
Java 多线程爬虫框架 - AiPa

一款小巧、灵活的Java多线程爬虫框架(AiPa) 1.框架简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架。 AiPa 依赖当下最简单的HTML解析器Jsoup。 AiPa 只需要使用者提供网址集合,即可...

像风一样i
2018/09/29
0
0
Python 网页解析之Beautifulsoup

以前都是用Jsoup 做网页解析,最近用Django+Python 设计实现一套信息采集系统,解析器选择了和jsoup 相近的 beautifulsoup 用下来两个解析器除了名字相近 都支持 css selecter 解决问题思路完...

HZCoder
2016/04/27
66
0
如何解决利用Jsoup解析网页偶然出现问号乱码的问题?

利用Jsoup解析网页文章,有时获取结果中部分文章的标题会出现问号乱码(???)的问题,试过指定编码解析,还是不能解决? 事实上用替换“\\?”的方式,替换不了 在eclipse环境下不会有问题,独立...

-秋风五丈原-
2015/11/24
409
4
使用HttpClient和Jsoup快捷抓取和分析页面

最近在写一个小爬虫,准备爬一部分网页数据,来做模型训练,在考虑如何抓取网页及分析网页时,参考了OSC站中一些项目,特别是@黄亿华写的《webmagic的设计机制及原理-如何开发一个Java爬虫》...

仪山湖
2013/09/03
13K
1
SeimiCrawler v1.3.4 发布,Java 爬虫框架

SeimiCrawler v1.3.4 已发布,变更记录 v1.3.4 修复分布式队列DefaultRedisQueue中json反序列化useSeimiAgent永远为false的bug @Dreamerdream v1.3.3 修复异常次数超过最大重试次数后,无法进...

无极小子
2017/08/10
541
1

没有更多内容

加载失败,请刷新页面

加载更多

第11章 多线程

程序、进程、线程 程序(program)是为完成特定任务、用某种语言编写的一组指令的集合。即指一段静态的代码,静态对象。 **进程(process)**是程序的一次执行过程或是正在运行的一个程序。动...

流小文
9分钟前
0
0
SpringBoot引入第三方jar包或本地jar包的处理方式

在开发过程中有时会用到maven仓库里没有的jar包或者本地的jar包,这时没办法通过pom直接引入,那么该怎么解决呢 一般有两种方法 - 第一种是将本地jar包安装在本地maven库 - 第二种是将本地j...

独钓渔
今天
2
0
五、MyBatis缓存

一、MyBatis缓存介绍 缓存的使用可以明显的加快访问数据速度,提升程序处理性能,生活和工作中,使用缓存的地方很多。在开发过程中,从前端-->后端-->数据库等都涉及到缓存。MyBatis作为数据...

yangjianzhou
今天
2
0
最近研究如何加速UI界面开发,有点感觉了

最近在开发JFinal学院的JBolt开发平台,后端没啥说的,做各种极简使用的封装,开发者上手直接使用。 JBolt开发平台包含常用的用户、角色、权限、字典、全局配置、缓存、增删改查完整模块、电...

山东-小木
今天
3
0
《月亮与六便士》的读后感作文3000字

《月亮与六便士》的读后感作文3000字: 看完英国作家威廉.萨默塞特.毛姆所著《月亮与六便士》(李继宏译),第一疑问就是全书即没提到“月亮”,也没提到“六便士”。那这书名又与内容有什么...

原创小博客
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部