文档章节

XPDF3.04抽取PDF中的中文文本

三平行者
 三平行者
发布于 2015/04/03 15:23
字数 376
阅读 307
收藏 9
点赞 0
评论 1

开发环境:Windows8.0 X64位          eclipse3.2

版本号:xpdfbin-win-3.04      xpdf-chinese-simplified.tar.gz

下载路径:ftp://ftp.foolabs.com/pub/xpdf/

操作步骤:

  1. 下载xpdf和中文字体,分别解压缩。

  2. 建立xpdf根目录 d:\xpdf,

    (1)并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。

    (2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。

  3. 复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并改名为 xpdfrc。

    (1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

    (2)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。 

    (3)在此文件最后增加以下内容,声明中文字体文件

  4. #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
    #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
    #----- end Chinese Simplified support package
  5. 实验代码

     

  6. @Test
    public void xpdfParser(){
    
         try {
            cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
            Runtime.getRuntime().exec(cmd);
        } catch (IOException e) {
            e.printStackTrace();
        }
     }
    以上代码不完整,主要是xpdf路径设置可能会有问题,另外就是中文字库文件路径设置必须正确,否则导出的txt文件没有内容。

    若有不清楚的地方,或者发现问题,可回复我,多谢!

© 著作权归作者所有

共有 人打赏支持
三平行者
粉丝 3
博文 31
码字总数 14655
作品 0
海淀
项目经理
加载中

评论(1)

相当的复杂
你好,我配置了之后中文的PDF一直转换不成功,找不到原因呢。
数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本...

hyfsoft ⋅ 2014/07/24 ⋅ 0

jasperrepor+iReport报表导出PDF支持中文

使用iReport,可以很简单的设计出各种报表。对于各式各样的报表,支持中文是一件很基本的事情。在iReport中,新建的报表默认是不支持中文展示的。如果报表中有中文,比如Static Text的文本为...

漫天的沙 ⋅ 2015/10/23 ⋅ 0

PDF表格到Excel格式的转换系统-RainbowPDF2.0

证券公司处理上市公司PDF会计报表的有力工具 高精度将PDF表格到Excel格式的转换系统 解决证券公司统计上市公司的会计报表时,PDF报表的数据输入问题! 目前上市公司的会计报表全部以PDF格式上...

hyfsoft ⋅ 2014/06/10 ⋅ 0

如何用Python抽取中文关键词?

本文一步步为你演示,如何用Python从中文文本中抽取关键词。如果你需要对长文“观其大略”,不妨尝试一下。 image 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里抽...

王树义 ⋅ 2017/12/07 ⋅ 0

DocBook文档构建工具--ZoeeyDoc

ZoeeyDoc是一个DocBook文档构建工具,支持 single-html、html、chm、pdf 等格式导出,对中文支持良好。 优点 纯文本格式:基于xml,纯文本格式方便版本控制。章节可分为独立的文件和目录进行...

moxie ⋅ 2011/12/17 ⋅ 0

java操作PDF(PDFBOX和Itext框架)

java有很多可以操作pdf的框架,pdfbox和itext就是其中的两种 pdfbox有如下作用 提取文本,包括Unicode字符。 和Jakarta Lucene等文本搜索引擎的整合过程十分简单。 加密/解密PDF文档。 从PDF...

王小明123 ⋅ 2013/07/24 ⋅ 0

解决ubuntu中文乱码问题的方法总结

添加中文字符编码: $sudo vim /var/lib/locales/supported.d/local #添加下面的中文字符集 zh_CN.GBK GBK zh_CN.GB2312 GB2312 zh_CN.GB18030 GB18030 使其生效: $sudo dpkg-reconfigure l......

lillli ⋅ 2013/08/23 ⋅ 0

ABBYY PDF Transformer+转换别的语言文档的方法

ABBYY PDF Transformer+让您可创建或转换希伯来语、意第绪语、日语、中文、泰语、韩语和阿拉伯语的文档。那么如何顺利使用这些复杂语言文字呢?小编教你两步骤轻松快速处理包含以下复杂语言文...

ABBYY ⋅ 2016/11/15 ⋅ 0

simhash算法库--simhash

专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 Cp...

吴延毅 ⋅ 2014/12/13 ⋅ 0

高保真PDF至HTML转换--pdf2htmlEX

pdf2htmlEX可以将PDF转换成HTML,不同于传统类似软件,它可以: 在HTML文件中精确显示原生文本 保持PDF中的字体,颜色,位置 可以选择,复制,搜索 生成的文件大小与解压缩后的PDF文件相当,...

王璐 ⋅ 2012/09/05 ⋅ 12

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Redis 单线程 为何却需要事务处理并发问题

Redis是单线程处理,也就是命令会顺序执行。那么为什么会存在并发问题呢? 个人理解是,虽然redis是单线程,但是可以同时有多个客户端访问,每个客户端会有 一个线程。客户端访问之间存在竞争...

码代码的小司机 ⋅ 50分钟前 ⋅ 0

到底会改名吗?微软GVFS 改名之争

微软去年透露了 Git Virtual File System(GVFS)项目,GVFS 是 Git 版本控制系统的一个开源插件,允许 Git 处理 TB 规模的代码库,比如 270 GB 的 Windows 代码库。该项目公布之初就引发了争...

linux-tao ⋅ 今天 ⋅ 0

笔试题之Java基础部分【简】【二】

1.静态变量和实例变量的区别 在语法定义上的区别:静态变量前要加static关键字,而实例变量前则不加。在程序运行时的区别:实例变量属于某个对象的属性,必须创建了实例对象,其中的实例变...

anlve ⋅ 今天 ⋅ 0

Lombok简单介绍及使用

官网 通过简单注解来精简代码达到消除冗长代码的目的 优点 提高编程效率 使代码更简洁 消除冗长代码 避免修改字段名字时忘记修改方法名 4.idea中安装lombnok pom.xml引入 <dependency> <grou...

to_ln ⋅ 今天 ⋅ 0

【转】JS浮点数运算Bug的解决办法

37.5*5.5=206.08 (JS算出来是这样的一个结果,我四舍五入取两位小数) 我先怀疑是四舍五入的问题,就直接用JS算了一个结果为:206.08499999999998 怎么会这样,两个只有一位小数的数字相乘,怎...

NickSoki ⋅ 今天 ⋅ 0

table eg

user_id user_name full_name 1 zhangsan 张三 2 lisi 李四 `` ™ [========] 2018-06-18 09:42:06 星期一½ gdsgagagagdsgasgagadsgdasgagsa...

qwfys ⋅ 今天 ⋅ 0

一个有趣的Java问题

先来看看源码: public class TestDemo { public static void main(String[] args) { Integer a = 10; Integer b = 20; swap(a, b); System.out......

linxyz ⋅ 今天 ⋅ 0

十五周二次课

十五周二次课 17.1mysql主从介绍 17.2准备工作 17.3配置主 17.4配置从 17.5测试主从同步 17.1mysql主从介绍 MySQL主从介绍 MySQL主从又叫做Replication、AB复制。简单讲就是A和B两台机器做主...

河图再现 ⋅ 今天 ⋅ 0

docker安装snmp rrdtool环境

以Ubuntu16:04作为基础版本 docker pull ubuntu:16.04 启动一个容器 docker run -d -i -t --name flow_mete ubuntu:16.04 bash 进入容器 docker exec -it flow_mete bash cd ~ 安装基本软件 ......

messud4312 ⋅ 今天 ⋅ 0

OSChina 周一乱弹 —— 快别开心了,你还没有女友呢。

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @莱布妮子 :分享吴彤的单曲《好春光》 《好春光》- 吴彤 手机党少年们想听歌,请使劲儿戳(这里) @clouddyy :小萝莉街上乱跑,误把我认错成...

小小编辑 ⋅ 今天 ⋅ 9

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部