文档章节

XPDF3.04抽取PDF中的中文文本

三平行者
 三平行者
发布于 2015/04/03 15:23
字数 376
阅读 345
收藏 9

开发环境:Windows8.0 X64位          eclipse3.2

版本号:xpdfbin-win-3.04      xpdf-chinese-simplified.tar.gz

下载路径:ftp://ftp.foolabs.com/pub/xpdf/

操作步骤:

  1. 下载xpdf和中文字体,分别解压缩。

  2. 建立xpdf根目录 d:\xpdf,

    (1)并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。

    (2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。

  3. 复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并改名为 xpdfrc。

    (1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

    (2)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。 

    (3)在此文件最后增加以下内容,声明中文字体文件

  4. #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
    #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
    #----- end Chinese Simplified support package
  5. 实验代码

     

  6. @Test
    public void xpdfParser(){
    
         try {
            cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
            Runtime.getRuntime().exec(cmd);
        } catch (IOException e) {
            e.printStackTrace();
        }
     }
    以上代码不完整,主要是xpdf路径设置可能会有问题,另外就是中文字库文件路径设置必须正确,否则导出的txt文件没有内容。

    若有不清楚的地方,或者发现问题,可回复我,多谢!

© 著作权归作者所有

共有 人打赏支持
三平行者
粉丝 3
博文 32
码字总数 14655
作品 0
海淀
项目经理
私信 提问
加载中

评论(1)

相当的复杂
你好,我配置了之后中文的PDF一直转换不成功,找不到原因呢。
jasperrepor+iReport报表导出PDF支持中文

使用iReport,可以很简单的设计出各种报表。对于各式各样的报表,支持中文是一件很基本的事情。在iReport中,新建的报表默认是不支持中文展示的。如果报表中有中文,比如Static Text的文本为...

漫天的沙
2015/10/23
537
0
数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本...

hyfsoft
2014/07/24
0
0
【招聘】NLP文本挖掘工程师招聘-深圳大学传播学院大数据传播实验室

深圳大学大数据传播实验室特招机器学习、数据挖掘工程师,主要负责机器学习、NLP中文文本挖掘。 详细岗位要求如下: 职位:数据挖掘、NLP工程师 地点:深圳南山区-深圳大学传播学院(腾讯滨海...

Senovn
昨天
0
0
【开源】C#信息抽取系统【招募C#队友】

FDDC2018金融算法挑战赛02-A股上市公司公告信息抽取 更新时间 2018年7月11日 By 带着兔子去旅行 信息抽取是NLP里的一个实用内容。该工具的目标是打造一个泛用的自动信息抽取工具。使得没有任...

codesnippet.info
07/10
0
0
PDF表格到Excel格式的转换系统-RainbowPDF2.0

证券公司处理上市公司PDF会计报表的有力工具 高精度将PDF表格到Excel格式的转换系统 解决证券公司统计上市公司的会计报表时,PDF报表的数据输入问题! 目前上市公司的会计报表全部以PDF格式上...

hyfsoft
2014/06/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

传播正能量——《海南英才》阅读的读后感2200字

传播正能量——《海南英才》阅读的读后感2200字: 新华社记者12月8日从公安部获悉,针对自媒体“网络水军”敲诈勒索等违法犯罪活动突出问题,今年以来,公安部组织各地公安机关依法深入开展侦...

原创小博客
14分钟前
1
0
Confluence 6 对一个空间进行归档后产生的影响

空间 如果一个空间被归档: 将不会在查找结果中显示,除非你选择 在归档空间中查找(Search archived spaces)。如果没有归档空间的话,这个功能是隐藏的。 页面和内容将不会在 Confluence 的...

honeymose
16分钟前
2
0
java框架学习日志-2

上篇文章(java框架学习日志-1)虽然跟着写了例子,也理解为什么这么写,但是有个疑问,为什么叫控制反转?控制的是什么?反转又是什么? 控制其实就是控制对象的创建。 反转与正转对应,正转...

白话
今天
4
0
Integer使用双等号比较会发生什么

话不多说,根据以下程序运行,打印的结果为什么不同? Integer a = 100;Integer b = 100;System.out.println(a == b);//print : trueInteger a = 200;Integer b = 200;System.out.pr...

兜兜毛毛
昨天
10
0
CockroachDB

百度云上的CockroachDB 云数据库 帮助文档 > 产品文档 > CockroachDB 云数据库 > 产品描述 开源NewSQL – CockroachDB在百度内部的应用与实践 嘉宾演讲视频及PPT回顾:http://suo.im/5bnORh ...

miaojiangmin
昨天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部