文档章节

XPDF3.04抽取PDF中的中文文本

三平行者
 三平行者
发布于 2015/04/03 15:23
字数 376
阅读 329
收藏 9

开发环境:Windows8.0 X64位          eclipse3.2

版本号:xpdfbin-win-3.04      xpdf-chinese-simplified.tar.gz

下载路径:ftp://ftp.foolabs.com/pub/xpdf/

操作步骤:

  1. 下载xpdf和中文字体,分别解压缩。

  2. 建立xpdf根目录 d:\xpdf,

    (1)并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。

    (2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。

  3. 复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并改名为 xpdfrc。

    (1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

    (2)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。 

    (3)在此文件最后增加以下内容,声明中文字体文件

  4. #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
    #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
    #----- end Chinese Simplified support package
  5. 实验代码

     

  6. @Test
    public void xpdfParser(){
    
         try {
            cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
            Runtime.getRuntime().exec(cmd);
        } catch (IOException e) {
            e.printStackTrace();
        }
     }
    以上代码不完整,主要是xpdf路径设置可能会有问题,另外就是中文字库文件路径设置必须正确,否则导出的txt文件没有内容。

    若有不清楚的地方,或者发现问题,可回复我,多谢!

© 著作权归作者所有

共有 人打赏支持
三平行者
粉丝 3
博文 32
码字总数 14655
作品 0
海淀
项目经理
加载中

评论(1)

相当的复杂
你好,我配置了之后中文的PDF一直转换不成功,找不到原因呢。
数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本...

hyfsoft
2014/07/24
0
0
jasperrepor+iReport报表导出PDF支持中文

使用iReport,可以很简单的设计出各种报表。对于各式各样的报表,支持中文是一件很基本的事情。在iReport中,新建的报表默认是不支持中文展示的。如果报表中有中文,比如Static Text的文本为...

漫天的沙
2015/10/23
537
0
PDF表格到Excel格式的转换系统-RainbowPDF2.0

证券公司处理上市公司PDF会计报表的有力工具 高精度将PDF表格到Excel格式的转换系统 解决证券公司统计上市公司的会计报表时,PDF报表的数据输入问题! 目前上市公司的会计报表全部以PDF格式上...

hyfsoft
2014/06/10
0
0
【开源】C#信息抽取系统【招募C#队友】

FDDC2018金融算法挑战赛02-A股上市公司公告信息抽取 更新时间 2018年7月11日 By 带着兔子去旅行 信息抽取是NLP里的一个实用内容。该工具的目标是打造一个泛用的自动信息抽取工具。使得没有任...

codesnippet.info
07/10
0
0
如何用Python抽取中文关键词?

本文一步步为你演示,如何用Python从中文文本中抽取关键词。如果你需要对长文“观其大略”,不妨尝试一下。 image 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里抽...

王树义
2017/12/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Docker Compose 原理

Docker 的优势非常明显,尤其是对于开发者来说,它提供了一种全新的软件发布机制。也就是说使用 docker 镜像作为软件产品的载体,使用 docker 容器提供独立的软件运行上下文环境,使用 dock...

Java干货分享
19分钟前
0
0
解决过滤器中设置cookie无效的问题

解决过滤器中设置cookie无效的问题 代码现场 filterChain.doFilter(sessionSyncRequestWrapper, response);Cookie emailCook = WebServletUtil.getSelectedCookie(request.getCookies(), ......

黄威
30分钟前
0
0
Hbase Schema 设计注意事项及最佳实践总结

一个列族的所有列在硬盘上存放在一起,使用这个特性可以把不同访问模式的列放在不同列族,以便隔离它们。这也是HBase被称为面向列族的存储(column-family-oriented store)的原因。 1、RowKe...

PeakFang-BOK
43分钟前
1
0
t-io给群组成员内置排序

1、实现比较器Comparator<ChannelContext> package xxx;import java.util.Comparator;import java.util.Objects;import java.util.Set;import java.util.TreeSet;import or......

talent-tan
46分钟前
2
0
px、em、rem 区别及作用

原文 起因: 一开始是为了解决页面放大时,字体不跟着放大的 bug。现在多用用于统一规范。 概念: 任意浏览器的默认字体高都是16px。所有未经调整的浏览器都符合: 1em=16px。那么12px=0.75em...

lemos
55分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部