文档章节

XPDF3.04抽取PDF中的中文文本

三平行者
 三平行者
发布于 2015/04/03 15:23
字数 376
阅读 317
收藏 9

开发环境:Windows8.0 X64位          eclipse3.2

版本号:xpdfbin-win-3.04      xpdf-chinese-simplified.tar.gz

下载路径:ftp://ftp.foolabs.com/pub/xpdf/

操作步骤:

  1. 下载xpdf和中文字体,分别解压缩。

  2. 建立xpdf根目录 d:\xpdf,

    (1)并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。

    (2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。

  3. 复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并改名为 xpdfrc。

    (1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

    (2)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。 

    (3)在此文件最后增加以下内容,声明中文字体文件

  4. #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
    #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
    #----- end Chinese Simplified support package
  5. 实验代码

     

  6. @Test
    public void xpdfParser(){
    
         try {
            cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
            Runtime.getRuntime().exec(cmd);
        } catch (IOException e) {
            e.printStackTrace();
        }
     }
    以上代码不完整,主要是xpdf路径设置可能会有问题,另外就是中文字库文件路径设置必须正确,否则导出的txt文件没有内容。

    若有不清楚的地方,或者发现问题,可回复我,多谢!

© 著作权归作者所有

共有 人打赏支持
三平行者
粉丝 3
博文 32
码字总数 14655
作品 0
海淀
项目经理
加载中

评论(1)

相当的复杂
你好,我配置了之后中文的PDF一直转换不成功,找不到原因呢。
数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本...

hyfsoft
2014/07/24
0
0
PDF表格到Excel格式的转换系统-RainbowPDF2.0

证券公司处理上市公司PDF会计报表的有力工具 高精度将PDF表格到Excel格式的转换系统 解决证券公司统计上市公司的会计报表时,PDF报表的数据输入问题! 目前上市公司的会计报表全部以PDF格式上...

hyfsoft
2014/06/10
0
0
jasperrepor+iReport报表导出PDF支持中文

使用iReport,可以很简单的设计出各种报表。对于各式各样的报表,支持中文是一件很基本的事情。在iReport中,新建的报表默认是不支持中文展示的。如果报表中有中文,比如Static Text的文本为...

漫天的沙
2015/10/23
537
0
【开源】C#信息抽取系统【招募C#队友】

FDDC2018金融算法挑战赛02-A股上市公司公告信息抽取 更新时间 2018年7月11日 By 带着兔子去旅行 信息抽取是NLP里的一个实用内容。该工具的目标是打造一个泛用的自动信息抽取工具。使得没有任...

codesnippet.info
07/10
0
0
如何用Python抽取中文关键词?

本文一步步为你演示,如何用Python从中文文本中抽取关键词。如果你需要对长文“观其大略”,不妨尝试一下。 image 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里抽...

王树义
2017/12/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

移除或自定义 WordPress 仪表盘欢迎面板

第一次登录 WordPress 后台仪表盘页面,默认都会显示 WordPress 的欢迎面板: 如果我们要移除这个面板,在主题的 functions.php 中添加下面的代码即可: 12 //移除 WordPress 仪表盘欢迎面...

james_laughing
25分钟前
0
0
HashMap实现原理及源码分析

HashMap实现原理及源码分析   哈希表(hash table)也叫散列表,是一种非常重要的数据结构,应用场景及其丰富,许多缓存技术(比如memcached)的核心其实就是在内存中维护一张大的哈希表,...

DemonsI
28分钟前
0
0
eggjs学习笔记

快速初始化 生成项目(要求最低的node版本8.x) npm i egg-init -gegg-init egg-example --type=simplecd egg-examplenpm i 启动项目 npm run dev 配置 环境配置会覆盖默认配置 config...

别人说我名字很长
31分钟前
1
0
Winform Timer控件时间间隔

sender as System.Timers.Timer).Interval = 23 * 60 * 60 * 1000.0;//将时间间隔改为23小时,23小时后重新发生timer_Elapsed事件。 //60000:时间间隔1分钟,300000:时间间隔5分钟,600000:...

笑丶笑
32分钟前
0
0
在win10系统下怎样快速切换任务视图

切换窗口:Alt + Tab 任务视图:Win + Tab (松开键盘界面不会消失) 切换任务视图:Win + Ctrl +左/右 创建新的虚拟桌面:Win + Ctrl + D 关闭当前虚拟桌面:Win + Ctrl + F4...

SummerGao
36分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部