文档章节

使用pdfdom将pdf转为html

go4it
 go4it
发布于 2017/07/21 15:01
字数 132
阅读 106
收藏 2
点赞 0
评论 0

pdfbox自带的转换html的方法效果不是太好,pdfdom是基于pdfbox的,在此之上加强了转换html的能力。

maven

		<dependency>
			<groupId>net.sf.cssbox</groupId>
			<artifactId>pdf2dom</artifactId>
			<version>1.6</version>
		</dependency>

		<dependency>
			<groupId>org.apache.pdfbox</groupId>
			<artifactId>pdfbox</artifactId>
			<version>2.0.4</version>
		</dependency>

		<dependency>
			<groupId>org.apache.pdfbox</groupId>
			<artifactId>pdfbox-tools</artifactId>
			<version>2.0.4</version>
		</dependency>

使用

public void generateHTMLFromPDF(String filename) throws IOException, ParserConfigurationException {
        PDDocument pdf = PDDocument.load(new File(filename));
        Writer output = new PrintWriter("pdf.html", "utf-8");
        new PDFDomTree().writeText(pdf, output);
        output.close();
}

或者

public void convertPdf2Html(File input,Writer out) throws IOException, ParserConfigurationException {
        PDDocument pdf = PDDocument.load(input);
        PDFDomTree tree = new PDFDomTree();
        tree.writeText(pdf,out);
}

doc

© 著作权归作者所有

共有 人打赏支持
go4it
粉丝 50
博文 670
码字总数 467155
作品 0
深圳
C# 文档转换—Excel 转PDF/IMAGE/HTML/TXT/XML/XPS/CSV/ODS等

在日常工作中可能会遇到将某文件转换为其他格式的文件的情况,在本篇文章中将介绍如何用控件Free Spire.XLS for.NET(社区版)将Excel文档转为PDF、IMAGE、HTML、TXT、XML、XPS、CSV、ODS、S...

E_iceblue
03/16
0
0
请问有谁做过将pdf转为html格式的功能

我最近在做将pdf转为html,并且在网页上显示内容,但是我之前用xpdf转的时候出现乱码,我今天又用pdf2htmlEX将pdf转为html,但是出错了,请问有谁做过这样的功能呢,急需!!!急急急!!!...

逝去的52139
2015/10/21
1K
1
pdf2htmlEX怎样提高图片清晰度

使用pdf2htmlEx将pdf转为html,怎样设置才能提高转换完后的html里面图片的清晰度

Robin3D
2014/03/11
959
2
Word、Excel、PPT、PDF在线预览,类似百度文库的实现方法?

Word、Excel、PPT、PDF在线预览的实现方法有什么,我暂时知道可以用flash和html实现预览 最好不要用flash预览,希望能用html5。 暂时我查到的技术有: flash预览有:flexpaper(支持Word、E...

槽卤
2015/09/02
3.1K
7
doc文档转pdf文档和pdf文档、doc文档等转为swf文档开发解决方案

1 业务背景描述: 需求:网站需要用户可以在页面浏览课程讲义、bbs论坛的资料。讲义文件是pdf文件。bbs论坛资料一般是pdf文件或者doc文档等 2 实现思路: 将doc文档等转为pdf文档, 将pdf文档...

deepler
2014/01/15
0
2
android pdf文档生成

目前项目有个需求,需要在Android端生成pdf或者word文档,先说下我的探索历程吧: ①itext,Android端有中文乱码问题和awt包找不到类的问题,用itextasiant去解决会报类过时的错误; ②pdfbo...

枯鱼之泣
2015/12/15
779
0
TCPDF微软雅黑字体

TCPDF是可以实现将html转为pdf格式的php插件,使用例子在https://tcpdf.org/examples/;但微软雅黑字体需要自己添加: 在命令窗口(windows下为dos窗口)切换到tcpdf目录的tools目录,msyh....

hjun169
2017/09/18
0
0
wkhtmtopdf--高分辨率转HTML成PDF(一)

一、需求 这次工作中遇到一个需求,要求把网页转换为PDF,穷极了很多的方法,包括尝试了itextsharp来转换,虽然可以实现,但是分辨率和效率并不理想;偶然间看到网友的一篇关于wkhtmtopdf的用...

王瓒
2014/02/07
0
1
PHP生成PDF文件类库大全[开源]

虽然 PHP 有附 PDFlib ,不过使用起来实在有点复杂。 (PHP 说明文件中的范例) FPDF 虽然现在已经停止更新了,但 FPDF 可谓是元老级的 PDF 链接库,短短的几行程序就可以产生出 PDF 档案。最可...

mickelfeng
2013/08/29
0
1
使用wkhtmltopdf把html转成pdf,怎么生成书签或目录

通过wkhtmltopdf可以很好的把html页面转为pdf,但是对于有很多页面的pdf,读起来不方便,怎么能生成目录(可以点击跳转的)或者生成书签。

the5fire
2011/11/11
3.9K
7

没有更多内容

加载失败,请刷新页面

加载更多

下一页

实现异步有哪些方法

有哪些方法可以实现异步呢? 方式一:java 线程池 示例: @Test public final void test_ThreadPool() throws InterruptedException { ScheduledThreadPoolExecutor scheduledThre......

黄威
今天
0
0
linux服务器修改mtu值优化cpu

一、jumbo frames 相关 1、什么是jumbo frames Jumbo frames 是指比标准Ethernet Frames长的frame,即比1518/1522 bit大的frames,Jumbo frame的大小是每个设备厂商规定的,不属于IEEE标准;...

六库科技
今天
0
0
牛客网刷题

1. 二维数组中的查找(难度:易) 题目描述 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入...

大不了敲一辈子代码
今天
0
0
linux系统的任务计划、服务管理

linux任务计划cron 在linux下,有时候要在我们不在的时候执行一项命令,或启动一个脚本,可以使用任务计划cron功能。 任务计划要用crontab命令完成 选项: -u 指定某个用户,不加-u表示当前用...

黄昏残影
昨天
0
0
设计模式:单例模式

单例模式的定义是确保某个类在任何情况下都只有一个实例,并且需要提供一个全局的访问点供调用者访问该实例的一种模式。 实现以上模式基于以下必须遵守的两点: 1.构造方法私有化 2.提供一个...

人觉非常君
昨天
0
0
《Linux Perf Master》Edition 0.4 发布

在线阅读:https://riboseyim.gitbook.io/perf 在线阅读:https://www.gitbook.com/book/riboseyim/linux-perf-master/details 百度网盘【pdf、mobi、ePub】:https://pan.baidu.com/s/1C20T......

RiboseYim
昨天
1
0
conda 换源

https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channels https://mir......

阿豪boy
昨天
1
0
Confluence 6 安装补丁类文件

Atlassian 支持或者 Atlassian 缺陷修复小组可能针对有一些关键问题会提供补丁来解决这些问题,但是这些问题还没有放到下一个更新版本中。这些问题将会使用 Class 类文件同时在官方 Jira bug...

honeymose
昨天
0
0
非常实用的IDEA插件之总结

1、Alibaba Java Coding Guidelines 经过247天的持续研发,阿里巴巴于10月14日在杭州云栖大会上,正式发布众所期待的《阿里巴巴Java开发规约》扫描插件!该插件由阿里巴巴P3C项目组研发。P3C...

Gibbons
昨天
1
0
Tomcat介绍,安装jdk,安装tomcat,配置Tomcat监听80端口

Tomcat介绍 Tomcat是Apache软件基金会(Apache Software Foundation)的Jakarta项目中的一个核心项目,由Apache、Sun和其他一些公司及个人共同开发而成。 java程序写的网站用tomcat+jdk来运行...

TaoXu
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部