文档章节

利用POI实现Word和 Html互转(可以实现在线预览)

微尘鉴
 微尘鉴
发布于 2016/02/01 12:44
字数 460
阅读 17892
收藏 16
点赞 1
评论 1

利用POIWord转换为Html,以便在浏览器上预览

package com.vito.demo.test;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.util.List;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.apache.commons.io.FileUtils;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.converter.PicturesManager;
import org.apache.poi.hwpf.converter.WordToHtmlConverter;
import org.apache.poi.hwpf.usermodel.Picture;
import org.apache.poi.hwpf.usermodel.PictureType;
import org.w3c.dom.Document;
public class PoiWordToHtml {
 public static void main(String[] args) throws Throwable {
  final String path = "G:\\doc\\";
  final String file = "客户需求文档.doc";
  InputStream input = new FileInputStream(path + file);
  HWPFDocument wordDocument = new HWPFDocument(input);
  WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
    DocumentBuilderFactory.newInstance().newDocumentBuilder()
      .newDocument());
  wordToHtmlConverter.setPicturesManager(new PicturesManager() {
   public String savePicture(byte[] content, PictureType pictureType,
     String suggestedName, float widthInches, float heightInches) {
    return suggestedName;
   }
  });
  wordToHtmlConverter.processDocument(wordDocument);
  List pics = wordDocument.getPicturesTable().getAllPictures();
  if (pics != null) {
   for (int i = 0; i < pics.size(); i++) {
    Picture pic = (Picture) pics.get(i);
    try {
     pic.writeImageContent(new FileOutputStream(path
       + pic.suggestFullFileName()));
    } catch (FileNotFoundException e) {
     e.printStackTrace();
    }
   }
  }
  Document htmlDocument = wordToHtmlConverter.getDocument();
  ByteArrayOutputStream outStream = new ByteArrayOutputStream();
  DOMSource domSource = new DOMSource(htmlDocument);
  StreamResult streamResult = new StreamResult(outStream);
  TransformerFactory tf = TransformerFactory.newInstance();
  Transformer serializer = tf.newTransformer();
  serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
  serializer.setOutputProperty(OutputKeys.INDENT, "yes");
  serializer.setOutputProperty(OutputKeys.METHOD, "html");
  serializer.transform(domSource, streamResult);
  outStream.close();
  String content = new String(outStream.toByteArray());
  FileUtils.write(new File(path, "1.html"), content, "utf-8");
 }
}

 相关参考链接:

 JSP实现word文档的上传,在线预览,下载

 Java+FlexPaper+swfTools仿文库文档在线阅读

 

Html文本写入到Word文件

 public void htmlToWord2() throws Exception {
         InputStream bodyIs = new FileInputStream("f:\\1.html");
         InputStream cssIs = new FileInputStream("f:\\1.css");
         String body = this.getContent(bodyIs);
         String css = this.getContent(cssIs);
         //拼一个标准的HTML格式文档
         String content = "<html><head><style>" + css + "</style></head><body>" + body + "</body></html>";
         InputStream is = new ByteArrayInputStream(content.getBytes("GBK"));
         OutputStream os = new FileOutputStream("f:\\1.doc");
         this.inputStreamToWord(is, os);
      }
      
      /**
       * 把is写入到对应的word输出流os中
       * 不考虑异常的捕获,直接抛出
       * @param is
       * @param os
       * @throws IOException
       */
      private void inputStreamToWord(InputStream is, OutputStream os) throws IOException {
         POIFSFileSystem fs = new POIFSFileSystem();
         //对应于org.apache.poi.hdf.extractor.WordDocument
         fs.createDocument(is, "WordDocument");
         fs.writeFilesystem(os);
         os.close();
         is.close();
      }
      
      /**
       * 把输入流里面的内容以UTF-8编码当文本取出。
       * 不考虑异常,直接抛出
       * @param ises
       * @return
       * @throws IOException
       */
      private String getContent(InputStream... ises) throws IOException {
         if (ises != null) {
            StringBuilder result = new StringBuilder();
            BufferedReader br;
            String line;
            for (InputStream is : ises) {
               br = new BufferedReader(new InputStreamReader(is, "UTF-8"));
               while ((line=br.readLine()) != null) {
                   result.append(line);
               }
            }
            return result.toString();
         }
         return null;
      }

 

本文转载自:

共有 人打赏支持
微尘鉴
粉丝 9
博文 64
码字总数 30075
作品 0
海淀
高级程序员
加载中

评论(1)

唐里
唐里
你这个遇到过,用Office2016打开有html标签的问题吗?
java如何完美解析office,word,excel等文件

大家好, 最新公司项目要实现在线预览word,excel等功能,类似163邮箱的附件预览功能,找了很长时间也就是 POI 解析,但是都是解析为txt 纯文本的信息,有没有谁做过完美解析为html格式的,可...

山哥 ⋅ 2010/10/13 ⋅ 25

office转html文档在线预览

要想实现office文档在线预览,可以使用红樱枫软件公司开发的数据格式转换软件HTML Filter,实现MS Office系列文档到HTML的快速转换,通过浏览器浏览HTML的内容。该产品可以将 word转html, exc...

hyfsoft ⋅ 2014/06/13 ⋅ 0

Word、Excel、PPT、PDF在线预览,类似百度文库的实现方法?

Word、Excel、PPT、PDF在线预览的实现方法有什么,我暂时知道可以用flash和html实现预览 最好不要用flash预览,希望能用html5。 暂时我查到的技术有: flash预览有:flexpaper(支持Word、E...

槽卤 ⋅ 2015/09/02 ⋅ 7

在软件开发中利用反射机制来减少包依赖

MD2File 是我以前写的一个开源软件,主要功能是“将markdown语法的文档内容,导出为word,pdf,HTML等的文件;也支持markdown转HTML文本”。 其中,导出为word文档,需要依赖POI,导出pdf需要...

英强 ⋅ 2016/06/26 ⋅ 0

使用MD2File导出word文档

为什么会有MD2File这个开源工具? 万事皆有因果,所以这东西也不是闲的蛋疼才搞出来的。当初是有个需求,把文本内容导出到word。粗略一想,好像不难。估计网上大把大把的资料。 找了一圈,发...

英强 ⋅ 2015/04/28 ⋅ 0

java如何实现各种文档上传后转成html在线显示

最近在做一个类似与百度文库的网站,需要上传pdf,word,excel等文档,然后转成可在线看的网页,请问大概是使用什么方法转的,或者说网上有没有类似的源码,请懂的朋友指点一下,感激不尽(目...

月生无界 ⋅ 2017/09/20 ⋅ 7

Markdown 转其他格式--MD2File

MD2File可以干嘛? 能将markdown语法的文档内容,导出为word,pdf,HTML等的文件。 之所以使用markdown,是因为markdown比较好解析,而且md文本的内容会比较规范。另外,html转md也是比较好处...

英强 ⋅ 2015/06/24 ⋅ 1

使用swftools 将 pdf 转 swf 问题

项目需要在线预览word等格式的文件,于是在网上找了实现类似百度文库的东东,利用FlexPaper + jodconverter + openoffice + swftools 实现的。估计大家都熟悉,我就直接说问题了。在开发环境...

shizy ⋅ 2012/09/24 ⋅ 2

常用开源项目的地址荟萃

常用开源项目的地址荟萃 Lomboz http://www.objectlearn.com/index.jsp (J2EE plugin for Eclipse) htmlArea http://sourceforge.net/projects/itools-htmlarea/ (所见即所得的在线HTML编辑器......

老朱教授 ⋅ 2017/10/23 ⋅ 0

有没有将word转换为flash的好方法

最近的项目中用到了word文档的在线预览功能,类似于百度文库那种。word文档是通过程序自动生成的, 现在的思路是想把word通过java 程序转换成flah 文件,这个貌似类似于flshpaper 这样的工具...

浪漫的菜鸟 ⋅ 2012/12/12 ⋅ 6

没有更多内容

加载失败,请刷新页面

加载更多

下一页

MySQL 数据库设计总结

规则1:一般情况可以选择MyISAM存储引擎,如果需要事务支持必须使用InnoDB存储引擎。 注意:MyISAM存储引擎 B-tree索引有一个很大的限制:参与一个索引的所有字段的长度之和不能超过1000字节...

OSC_cnhwTY ⋅ 56分钟前 ⋅ 0

多线程(四)

线程池和Exector框架 什么是线程池? 降低资源的消耗 提高响应速度,任务:T1创建线程时间,T2任务执行时间,T3线程销毁时间,线程池没有或者减少T1和T3 提高线程的可管理性。 线程池要做些什...

这很耳东先生 ⋅ 今天 ⋅ 0

使用SpringMVC的@Validated注解验证

1、SpringMVC验证@Validated的使用 第一步:编写国际化消息资源文件 编写国际化消息资源ValidatedMessage.properties文件主要是用来显示错误的消息定制 [java] view plain copy edit.userna...

瑟青豆 ⋅ 今天 ⋅ 0

19.压缩工具gzip bzip2 xz

6月22日任务 6.1 压缩打包介绍 6.2 gzip压缩工具 6.3 bzip2压缩工具 6.4 xz压缩工具 6.1 压缩打包介绍: linux中常见的一些压缩文件 .zip .gz .bz2 .xz .tar .gz .tar .bz2 .tar.xz 建立一些文...

王鑫linux ⋅ 今天 ⋅ 0

6. Shell 函数 和 定向输出

Shell 常用函数 简洁:目前没怎么在Shell 脚本中使用过函数,哈哈,不过,以后可能会用。就像java8的函数式编程,以后获取会用吧,行吧,那咱们简单的看一下具体的使用 Shell函数格式 linux ...

AHUSKY ⋅ 今天 ⋅ 0

单片机软件定时器

之前写了一个软件定时器,发现不够优化,和友好,现在重写了 soft_timer.h #ifndef _SOFT_TIMER_H_#define _SOFT_TIMER_H_#include "sys.h"typedef void (*timer_callback_function)(vo...

猎人嘻嘻哈哈的 ⋅ 今天 ⋅ 0

好的资料搜说引擎

鸠摩搜书 简介:鸠摩搜书是一个电子书搜索引擎。它汇集了多个网盘和电子书平台的资源,真所谓大而全。而且它还支持筛选txt,pdf,mobi,epub、azw3格式文件。还显示来自不同网站的资源。对了,...

乔三爷 ⋅ 今天 ⋅ 0

Debian下安装PostgreSQL的表分区插件pg_pathman

先安装基础的编译环境 apt-get install build-essential libssl1.0-dev libkrb5-dev 将pg的bin目录加入环境变量,主要是要使用 pg_config export PATH=$PATH:/usr/lib/postgresql/10/bin 进......

玛雅牛 ⋅ 今天 ⋅ 0

inno安装

#define MyAppName "HoldChipEngin" #define MyAppVersion "1.0" #define MyAppPublisher "Hold Chip, Inc." #define MyAppURL "http://www.holdchip.com/" #define MyAppExeName "HoldChipE......

backtrackx ⋅ 今天 ⋅ 0

Linux(CentOS)下配置php运行环境及nginx解析php

【part1:搭建php环境】 1.选在自己需要安装的安装包版本,wget命令下载到服务器响应目录 http://php.net/releases/ 2.解压安装包 tar zxf php-x.x.x 3.cd到解压目录执行如下操作 cd ../php-...

硅谷课堂 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部