文档章节

利用POI实现Word和 Html互转(可以实现在线预览)

微尘鉴
 微尘鉴
发布于 2016/02/01 12:44
字数 460
阅读 19769
收藏 16

利用POIWord转换为Html,以便在浏览器上预览

package com.vito.demo.test;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.util.List;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.apache.commons.io.FileUtils;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.converter.PicturesManager;
import org.apache.poi.hwpf.converter.WordToHtmlConverter;
import org.apache.poi.hwpf.usermodel.Picture;
import org.apache.poi.hwpf.usermodel.PictureType;
import org.w3c.dom.Document;
public class PoiWordToHtml {
 public static void main(String[] args) throws Throwable {
  final String path = "G:\\doc\\";
  final String file = "客户需求文档.doc";
  InputStream input = new FileInputStream(path + file);
  HWPFDocument wordDocument = new HWPFDocument(input);
  WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
    DocumentBuilderFactory.newInstance().newDocumentBuilder()
      .newDocument());
  wordToHtmlConverter.setPicturesManager(new PicturesManager() {
   public String savePicture(byte[] content, PictureType pictureType,
     String suggestedName, float widthInches, float heightInches) {
    return suggestedName;
   }
  });
  wordToHtmlConverter.processDocument(wordDocument);
  List pics = wordDocument.getPicturesTable().getAllPictures();
  if (pics != null) {
   for (int i = 0; i < pics.size(); i++) {
    Picture pic = (Picture) pics.get(i);
    try {
     pic.writeImageContent(new FileOutputStream(path
       + pic.suggestFullFileName()));
    } catch (FileNotFoundException e) {
     e.printStackTrace();
    }
   }
  }
  Document htmlDocument = wordToHtmlConverter.getDocument();
  ByteArrayOutputStream outStream = new ByteArrayOutputStream();
  DOMSource domSource = new DOMSource(htmlDocument);
  StreamResult streamResult = new StreamResult(outStream);
  TransformerFactory tf = TransformerFactory.newInstance();
  Transformer serializer = tf.newTransformer();
  serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
  serializer.setOutputProperty(OutputKeys.INDENT, "yes");
  serializer.setOutputProperty(OutputKeys.METHOD, "html");
  serializer.transform(domSource, streamResult);
  outStream.close();
  String content = new String(outStream.toByteArray());
  FileUtils.write(new File(path, "1.html"), content, "utf-8");
 }
}

 相关参考链接:

 JSP实现word文档的上传,在线预览,下载

 Java+FlexPaper+swfTools仿文库文档在线阅读

 

Html文本写入到Word文件

 public void htmlToWord2() throws Exception {
         InputStream bodyIs = new FileInputStream("f:\\1.html");
         InputStream cssIs = new FileInputStream("f:\\1.css");
         String body = this.getContent(bodyIs);
         String css = this.getContent(cssIs);
         //拼一个标准的HTML格式文档
         String content = "<html><head><style>" + css + "</style></head><body>" + body + "</body></html>";
         InputStream is = new ByteArrayInputStream(content.getBytes("GBK"));
         OutputStream os = new FileOutputStream("f:\\1.doc");
         this.inputStreamToWord(is, os);
      }
      
      /**
       * 把is写入到对应的word输出流os中
       * 不考虑异常的捕获,直接抛出
       * @param is
       * @param os
       * @throws IOException
       */
      private void inputStreamToWord(InputStream is, OutputStream os) throws IOException {
         POIFSFileSystem fs = new POIFSFileSystem();
         //对应于org.apache.poi.hdf.extractor.WordDocument
         fs.createDocument(is, "WordDocument");
         fs.writeFilesystem(os);
         os.close();
         is.close();
      }
      
      /**
       * 把输入流里面的内容以UTF-8编码当文本取出。
       * 不考虑异常,直接抛出
       * @param ises
       * @return
       * @throws IOException
       */
      private String getContent(InputStream... ises) throws IOException {
         if (ises != null) {
            StringBuilder result = new StringBuilder();
            BufferedReader br;
            String line;
            for (InputStream is : ises) {
               br = new BufferedReader(new InputStreamReader(is, "UTF-8"));
               while ((line=br.readLine()) != null) {
                   result.append(line);
               }
            }
            return result.toString();
         }
         return null;
      }

 

本文转载自:

共有 人打赏支持
微尘鉴
粉丝 8
博文 80
码字总数 30075
作品 0
海淀
高级程序员
私信 提问
加载中

评论(1)

唐里
唐里
你这个遇到过,用Office2016打开有html标签的问题吗?
java如何完美解析office,word,excel等文件

大家好, 最新公司项目要实现在线预览word,excel等功能,类似163邮箱的附件预览功能,找了很长时间也就是 POI 解析,但是都是解析为txt 纯文本的信息,有没有谁做过完美解析为html格式的,可...

山哥
2010/10/13
23.1K
25
office转html文档在线预览

要想实现office文档在线预览,可以使用红樱枫软件公司开发的数据格式转换软件HTML Filter,实现MS Office系列文档到HTML的快速转换,通过浏览器浏览HTML的内容。该产品可以将 word转html, exc...

hyfsoft
2014/06/13
0
0
Word、Excel、PPT、PDF在线预览,类似百度文库的实现方法?

Word、Excel、PPT、PDF在线预览的实现方法有什么,我暂时知道可以用flash和html实现预览 最好不要用flash预览,希望能用html5。 暂时我查到的技术有: flash预览有:flexpaper(支持Word、E...

槽卤
2015/09/02
4K
7
百度文库技术实现

百度文库上传word之后,预览是html的,百度文库是怎么实现把word比较完美的转换成html的呢,试过POI,ASPOSE.words、openoffice等工具效果都不是很理想...

ycssh
2017/04/20
192
1
在软件开发中利用反射机制来减少包依赖

MD2File 是我以前写的一个开源软件,主要功能是“将markdown语法的文档内容,导出为word,pdf,HTML等的文件;也支持markdown转HTML文本”。 其中,导出为word文档,需要依赖POI,导出pdf需要...

英强
2016/06/26
135
0

没有更多内容

加载失败,请刷新页面

加载更多

myeclipse 启动到10分之一左右就挂了

删掉 {workspace}/.metadata/.plugins/org.eclipse.e4.workbench/workbench.xmi

夜醒者
9分钟前
0
0
Hive on Spark 伪分布式环境搭建过程记录

进入hive cli是,会有如下提示: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) ......

PeakFang-BOK
16分钟前
0
0
用户输入和while 循环

# 用户输入和while循环# 7.1函数input() 的工作原理# 函数input() 让程序暂停运行,等待用户输入一些文本。获取用户输入后,Python将其存储在一个变量中,以方便你使用。message = inp...

吕湘颖
16分钟前
0
0
开发函数计算的正确姿势 —— 排查超时问题

写不尽的 code,查不完的 bug 通常我们写 bug,哦,不对,写代码时总不会一帆风顺,往往各种 bug 充斥其中,即使测试有较高的代码覆盖率往往也会有漏网之鱼。能写出一些比较隐蔽或者看起来像...

阿里云云栖社区
21分钟前
1
0
Python3新特性

一、类型注解 例子: def add(x:int, y:int) -> int: return x + y 解释: 类型`的形式指定函数的**参数类型**,用`-> 类型`的形式指定函数的**返回值类型 然后特别要强调的是,Pyt...

_Change_
35分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部