最近客户要做一个word,excel 文件在线预览功能,以下是实现此功能的全过程。
由于我们用的是PHP开发项目,最开始想到的是用PHPoffice里的phpword来进行转换,以下是关键代码。
1 | php复制代码<?php |
用这种方法转是可以转,但是转出来的html文件相对原文件,丢失了很多字,如果说样式和原文不一样还可以忍受,但是内容丢失,就不太好了,而且对DOC格式又无法处理,所以这种方法,我最终选择了放弃。
然后,我就想用python来解决这个问题,查到了python有个pydocx库可以处理word文档,于是我就安装了一下。
1 | 复制代码pip install pydocx |
这个库用起来也很简单,主要代码如下:
1 | ini复制代码from pydocx import PyDocX |
转换效果也还可以,除了表格样式和原文有点不一样以外,内容倒是没丢失,但是有一个问题,这个库是转换docx的,对doc转换不了,我们客户还上传挺多doc格式的文件的,于是我只好另外想办法。
查资料发现java有个poi库可以用来对word文件进行转换, Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。我想试一下,查资料半天,就开始写了,先Maven引入依赖:
1 | xml复制代码 <dependencies> |
以下是引用别人的可用代码:
1 | ini复制代码import cn.hutool.core.img.ImgUtil; |
用java 倒是转换doc格式转的挺好的,但是转换docx格式的时候,样式全乱了,我查了半天POI的文档,网上也没有哪位大佬来解决这个样式乱的问题,于是我想用python来转docx ,java来转doc,但是又觉得太麻烦。
在查了半天资料以后,我最终的解决办法如下。
还是回到了用php处理,但是不是用phpoffice来处理,而是用unocov进行转换,先装libreoffice
1 | 复制代码yum install libreoffice |
然后装unocov
1 | 复制代码yum install unoconv |
用以下命令就可以转换了
1 | css复制代码unoconv -f html -o test.html test.doc |
-f是输出格式,-o是输出文件 最后面是输入文件,具体用法可以查相关文档,我在php里执行外部命令,生成转换好的文件以后再重定向到生成的文件上面去,由于excel 转html报错,所以我针对excel 转成了pdf.
1 | bash复制代码 if (file_exists($source)) { |
最后,总算是把doc,docx 还有excel文件,wps文件都能预览出来,样式还是有点变化,内容没有丢失,客户也还算是能接受,以上是我解决这个问题的心得,希望能帮到大家。
本文转载自: 掘金