Excel工具-SXSSFWorkbook 研究与低内存占用

今天项目中有个需要 Excel 导出的需求。看了下同事用了 SXSSFWorkbook 。之前没怎么用到这个组件。既然这次用了就简单分析一下。
POI提供了HSSF、XSSF以及SXSSF三种方式操作Excel。他们的区别如下:

1
2
3
复制代码HSSF:是操作Excel97-2003版本,扩展名为.xls。
XSSF:是操作Excel2007版本开始,扩展名为.xlsx。
SXSSF:是在XSSF基础上,POI3.8版本开始提供的一种支持低内存占用的操作方式,扩展名为.xlsx。

本文的重点就是分析一下,SXSSF如何支持低内存占用的。
先说结论:
SXSSF 指定了rowAccessWindowSize ,每个sheet 对应一个临时文件,当行数大于rowAccessWindowSize 时,就会向临时文件中flush, 这样就保证了内存的低占用率。当行创建完,直接从临时文件中写入到Excel中。
有一点需要注意:
像单元格合并类似的操作是纯内存操作,如果项目中想一次合并多行时,要注意随时观察自己机器内容的使用情况,避免出现OOM。

1 来个demo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
复制代码        // 内存中保持100条数据, 超出的部分刷新到磁盘上
SXSSFWorkbook wb = new SXSSFWorkbook(100);

Sheet sh = wb.createSheet();
for(int rownum = 0; rownum < 1000; rownum++){
Row row = sh.createRow(rownum);
for(int cellnum = 0; cellnum < 10; cellnum++){
// 创建行,在这儿根据当前行数跟rowAccessWindowSize 比较,来决定从内存写入文件中。
Cell cell = row.createCell(cellnum);
String address = new CellReference(cell).formatAsString();
cell.setCellValue(address);
}

}

// rownum < 900 的数据被刷新到磁盘,不能被随机访问
for(int rownum = 0; rownum < 900; rownum++){
Assert.assertNull(sh.getRow(rownum));
}

// 最后的100条数据仍然在内存中,可以随机访问
for(int rownum = 900; rownum < 1000; rownum++){
Assert.assertNotNull(sh.getRow(rownum));
}
// 从临时文件写入Excel 文件
FileOutputStream out = new FileOutputStream("d:\\sxssf.xlsx");
wb.write(out);
out.close();

// 从磁盘上释放临时文件
wb.dispose();

2 主要分析点

2.1 创建SXSSFWorkbook

如demo所示, SXSSFWorkbook wb = new SXSSFWorkbook(100); 中指定了rowAccessWindowSize 为100 ,也就是说
会在内存中缓存 rowAccessWindowSize 行数据。当行数超过 rowAccessWindowSize ,则会从内存输入到临时文件中。

临时文件的生成在 2.2 创建Sheet部分 讲一下。超过阈值刷入临时文件在2.3 创建row 部分讲解。

2.2 创建Sheet

如demo所示,Sheet sh = wb.createSheet(); 创建了Sheet. 那么创建过程中,主要的功能是创建了一个临时文件。每个sheet 一个临时文件。废话不多说,我们来看下createSheet的实现。

1
2
3
复制代码public SXSSFSheet createSheet() {
return this.createAndRegisterSXSSFSheet(this._wb.createSheet());
}

createAndRegisterSXSSFSheet 中最核心的就是 sxSheet = new SXSSFSheet(this, xSheet);。那我们来看下这个函数:

1
2
3
4
5
6
7
复制代码public SXSSFSheet(SXSSFWorkbook workbook, XSSFSheet xSheet) throws IOException {
this._workbook = workbook;
this._sh = xSheet;
this._writer = workbook.createSheetDataWriter(); // 这儿创建了临时文件。
this.setRandomAccessWindowSize(this._workbook.getRandomAccessWindowSize());
this._autoSizeColumnTracker = new AutoSizeColumnTracker(this);
}

createSheetDataWriter 中核心的逻辑是 SheetDataWriter。看到createTempFile ,这儿就创建了临时文件。

1
2
3
4
5
复制代码public SheetDataWriter() throws IOException {
this._numberLastFlushedRow = -1;
this._fd = this.createTempFile();
this._out = this.createWriter(this._fd);
}

关于临时文件:

前缀:poi-sxssf-sheet 后缀:.xml
存储路径:代码如下

1
2
3
4
5
6
7
8
9
10
11
12
复制代码private void createPOIFilesDirectory() throws IOException {
if (this.dir == null) {
String tmpDir = System.getProperty("java.io.tmpdir");
if (tmpDir == null) {
throw new IOException("Systems temporary directory not defined - set the -Djava.io.tmpdir jvm property!");
}

this.dir = new File(tmpDir, "poifiles");
}

this.createTempDirectory(this.dir);
}

2.3 创建row

什么时间从内存写入文件?就是在创建row时。那我们看下代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
复制代码public SXSSFRow createRow(int rownum) {
int maxrow = SpreadsheetVersion.EXCEL2007.getLastRowIndex();
if (rownum >= 0 && rownum <= maxrow) {
if (rownum <= this._writer.getLastFlushedRow()) {
throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._writer.getLastFlushedRow() + "] that is already written to disk.");
} else if (this._sh.getPhysicalNumberOfRows() > 0 && rownum <= this._sh.getLastRowNum()) {
throw new IllegalArgumentException("Attempting to write a row[" + rownum + "] in the range [0," + this._sh.getLastRowNum() + "] that is already written to disk.");
} else {
SXSSFRow newRow = new SXSSFRow(this);
this._rows.put(rownum, newRow);
this.allFlushed = false;
// 这儿进行了判断,如果当前行数大于randomAccessWindowSize ,则flushRows
if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize) {
try {
this.flushRows(this._randomAccessWindowSize);
} catch (IOException var5) {
throw new RuntimeException(var5);
}
}

return newRow;
}
} else {
throw new IllegalArgumentException("Invalid row number (" + rownum + ") outside allowable range (0.." + maxrow + ")");
}
}

判断逻辑就在这儿if (this._randomAccessWindowSize >= 0 && this._rows.size() > this._randomAccessWindowSize)

下面几部分跟低内存占用没有关系了,只是分析一下在项目中实际用的几个步骤。

2.4 从临时文件写入最终Excel

写入Excel 主要是在workbook.write(out)。看下代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
复制代码public void write(OutputStream stream) throws IOException {
this.flushSheets(); // 把最后不足randomAccessWindowSize 的行数 写入sheet临时文件。
File tmplFile = TempFile.createTempFile("poi-sxssf-template", ".xlsx"); // 创建了一个tmplFile临时文件,不是sheet的临时文件哈

boolean deleted;
try {
FileOutputStream os = new FileOutputStream(tmplFile);
Throwable var5 = null;

try {
// 这儿将workbook 中所有的数据都写入刚刚创建的tmplFile临时文件中。
this._wb.write(os);
}
...
ZipSecureFile zf = new ZipSecureFile(tmplFile);
var5 = null;

try {
ZipFileZipEntrySource source = new ZipFileZipEntrySource(zf);
Throwable var7 = null;

try {
// 将tmplFile 临时文件写入到目标Excel中。
this.injectData(source, stream);
}
...
} finally {
// 删除tmplFile临时文件。 注意不是sheet的临时文件哈。
deleted = tmplFile.delete();
}

if (!deleted) {
throw new IOException("Could not delete temporary file after processing: " + tmplFile);
}
}

基本逻辑很简洁:

(1)将内存中剩余不足randomAccessSize 数目的数据,先写入sheet 临时文件。

(2)将workbook 中所有的数据(就是多个sheet临时文件)写入一个 刚刚创建的tmpl临时文件

(3)将tmpl临时文件 的数据写入目标文件即可。

2.5 删除临时文件

workbook.dispose(); 这儿的逻辑。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
复制代码public boolean dispose() {
boolean success = true;
Iterator var2 = this._sxFromXHash.keySet().iterator();
// 逐个遍历多个sheet
while(var2.hasNext()) {
SXSSFSheet sheet = (SXSSFSheet)var2.next();

try {
// 这儿的核心是dispose.
success = sheet.dispose() && success;
} catch (IOException var5) {
logger.log(5, new Object[]{var5});
success = false;
}
}

return success;
}

基本的逻辑是,遍历多个sheet, 然后对每个sheet执行dispose . dispose 的逻辑就是如果还没文件没有从sheet中输出,则先flush,然后删除sheet临时文件。

2.6 关于合并单元格的操作

单元格合并的用法:

1
2
复制代码  CellRangeAddress region0 = new CellRangeAddress(rowNum, rowNum+1, column, column);
sheet.addMergedRegion(region0);

这儿就是根据 rowNum 跟column进行合并而已。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
复制代码private int addMergedRegion(CellRangeAddress region, boolean validate) {
if (region.getNumberOfCells() < 2) {
throw new IllegalArgumentException("Merged region " + region.formatAsString() + " must contain 2 or more cells");
} else {
region.validate(SpreadsheetVersion.EXCEL2007);
if (validate) {
this.validateArrayFormulas(region);
this.validateMergedRegions(region);
}

CTMergeCells ctMergeCells = this.worksheet.isSetMergeCells() ? this.worksheet.getMergeCells() : this.worksheet.addNewMergeCells();
CTMergeCell ctMergeCell = ctMergeCells.addNewMergeCell();
ctMergeCell.setRef(region.formatAsString());
return ctMergeCells.sizeOfMergeCellArray();
}
}

3 总结

本文结合项目中用到的Excel 工具- SXSSFWorkbook ,进行了简单讲解。并针对SXSSFWorkbook 低内存占用部分进行了分析。希望对你有所帮助~
本文同步发布在简书 www.jianshu.com/p/18046332b…

4 参考文献

HSSF、XSSF和SXSSF区别以及Excel导出优化
www.cnblogs.com/pcheng/p/74…

基于流的EXCEL文件导出,SXSSFWorkbook源码解析
www.jianshu.com/p/b80a20b81…

#5 其他

(1)读取excel 数字时,默认会带一个 “.0” ,怎么解决?
my.oschina.net/henglaixuex…

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

0%