在一个搜索引擎的使用中需要将各种文件转化为文本信息,创建相关的索引,然后检索。本文将excel2003和excel2007中内容转换为文本信息。
代码如下:
package com.easyway.excel.extact;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.ss.extractor.ExcelExtractor;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.extractor.XSSFExcelExtractor;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
/**
*
* 在以前开发相关luence的搜索时候需要将各种文件转换为文本类型,
* 获取内容,将内容创建相关的索引,在检索时候,查询相关的索引。
* 起到高效快捷的方式,本文讲解excel2003和excel2007内容信息的抽取方式。
*
*
* @Title:
* @Description: 实现针对excel2003和excel 2007 的内容抽取方式 简单快捷
* @Copyright:Copyright (c) 2011
* @Company:易程科技股份有限公司
* @Date:2012-6-14
* @author longgangbai
* @version 1.0
*/
public class ExcelTextExtractor {
public static void main(String[] args) {
String filename="c:\\station2station.xlsx";
InputStream inp;
boolean isExcel2003=false;
try {
//创建相关的文件流对象
inp = new FileInputStream(filename);
//声明相关的工作薄对象
Workbook wb =null;
//声明相关的excel抽取对象
ExcelExtractor extractor=null;
if(isExcel2003)//针对2003版本
{
//创建excel2003的文件文本抽取对象
wb=new HSSFWorkbook(new POIFSFileSystem(inp));
extractor =new org.apache.poi.hssf.extractor.ExcelExtractor((HSSFWorkbook)wb);
}else{ //针对2007版本
wb = new XSSFWorkbook(inp);
//创建excel2007的文件文本抽取对象
extractor =new XSSFExcelExtractor((XSSFWorkbook)wb);
}
extractor.setFormulasNotResults(false);
//是否抽象sheet页的名称
extractor.setIncludeSheetNames(true);
//是否抽取cell的注释内容
extractor.setIncludeCellComments(true);
//获取相关的抽取文本信息
String text = extractor.getText();
//
System.out.println("抽取文本的内容如下 ="+text);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
分享到:
相关推荐
poi-src-3.8-beta5-20111217.tar.gz
内部包括poi-3.8-20120326.jar、poi-ooxml-3.8-20120326.jar、poi-ooxml-schemas-3.8-20120326.jar 测试可用版本,有些下载的不能用
excl上传 poi-ooxml-schemas-3.8,poi-3.8,poi-ooxml jar包合集
poi-3.8-beta3-20110606,poi-examples-3.8-beta3-20110606
POI最新版 3.8-beta4-20110826 可以实现解析word excel ppt等
java中读取word文档需要引用apache的poi开源项目...为方便下载提供6个jar包,其中包含:poi-3.8.jar;poi-ooxml-3.8.jar;poi-ooxml-schemas-3.8.jar;poi-scratchpad-3.8.jar;xmlbeans-2.3.0.jar;dom4j-1.6.1.jar。
poi-3.8-20120326-6个jar包: poi-3.8-20120326.jar poi-examples-3.8-20120326.jar poi-excelant-3.8-20120326.jar poi-ooxml-3.8-20120326.jar poi-ooxml-schemas-3.8-20120326.jar poi-scratchpad-3.8-20120326....
用户poi开发,将excel中的数据导入到数据库中所用的jar包。poi-3.8-20120326.jar 和 poi-excelant-3.8-20120326.jar
poi3.8jar包一套+poi-pdf1.0和poi-core1.0两个jar包,网上搜索的代码就是需要这些jar包才能不借助第三方工具word转PDF
poi-3.8.jar poi-examples-3.8.jar poi-ooxml-3.8.jar poi-ooxml-schemas-3.8.jar poi-scratchpad-3.8.jar
导入excel需要的\poi-ooxml-schemas-3.8-20120326.jar
POI-HSSF和POI-XSSF和SXSSF(自POI 3.8 beta3起)-用于访问Microsoft Excel格式文件
poi-3.8-final-jdk1.4-20120520-rc1.jar
包含读取excel的五个jar包:xmlbeans-2.3.0.jar、poi-ooxml-schemas-3.8.jar、poi-ooxml-3.8.jar、poi-3.8.jar、dom4j-1.6.1.jar
03 版 excel poi-3.8-beta5-20111217.jar 07 版 excel poi-ooxml-3.8-20120326.jar poi-ooxml-schemas-3.8-20120326.jar xbean.jar
导入excel需要的poi-ooxml-3.8-20120326.jar
poi 3.8 beta4相关包 包含poi-3.8-beta4.jar、poi-ooxml-3.8-beta4.jar、poi-ooxml-schemas-3.8-beta4.jar、poi-scratchpad-3.8-beta4.jar
poi-3.8-3.9-3.10,用于excel导出和导入的jar必备包。
POI是apache基金会下的免费的Java开源项目,也是笔者所知道的最好的通过Java语言操作MS word,excel等程序的类库。
此jar 为 poi 3.8的sources,请看清下载。 如只需要jar,请搜索 poi-3.8.jar