论文部分内容阅读
探讨了本地数据的全文检索需求,提出了一个方便用户快速准确检索本地数据的解决方案.将本地数据按照文档格式分成text文档、html文档、pdf文档和office文档等四类.对于非纯文本格式的文档:调用htmlParser的核心词法分析器对html文档进行了四级封装,识别html文档中的标签;通过pdfBox提供的特殊对象LucenePDFDocument,将pdfBox和Lucene全文搜索引擎整合;利用POI的各个功能组件解析并提取office文档的标题、主题、摘要、关键词、访问和修改打印的日期时间以及正