Lucene文本分析器的改进

来源 :信息技术 | 被引量 : 0次 | 上传用户：adward006

【摘要】

：

针对Lucene默认只能分析并索引HTML和TXT文档的缺点。通过引入PDFBox和POI等开源工具实现对DOC、XLS、PPT和PDF等文档的文本抽取,然后利用Lucene索引这些提取出来的文本,将文

【作者】

：

吴代文

【机构】

：

渭南师范学院传媒工程系

【出处】

：

信息技术

【发表日期】

：

2011年10期

【关键词】

：

全文检索文本分析抽取封装 full-text retrieval text analyzing extract encapsulation

【基金项目】

：

教育部特色专业建设点项目（TS11772）, 数字媒体艺术专业“技术-艺术”培养体系的研究与实践项目（09BY64）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对Lucene默认只能分析并索引HTML和TXT文档的缺点。通过引入PDFBox和POI等开源工具实现对DOC、XLS、PPT和PDF等文档的文本抽取,然后利用Lucene索引这些提取出来的文本,将文本和文档其它信息添加到Lucene的Document对象。从而使Lucene可以分析并索引DOC、XLS、PPT和PDF等格式的文档,实验结果表明通过改进Lucene文本分析器可以极大提高Lucene检索的通用性。

其他文献

无线网络教室设计的几个关键问题

当前越来越多的高校实施了校园网无线覆盖工程。分析了无线教室建设的意义,介绍了无线教室建设的主要技术,并以某学院软件楼为例介绍了无线教室设计的关键问题及其解决方法。

期刊

无线教室设计WLAN关键问题wireless classroom design WLAN key issues

中药制药过程的职业危害与控制举措

中药的制药工艺主要包括炮制、粉碎、提取中药有效成分、杂质去除和分离、浓缩和干燥等的预处理工艺和配方及其选择,配方设计,辅料选择的用于临床用药的制备工艺。中药制药

期刊

中药制药职业危害控制举措

助产士如何应对产程观察中存在的安全隐患

助产士对于新生儿的健康成长有重要影响,而在实际工作中助产士应该意识到自身的作用,了解新生儿的健康和每一个家庭的幸福息息相关,做好对产程观察中产生安全隐患的应对。

期刊

助产士如何应产程观察安全隐患

公钥密码RSA体制及安全性分析

RSA算法是一种公钥密码算法。RSA是一个基于数论的非对称密码体制,RSA的安全性是依赖于大整数素因子分解的困难性问题。其经历了各种攻击,至今未能被完全攻破。

期刊

公钥密码RSA算法加密解密安全性public key cryptography RSA algorithm encryption decrypt

基于环境可视化的视景仿真

简要介绍了视景仿真技术,对视景仿真系统组成与实现方法进行了分析,结合可视化软件与模型工具完成了三维视景的生成及其与实体模型的集成,对可视化进行了初步研究。

期刊

视景仿真技术可视化集成visual scene simulation visualization integration

一种基于均方差属性加权的K-means算法

在传统的K-means聚类算法基础上提出了一种基于均方差属性加权的MWS-K-means算法。引入特征权重以提高聚类结果的类内相似度（intra-similarities）,从而提高聚类精度。考虑到K-m

期刊

K-MEANS算法属性权重均方差K-means algorithm attribute weighting mean-square-deviation

马自达M6轿车电子防盗系统的检测

介绍了一汽马自达M6轿车电子防盗系统故障的具体检查方法。并同时培出了各种故障的故障代码。

期刊

电子防盗故障检测electronic guard against theft fault test

公共卫生中微生物检验标本不合格的原因及质量控制对策

目的:探究分析丹寨县卫生监督局和丹寨县疾病预防控制中心中微生物检验标本不合格的原因及质量控制对策。方法:将 2017 年全年收到的 200 份微生物检验标本作为临床研究对象

期刊

微生物检验标本合格原因质量控制对策

浅谈向Google Earth发布3D模型的方法

Google Earth软件是目前对3D建模技术支持较好的软件。城市景观3D建模技术在城市规划、突发事件应急等许多领域都有重要的应用。分析了向Google Earth发布3D模型的技术并就其

期刊

GOOGLEEARTH3D模型KMLGoogle Earth 3D model KML

探讨用健脾平胃汤加减方治疗慢性胃炎的效果

目的:探讨采用健脾平胃汤加减方治疗慢性胃炎的临床疗效。方法:将我院门诊部 2017 年 5 月 ~2018 年 12 月间收治的 98 例慢性胃炎患者作为研究对象,将其分为综观察组和对照

期刊

健脾平胃汤加减方慢性胃炎中医

Lucene文本分析器的改进

与本文相关的学术论文