面向本地数据的插件式全文索引工具软件研究与开发

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户：qdchengr

【摘要】

：

探讨了本地数据的全文检索需求,提出了一个方便用户快速准确检索本地数据的解决方案.将本地数据按照文档格式分成text文档、html文档、pdf文档和office文档等四类.对于非纯文

【作者】

：

许琦

【机构】

：

台州职业技术学院台州机电研究所,台州职业技术学院台州中小企业信息化应用技术研究所

【出处】

：

计算机与数字工程

【发表日期】

：

2014年8期

【关键词】

：

全文索引数据解析插件式 LUCENE full text indexing data parsing Plug-in Lucene

【基金项目】

：

浙江省哲学社会科学规划课题“基于专利引证网络的知识基因提取方法探索”（编号：13NDJC19YBM）,浙江省软科学研究计划项目“技术标准下提升企业自主创新能力——基于专利池的组建与管理”（编号：2013C35064）,台州市哲学社会科学规划课题“技术标准下面向自主创新的专利池构建与管理研究”（编号：12GHB02）,台州市高校重点学科“机械制造及其自动化”（编号：台教高[2010]28号）,浙江省

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

探讨了本地数据的全文检索需求,提出了一个方便用户快速准确检索本地数据的解决方案.将本地数据按照文档格式分成text文档、html文档、pdf文档和office文档等四类.对于非纯文本格式的文档：调用htmlParser的核心词法分析器对html文档进行了四级封装,识别html文档中的标签;通过pdfBox提供的特殊对象LucenePDFDocument,将pdfBox和Lucene全文搜索引擎整合;利用POI的各个功能组件解析并提取office文档的标题、主题、摘要、关键词、访问和修改打印的日期时间以及正

其他文献

基于欧氏距离变换的肺实质修补

在胸部CT图像的肺实质提取过程中,往往存在诸如过分割等问题,因此有必要对分割出的肺实质图像进行修补,论文提出了一种基于欧氏距离变换的肺实质修补算法。该算法是在初提取肺实质之后,利用欧氏距离变换将肺部边缘的血管和肺结节恢复,从而得到包含病灶区域在内的完整的肺实质。采用该算法对45个病人的胸部CT图像中缺失的肺实质进行了修补,结果显示该算法的正确率达90%以上,证明了该方法的可靠性和有效性。

期刊

肺实质肺结节欧氏距离变换胸部CTKey Words lung parenchyma pulmonary nodules connected regi

欠发达地区的新农村建设要选准突破口

新农村建设的重点和难点在欠发达地区。选择恰当的突破口是欠发达地区建设新农村的关键。突破口的选择,既要发挥政府的主导作用,又要符合农民利益。选择恰当的突破口必须坚持

期刊

新农村建设欠发达地区选准突破口

马克思恩格斯关于文化本质和功能的思想

马克思恩格斯关于文化本质和功能的思想，为深入进行文化研究提供了科学的历史观和方法论。作为知识和生活观念形态，文化具有对社会信息进行复制和交流的功能，对社会和人的活动进

期刊

文化本质功能

面向本地数据的插件式全文索引工具软件研究与开发

其他学术论文