Lucene应用中Pdf文档文本数据提取方法研究

来源 :自动化技术与应用 | 被引量 : 0次 | 上传用户:kiujiabing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于Lucene的搜索已在各种应用系统中已经得到广泛应用,但是Lucene仅仅提供了全文文本搜索的函数库。本文研究了Pdf文档文本数据的提取方法,其优点在于能快速对Pdf文档文本数据进行提取,得到站内Pdf文档文本数据。
其他文献
本文设计的基于GSM水位与降雨量在线监测系统,是通过现有的GSM网络,利用短消息方式,进行单片机和TC35模块开发的远程数据采集;实现了远距离采集数据与GSM无线数据传输技术相
通过正交交互设计试验优化灰树花的液体培养基配方,确定玉米粉和葡萄糖有交互作用,其比例为3:2时为最优搭配。获得灰树花液体培养的最优配方为黄豆粉2%,玉米粉3%,葡萄糖2%,磷酸二氢钾0
“图文并茂,两翼齐飞”的办报理念已为多数新闻从业人员接受,但要将这一理念在版面上体现出来,除了报社运作机制的改革和深化外,一线的编辑(图片编辑)应该在视觉语言的解读、
十八届四中全会审议通过的《中共中央关于全面推进依法治国若干问题的决定》其中“以审判为中心”诉讼改革目标极具时代意义。实现“以审判为中心”就需要提升庭审地位,通过
<正>患者女,32岁,因"突发胸痛、胸闷14 h"于2013年12月30日收入院。体重105 kg,宫内孕33+5,孕2产1。2005年妊娠期高血压,硬膜外麻醉下行剖宫产术,无其他病史。入院查体:患者
汉代出土资料中出现了"××格"的记载,这里的"格"可读为"落",是一种聚落的通称。
<正>抓拍,是获得生动真实新闻图片的主要方法,大凡比较精彩的摄影作品,多数是抓拍的。这就需要摄影记者“沉”下去,从火热的现实生活中捉“活鱼”,抓取具有形象表现力的典型
陕西渭南梁带村两周墓地M26出土一组精美的小件青铜器,尤其是一件高圈足有盖青铜器别具特色。本文认为,此件青铜器具有浓厚的异域文化特色,是以青铜鍑的造型为特征,故应该定
目的:探讨人工肝血浆置换术治疗各类重型肝炎不良反应的护理方法。方法:通过建立血液回路,平均每例病人进行2次,最多4次血浆置换,治疗过程中严密监测生命体征及不良反应,治疗后继续
本文提出了一种基于TMS320F2812的三相交流采样技术,利用TMS320F2812强大的数据处理能力和多通道模/数转换器AD7656的高速度、高精度等特性,开发了交流采样系统的软硬件,并利