非结构化数据处理技术的应用和研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:cheng1129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文索引技术是一项用来检索存储在计算机系统中的文本信息的技术。利用全文索引技术,可以极大的提高从海量的信息中检索所需要的信息的效率。全文索引技术在过去十几年中发展迅猛。到目前为止,不仅出现了很多优秀的商用的互联网搜索引擎,而且还当有很多成熟的开源或不开源的全文索引工具包免费供我们使用。其中最著名的要数Apache的Lucene和Microsoft的Indexing Service。微软Indexing Service是Windows NT平台上的提供的一项基础服务。索引服务能够从保存在计算机硬盘上的文件中抽取内容,然后建立索引结构从而加快查询的效率和速度。通过自定义的Filter,索引服务可以处理任何文件而不管其具体的格式。在本篇论文中,我们将利用Windows索引服务搭建一个分布式的局域网信息检索系统。该系统主要由三部分组成,分别为Server主机程序、索引服务管理程序和本地索引服务查询程序。Server主机程序主要的功能是对用户屏蔽局域网中的多个索引主机。从用户的角度来看,整个局域网的待索引数据都放在Server主机上。索引服务管理程序主要负责待索引数据的添加和删除。本地索引服务查询程序主要负责本地索引服务的查询。整个系统要能够快速的响应用户的查询请求,给用户较好的查询体验。另外,系统还有一定的容错能力,能够处理一些常见的异常。Lucene是一个功能强大的由Java实现的搜索工具包。使用Lucene可以很方便的为应用添加搜索功能。最近几年,Lucene变得越来越流行了。Lucene的易用性和强大的功能使其成为网站站内搜索和个人电脑桌面搜索工具的首选搜索内核。在本篇论文中,我们将利用Lucene实现一个简单的文本归类程序。该文本归类程序利用Lucene能够存储文本向量的功能,将每个训练文档转化成文档向量。然后使用基于空间向量模型的文本分类方法将文档归类。通过这个程序可以了解和学习到文本分类的基本方法。
其他文献
移动通信网络的发展和数据应用业务的迅速增长,对移动网络的吞吐量及频谱利用率提出了更高的要求,这使得以正交频分多址(Orthogonal Frequency Division Multiple Access, OF
地层电阻率原始数据可由多种方式获得,其中的阵列侧向测井技术由双侧向测井技术发展而来。作为聚焦测井技术中的一种,阵列侧向测井技术能显著降低冲洗带、上下围岩等因素对视
目的:构建人3型腺病毒载体嵌入登革热病毒抗原表位的重组腺病毒,为人3型腺病毒衣壳嵌合载体的应用及登革热病毒疫苗的研究奠定基础。  方法:人3型腺病毒骨架质粒pBRAd△E3GF
生境条件与干扰程度构成的生境异质性,是植物生活史型形成的主要外因;而植物体内的能量在生活史不同性状间分配的权衡关系,形成了生活史型的多样性。抗坏血酸、谷胱甘肽作为
图像宽基线立体匹配就是在由相同或者不同摄像机在不同投影系数,不同视角下采集图像中对三维空间中同一点进行对应。图像间的宽基线立体匹配是计算机视觉,图像模式识别领域的
当前无线通信正朝着高速率高带宽方向发展,以3GPP为代表的国际组织正积极推动4G的标准化,其中协作多点传输技术(CoMP)以其提高小区边缘吞吐量、扩大小区覆盖范围的优势被纳入
摘要:口算训练要联系生活,激发学生的兴趣;口算训练要有计划、有步骤、常抓不懈;口算训练要加强直观操作,让学生理解算理; 口算训练要运用迁移,掌握方法;口算训练要变化练习形式;严格训练,养成良好的学习习惯 ;七、口算训练要通过竞赛激励,建立科学的评价体系。  关键词:兴趣;算理;方法;习惯;常抓不懈  引题:为什么要提出这个问题?  本人是一名从教17年的农村教师,有十几年的数学教学经验。从自己的教