中文关键词抽取技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:schoolnowl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文进行了以下工作:第一、为了使抽取出的关键词能覆盖文章的要点,本文首先进行文章子主题信息提取工作,在比较了各种方法之后,本文将TextTiling算法应用到隐式章节划分中.考虑到算法中参数的值是人为设定的,可能会影响到切分质量.本文利用遗传算法对TextTiling算法中参数进行训练,最后得到一组适合中文文本的参数,提高了文章子主题划分的精度.第二、本文利用粗集理论在知识约简方面的优势,将其应用到关键词抽取中,利用粗集技术从人工标注的大规模非结构化的自然语言文本中自动获取词组组成规则,使候选关键词短语更加合理;第三、本文将相似度计算引入到系统中,对于第一种情况,只保留比较重要的一个短语,然后利用相似度计算,去掉和它的相似度超过一定阈值的短语;对于第二种情况,计算词语之间的相似度,合并相似度超过一定阈值的短语的频率,提高它们的权重,使之可以进入关键词集合.
其他文献
传统的信息过滤技术仅仅根据用户兴趣做信息过滤和推荐,难以满足用户的要求。本文提出了一种基于本体论的信息过滤方法。把过滤用户分成两类:没有经验的过滤用户和有经验的过
近年来,由于计算机网络通信技术的迅速发展,集中式数据库已不能满足处理异地数据的需要,由此产生了分布式数据库。经过多年的研究与发展,分布式数据库己成为数据库的主流技术之一
星载高度计、散射计是两种重要的有源微波遥感器,其地面系统级测试和定标,则是设备研制过程中必不可少的环节。海面回波模拟器是地面检验星载高度计、散射计性能的关键设备,
网络处理器是针对网络处理而优化设计的专用指令集处理器。其底层硬件体系结构经过特殊的设计能够以线速率处理和传输网络数据包。但程序员为了编写有效的网络处理程序必须熟
  由Eckhorn神经元模型得到的脉冲耦合神经网络模型(PCNN)是直接观察猫的视觉皮层神经细胞并模拟其活动而得到的人工神经网络模型。此算法在图像分割领域中,已经显示出了其
聚类分析是数据挖掘的重要研究课题,它是数据挖掘研究的重要内容、手段和工具,因而成为一个被不断探索并充满创新的研究主题。离群知识发现是近年来倍受数据挖掘研究者关注的一
随着网络技术的飞速发展和下一代网络概念的提出,越来越多的人希望通过IP 网络进行包括话音、视频、数据在内的多媒体通信。SIP(会话初始化协议)就是在这种背景下由IETF提出
本文对GregoryM.Nielson2004年提出的Dual-MC表面重建算法进行了探讨,提出了一种Dual-MC算法的改进方法,使得为构建Dual-of-the-Dual表面所需生成的面片数减少到原来的5%。
云计算平台大多基于虚拟机技术,在云计算平台上运行的应用程序性能又相当部分取决于平台虚拟机之间的I/O性能。因此,高性能网络连接,如10G以太网,已经开始部署在云计算平台中。而
本文研究了内容分发网络中代理服务器的选择放置问题,希望通过将内容分发到最适合的边缘代理服务器上,来更好地调整内容分发网络结构,降低用户访问延迟.本文将网络拓扑上的多