中英文新闻网页关键词抽取技术研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:tokyo55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将提高用户浏览的速度和信息的访问效率。从这点出发,本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状,分析比较了各类关键词抽取算法的基础上,提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD和算法KELCC。大量的随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词抽取算法。综上所述,本文的丰要工作如下:(1)对新闻网页关键词抽取展开研究,从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD实验验证的基础上,将词语相关性引入词语语义相似度分析中,提出了基于词汇链与词共现的新闻网页关键词抽取算法KELCC;(2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中,语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息,在构建词汇链过程中将词语的各个词义纳入到整个语境下考查,通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义;(3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验,本文从文章、词汇链和知识库中提出了大量有效特征,借助选取的特征从候选词集中选择出最终抽取的关键词;(4)引入词语的相关性以解决未包含词语的抽取问题。提出的KEUD算法由于需要判断词语间的语义相似度,而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题,本文在该算法的基础上加入了词共现模型,提出了基于词汇链与词共现的新闻网页关键词抽取算法KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度,提高了对未包含词语的抽取能力。
其他文献
为了能够更好地理解互联网内部的动态行为及其相关因素,建立有效的BitTorrent网络用户行为模型意义重大。BitTorrent网络用户行为模型对于分析和预测网络性能,从而更好地完成
开关磁阻电动机具有结构简单、起动性能好、调速范围宽、运行效率高等特点,由其构成的开关磁阻电动机调速系统具有较强竞争力,在低压和小功率的应用场合,大大优于普通的异步电动机和直流电动机调速系统,目前已引起了国内外学者的普遍关注和深入研究。本课题设计开发了一套7.5KW开关磁阻电动机调速系统。选取TI公司的TMS320F2812型号电机控制专用DSP芯片作为主控制器,进行了系统软硬件的设计、仿真、制作及
当前,多媒体技术正在飞速发展,世界各地每时每刻都在产生新的数字视频。借助于互联网,这些丰富的视频资源在几乎无约束的情况下复制、传播,高效的视频内容管理和版权保护是个
随着软件行业的飞速发展,设计模式已经成为软件工程领域研究的一大热点。设计模式可以用来解决软件设计过程中重复出现的问题,使用设计模式可以有效提供软件的可复用性,可靠性和
近年来,校园“一卡通”逐渐成为校园内信息交互的重要载体,它在身份识别、电子钱包、考勤等方面得到了广泛应用。东华大学教职员工可凭校园“一卡通”刷卡搭乘校区间班车,学
说话人识别是生物认证技术的一种,是根据语音波形中反映的说话人生理和行为特征的语音参数自动鉴别说话人身份的技术,有着广阔的市场应用前景。本文研究的是基于矢量量化方法
随着汽车持有量的不断增加,城市交通系统的负荷日益加重,导致汽车倒车引起的交通事故也越来越多,这些事故常常给驾驶员带来很大的经济损失。因此,研究高性能的辅助泊车装置是
随着互联网技术的改革和发展,网络拥塞问题也随之而来。AQM就是缓解这一问题的关键技术。其中,作为AQM算法中应用最为广泛的RED算法备受关注。但是,大量的研究结果表明,RED算
数控技术的发展是制造业发展的推动力,传统的数控系统通常采用封闭式的系统结构,系统的软硬件不易扩展,兼容性比较差,并且专用系统的技术垄断也阻碍了技术的交流和进步,针对这些问
互联网汇聚了极其丰富的数据资源,促使越来越多的最终用户对网络资源的集成需求,以构建满足个性化需求的增值型互联网情景应用。互联网情景应用是一种新型的互联网信息集成应