基于标题与正文的文本分类和评价对象抽取方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ZQF1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,互联网信息呈现爆炸式的增长,通过观察网民提交的文本发现,大多数网站特别是新闻和政府的网站,文本信息都具有结构化的特点,通常包含标题文本和正文文本。正文通常是对事件详细的描述,包含的语义信息比较丰富,同时具有主题多样性,噪声巨大。标题通常是对事件的精炼简洁的概述,表达信息准确,语义清晰,所以充分利用标题信息就变得十分有意义。本文充分利用标题的特点,提出了基于标题和正文的主题模型应用于文本分类研究。由于标题的特殊性,语句简短,句法简单,所以本文基于规则和句法依存关系可以有效的提取标题中的评价对象。本文主要工作如下:(1)本文利用一篇文档具有标题和正文两部分的特点,提出了基于标题和正文的主题模型,该模型可以获得文档正文的主题分布和标题的主题分布,使用调节参数,优化整篇文档的主题分布。充分利用标题具有精炼简洁、主题明确的优点,可以有效的降低正文部分语义繁杂、主题多样性对文本分类的影响,从而获得整篇文档最优的主题分布,通过最佳的主题分布,可以提高文本分类的准确性。(2)由于标题精炼简洁,主题明确,因此采用句法依存关系获取标题中的评价对象。本文基于规则和词性标注获取标题中潜在的评价对象,因为本文标题语料的特殊性,潜在的评价对象和动词具有很强的依赖关系,所以本文构建动词词典库,通过动词出现在句法分析树的位置,遍历整个句法分析树,可以从潜在的评价对象中找到标题中真实的评价对象。(3)由于本文的语料是来自某城市的政府直通车网站,解决当地城市居民所面临的问题,所以文本中出现了大量的当地特有的命名实体,为了解决这些特有的词汇对文本分词和句法依存关系的影响,本文加入了大量的当地特有的小区名,道路名,公交地铁名等名词作为用户词典,由于分词具有较好的准确性,所以在文本分类和评价对象的抽取的任务中都获得了不错的效果。
其他文献
在信息大爆炸的时代,分布式系统是现今计算科学的主要研究重点之一。随着用户及信息数据的爆炸式增长,系统在发生着剧烈的变化,新的问题也显现出来。各节点各自的行为、链路失效
Web系统传输性能是B/S结构应用系统开发过程中不可忽视问题,近年来,随着互联网的快速发展,尤其是无线通信技术的迅速发展,网络接入技术变得多样化,人们对通过互联网访问Web系
字符串匹配一直都是计算机科学的研究热点和难点。在信息安全领域中,关键字规模变大、互联网流量的增加,使得字符串匹配算法成为网络安全系统的性能瓶颈。本论文首先综述了三种
随着国民经济的持续发展,城市车辆饱有量越来越高,随之而来的交通拥堵问题也成为影响我们日常工作与生活的重要因素之一,寻找最优的交通解决方案成为人们关注的焦点。从研究所花
定性概率网是贝叶斯网络的一种定性抽象方式,表达的是节点之间的单调影响,即变量间增减的趋势,具有高效的推理机制。然而,有时我们并不关心定性概率网所表达的节点后验概率之
语音识别是一门内涵丰富、应用广泛的技术,在一些应用领域中正迅速成为一个关键的具有竞争力的技术,如用于自动口语翻译,实现跨语言交流。本文以汉语大词表连续语音识别为应用背
蛋白质复合体在各种细胞活动中都扮演了非常重要的角色。因此,如何有效地从蛋白质相互作用网络中预测蛋白质复合体成为生物信息学中一项重要的工作。蛋白质复合体具有高密度和
目前,越来越多的应用如几何重建、碰撞检测、混合现实、手势识别等,都依赖于对三维场景准确且快速的分析。通过基于图像的分析或者激光扫描技术来获取场景的深度图,其代价高昂且
移动Ad Hoc网络是由移动节点组成的无线移动通信网络,具有动态拓扑、无线通信的特点,与其它网络相比,Ad Hoc网络的独有特性带来了路由、节点协作、安全等一系列新问题,网络安
盲人是社会中需要被关注的弱势群体,盲人感知周围环境信息的手段有限,在陌生环境中很难获取到足够的环境信息。本文提出了基于蓝牙的盲人环境感知辅助方法,并开发了相应的原型系