基于改进的模糊C均值聚类算法的多文档自动文摘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hfutnyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在世界范围内的迅猛发展,网络上的信息日益增加。人们迫切需要一种方法来从这些海量信息中快速获取有用信息、排除冗余信息,并将这些信息有机的结合到一起。多文档自动文摘的研究目标正是力求解决这一问题,它将同一主题文档集合中重复出现的信息以一次出现在文摘中,其他与主题相关的信息根据重要性和压缩比依次进行抽取。本文基于子主题的思想将同一主题文档集合中的句子按照相似性重新组合,得到代表各个侧面信息的子主题。对子主题进行文摘句的抽取以及排序生成多文档文摘。句子相似度计算在多文档文摘领域有着非常重要的地位,其准确性将直接影响子主题的确定以及文摘的生成。本文分别介绍了基于词权重、基于潜在语义分析、基于语义距离以及基于语义依存的句子相似度计算方法,最终采用一种多特征融合方法结合词权重特征、语义距离特征以及语义依存特征计算句子间的相似程度。从而使句子的描述更加全面,相似度计算结果更加准确。考虑到中文语句具有的歧义性,本文提出一种改进的模糊C均值聚类算法确定多文档集合的子主题。为了减小初值选取不当对模糊C均值算法产生的影响,该方法结合训练阈值的层次聚类算法以及样本密度算法投票生成初始聚类中心,初始化模糊C均值算法的原型矩阵以及划分矩阵,进而聚类生成多文档文摘的子主题。将子主题按照重要性进行排序,通过文摘句的动态抽取生成文摘句集合。最后采用文档框架与文摘句位置参数相结合的文摘句排序算法生成了多文档文摘。实验结果表明,采用改进的模糊C均值聚类算法得到的子主题聚类效果要优于现有的几种应用于多文档文摘的聚类算法。与此同时,生成文摘的信息覆盖度以及流利度也达到了较理想的效果。
其他文献
AVS是我国自主创新战略的一个典型。从2002年开始,以AVS标准工作组的方式,组织了国内外两百多家单位、一千多人的队伍开展联合创新,制定了配套的数字音视频信源编码标准,成为
随着互联网的飞速发展,人们利用互联网共享各种信息,使得网络信息资源日趋丰富,搜索引擎正是为了解决这一问题而发展起来的,而现在的搜索引擎存在明显的缺陷:一是搜索引擎结
随着互联网的快速发展与Web 2.0时代的到来,在线新闻作为主要的网络信息载体,已经成为人们获取新闻资讯的主要渠道。其内容与形式也不断创新,允许用户通过情绪投票直接抒发自
调度的根源在于对资源的争用和分配,无线领域的分组调度主要是要保证用户业务的服务质量和各个业务流之间享受服务的公平性。高速上行分组接入(HSUPA)是第三代通讯伙伴计划(3
短信息以其移动性好,收发便捷,内容丰富等特点,受到广大移动通信用户的普遍青睐,特别是青少年手机用户,往往把收发短信作为信息交互,感情沟通和互动娱乐的主要方式之一。然而
With the development in DNA microarray technology, expression values of thousands of genes can be simultaneously measured efficiently in biological process. Co-
移动终端上发行数字内容,涉及到数字内容版权保护和解决终端查询数据速度等问题。本文提出了一个基于智能存储卡平台在移动终端开发数字内容发行软件的设计方案。利用智能存
经济的发展,工业化水平的提高,人口的快速增长导致了大气污染问题的日益严重。2015年柴静的雾霾调查“穹顶之下”更是引发了全民的关注。为了合理整治大气污染问题,准确反映空气
数据挖掘的任务,就是从海量数据中,发现其中有用的信息。利用有价值信息可以指导人们的生产与生活,以此产生较大经济价值。随着科技的发展,人们也越来越重视从数据库中发现和
数字水印技术是目前信息隐藏技术领域的一个新方向,这种技术通过在载体数据中嵌入版权信息,成为对数字产品进行版权保护和内容认证的有效手段。几何攻击作为一种实现简单、破