基于同义词词林语义相似度的文本聚类算法研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:a98674591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展,导致社会产生了海量的数据信息,文本作为这些数据信息的主要载体,在互联网信息流中占据越来越突出的地位。怎样才能高效快速地获取目标所需的信息,将无序的海量文本数据按需组织,这是一个亟待解决的问题。文本聚类作为一种有效提取、分类、挖掘文本信息的方法,在数据信息大爆炸时代具有重要的应用价值。空间向量模型由于其简单、高效被广泛应用于文本聚类研究中,但是用空间向量模型表示文本时存在高维稀疏问题,同时忽略了文本之间的语义相关性,导致文本聚类结果精度偏低。针对这些问题,本文对基于同义词词林语义相似度的文本聚类算法进行了相关的研究,主要工作内容如下:(1)针对空间向量模型表示文本存在维度高、稀疏的问题,本文准确提取文本中的关键词,按照规则剔除停用词以及其它对文本内容无影响的关键词,组成特征项,并计算权值,通过权值进行特征抽取,从而达到降低文本表示维度的目的。结合词语间语义相似度,构造文本语义相似度加权因子,将文本转化成结构化模型。(2)针对文本聚类算法中忽略了特征项之间的语义信息的问题,提出了一种词语间基于语义相似度的计算方法。根据《同义词词林扩展版》结构特点,计算特征词项之间的语义相似度,并以此作为聚类的度量标准,解决了文本相似度计算时由同义词、近义词引起的语义问题。(3)以K-means聚类算法为基础,结合提出的词语语义相似度计算方法,优化在基于同义词词林计算文本相似度过程中满足条件时的阈值,调整文本聚类算法判别条件,提出了一种基于同义词词林语义相似度的文本聚类算法。通过与其它文本聚类算法进行分析比较,验证了本文提出的聚类算法能挖掘文本语义信息,提高文本聚类的准确度。
其他文献
碱性蛋白酶指在碱性条件下能够水解蛋白质肽键的酶,最适p H在9~11之间。其活性中心大都含丝氨酸,又称丝氨酸蛋白酶。广泛应用于洗涤剂、食品、丝绸、制革、医疗等行业。目前,国外大公司垄断着蛋白酶制剂品,国内企业有生产但是酶产量低、价格昂贵、酶学性质不理想等问题使企业盈利低,因此,如何提高菌株的产酶能力和发酵条件的优化依然是研究的热点问题。本实验以河南仰韶生化工程有限公司的2709碱性蛋白酶菌株为研究
二乙烯基苯是一种重要化学交联剂,主要用于制造离子交换树脂、聚苯乙烯树脂,具有广阔的发展前景。本文对二乙苯脱氢制二乙烯基苯反应进行了热力学分析,考察不同反应条件对二乙苯脱氢反应特性的影响,获得了二乙苯脱氢反应的动力学模型。利用Benson基团贡献法计算二乙苯脱氢反应中各物质的标准摩尔生成焓ΔfHmθ、标准摩尔熵ΔfHmθ、标准定压热容CP,mθ,通过热力学公式拟合出二乙苯一步脱氢反应r1和二步脱氢反
随着乌鲁木齐市老龄人口数量的不断增加,治疗和看护患病、高龄、失能和半失能老年人的问题困扰着每家每户,互相独立、自成系统的养老机构和医疗机构已经远远不能满足老年人同时对于医疗和养老的需求,因此,出现了医养结合养老模式。目前,乌鲁木齐市基本形成以下三种医养结合养老模式:“医养一体”模式、“医养协作”模式和“支撑辐射”模式。乌鲁木齐市在探索与实践医养结合模式方面取得了一定的成绩,但在实际工作中还存在一定
福温古道地处我国东南沿海,历史悠久,在历史的进程中,福温古道自身得以不断的发展与演变,并对其沿线地区产生了广泛的文化辐射与影响。近年来,国内关于的大型线性遗产的关注度日益高涨,相关的课题研究层出不穷,对于福温古道这一大型线性空间的研究是顺应学术热点与潮流的表现。本文以文化地理学为视角,针对福温古道闽地段的历史与空间形态的演变问题进行深入研究。本文首先探讨了文化地理学的基本理论,并以此为基础,将福温
学位
输气管道在途径大型河流时经常采用盾构隧道的方式进行穿越,天然气流体与管道的耦合作用是造成输气管道振动的重要原因之一。在输送过程中,当天然气压力脉动频率或者加压机械设备激励频率与管道的固有频率相近时,就可能会造成管道的振动加剧,进而引起管道及其附属设施疲劳损伤,严重威胁输气管道的运营安全。因此,对输气管道的流固耦合振动进行研究和分析,具有重要的工程价值和现实意义。首先,本文主要基于西气东输二线九江长
EPC总承包模式是一种应用广泛的项目管理模式,因其成本较低、纠纷较少、效率较高等优势在交通基础设施建设领域中也逐步推广。采取EPC模式的交通基建项目具有投入大、周期长、技术复杂等特点,因此承包商往往组建联合体承接项目。在联合体运行过程中,收益分配不当会损害成员的积极性,甚至导致合作失败。为解决联合体收益分配不当的问题,促进EPC模式在交通基建领域的发展,对交通基建EPC项目联合体收益分配问题进行研
由于建筑施工现场条件多变,工程结构复杂,多工种交叉作业和施工进度快等原因,坍塌事故数量一直居高不下。坍塌事故一旦发生,极易造成大量的人员伤亡和巨大经济损失,致使施工安全管理难度逐渐加大。为了建立长效的安全生产机制,保障我国建筑业的稳步发展,迫切需要提高安全生产管理水平,降低坍塌事故的发生。为此,本研究以住建部“房屋市政工程生产安全事故情况通报”为主要事故来源,同时结合网络检索结果,以2012-20
预处理是破坏木质纤维素的致密结构进而促进后续酶解的关键步骤。预处理过程中产生的抑制物导致微生物难以在木质纤维素体系中生存,因此通过脱毒处理去除抑制物是进行高效油脂发酵的前提。生物脱毒是一种极具优势的脱毒方式,它能够在有效保留可发酵单糖的前提下,选择性地去除弱有机酸和呋喃醛类抑制物;然而生物脱毒法去除酚醛抑制物的效率较低。以往的研究结果表明,即使通过生物脱毒法对原料进行了深度解毒,大部分油脂酵母仍然
学位
随着信息时代的发展和高新科技的更新换代,微电子领域俨然走在时代的前沿迅速发展。传统的器件尺寸已经满足不了人们对更小电子设备的追求,因此需要更小尺寸的电子设备也就需要更小的微电子器件。然而传统的MOSFET器件主要栅介质层为Si O_2,当需求更小尺寸的MOS器件时,介电常数相对较小的Si O_2层会导致电子的的直接隧穿效应,即栅极需要承受更大的电场,从而引起漏电流增大和可靠性下降等严峻的问题,间接
社会经济飞速发展背景下,自动驾驶车辆在不久的将来也将进入千家万户,为人们出行带来更大的便利。安全性保障是自动驾驶技术应用的前提,而若不能及时准确地检测和识别交通标志牌则极易引发交通事故,因此研究探索交通标志的实时检测与识别技术至关重要。论文以提高道路各种大小尺度的交通标志检测识别率为目的,结合多尺度卷积神经网络和组合矩特征提取等图像处理方式,提出交通标志图像的检测和识别方法,主要研究内容如下。1)