文本聚类分析效果评价及文本表示研究

被引量 : 170次 | 上传用户:cobo520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。在这种背景下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。在与文本聚类分析相关的研究中,可用的算法种类众多且难以选择与比较,因此对文本的聚类结果进行有效评价非常关键。目前,评价方法比较混乱,缺乏得到普遍认同的评价方法及与之相关的深入研究。这导致在实际应用中选择算法、选择参数时缺乏一个科学的依据。在研究与实际应用中,评价文本聚类分析效果有哪些指标,各有什么特性,不同的文本聚类分析算法效果哪个好哪个不好,哪个更好,怎样才能更好,这些都是需要研究人员进行回答的问题。这些问题归结到底都是一个文本聚类效果的评价问题。本文围绕文本聚类效果评价、提高文本聚类分析效果这个目的,主要完成了文本聚类分析评价以及文本表示模型研究两个方面的工作,论文的具体工作内容包括:(1)影响文本聚类效果的因素分析。详细分析了可能影响文本聚类分析效果的三个因素:文本表示模型、距离度量方法和聚类分析算法;(2)详细介绍了两类评价标准下对应的具体评价指标,清晰界定了基于人工判定的指标和基于目标函数的指标两大类别,分清各自的应用场景,着重介绍基于人工判定的系列指标以及其特性,推荐使用熵和基于类的F值两个指标;(3)实现了包括文本解析、文本聚类分析、文本聚类效果评价分析三个模块的实用软件包,软件包实现了多种文本解析方法、聚类分析算法及评价指标,三个模块可各自独立使用,可扩展性强;(4)应用软件包进行实验分析。主要分析HAC算法中大类现象的出现位置、原因和启示,对HAC与K-Means算法进行效能分析、对多种影响因素的影响力进行比较分析,对主要聚类算法效果进行横向比较。主要结论包括:a)文本HAC算法的聚类效果是一个先变好后变坏的过程,算法先按照文本语义逐渐凝聚簇直至临界点,临界点后出现大类倾向,质量开始变坏。文本表示与文本语义之间的不完全对应造成了这种现象,解决方案建议在临界点之前停止簇合并避免质量变差或者淘汰干扰簇等;b)英文文本处理中的Lower处理以及不进行Stem处理可以适当提高最终聚类效果的质量;c)VSM模型中的ltc特征权重度量方法相对于nnn、Lnu、OKAPI中的BM25等方法更优;d)在本文的实验中通过适当的阈值设置,NN算法可以产生高质量的小簇,从整体效果上而言K-Means基本优于HAC、K-Means Bisecting和NN聚类算法;(5)对文本表示进行探索性的研究。文本聚类归根结底是语义相同或者相近的同质
其他文献
研究了黄原胶、卡拉胶、魔芋精粉、瓜尔胶四种亲水性胶体对鲢鱼糜凝胶特性的影响.结果表明:黄原胶显著提高了鱼糜凝胶的硬度、弹性、咀嚼性,但不能改善其凝胶特性;魔芋精粉显
本文建立了水产品中土霉素、四环素等抗生素残留量的HPLC检测方法。流动相为乙腈∶NaH2PO4(0.01mol.L-1)=18∶82,流速为1mL.min-1,检测波长为355nm。该方法测土霉素和四环素
<正>20世纪90年代以来,为激励金融机构服务农村地区,中国人民银行在农村推行利率市场化改革,改革的重心是不断扩大利率浮动区间,使农村金融机构在利率定价方面享有越来越大的
旧城区拆迁改建是城市社会经济发展的必然要求。随着社会经济的不断发展,旧城区拆迁改造规模越来越大,因房屋拆迁而产生的“失房居民问题”也越来越严重,已经影响到了城市社会稳
黑社会性质组织犯罪作为世界性的社会毒瘤之一,严重影响社会秩序稳定、危害公民人身财产安全。呈现出突出的地域性特征,隐蔽的组织特征,非法牟取巨额利益的经济特征,其行为涉
今天,企业、政府等众多机构不仅要面对快速多变的业务需求,还越来越多地倚重跨组织协作。一些应用领域(如企业动态供应链、城市应急指挥等)的跨组织协作具有很强的动态性,提
“学生参与”课堂教学可以使学生由课堂教学中被动接受知识逐渐转变为主动学习知识,对学生学习积极性和学习能力的培养有很大的促进作用。在以往的课堂教学中,我们往往以传统教
为了筛选用于太湖地区污水土地处理研究的土壤改良材料,通过磷、氨氮等温吸附实验及室外自然接种2个月后的硝化强度测定试验,研究了稻壳、炭化稻壳、蛭石、炉渣、木炭、粉煤灰
乡村居民是城镇化进程最主要的参与者,其意愿和行为决策对城镇化质量会产生直接且至关重要的影响。基于调查,着重于从空间层面对乡村居民城镇化的真实意愿进行分析,发现以常
以目前国内生产高档干红葡萄酒的主要品种赤霞珠、蛇龙珠(烟台地区的主栽、特色品种)葡萄为试材,通过研究葡萄采收期、浸渍作用、酒精发酵及苹果酸-乳酸发酵等关键工艺对葡萄