基于信息论的潜在概念获取与文本聚类

来源 :软件学报 | 被引量 : 0次 | 上传用户:lixiner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法,方法引入了潜在概念变量和主题变量,根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.
其他文献
<正> 传统的羊绒纺纱一直采用毛纺的粗梳系统,但对原料的要求很高,长度一般要在34mm以上.而且纺纱支数不能很高,一般可达26Nm/2.为了突破局限性,我们利用现有国产棉纺设备,通
<正> 我厂于1994年通过补偿贸易”引进德国Doriner公司DLW4/S型和比利时Picanol公司的PAT—A型喷气织机.由于织造都采用四或六喷嘴引纬,配以Staubli SA2560型电子多臂机,独立
随着信息技术的发展和普及,信息获取、综合分析和动态处理以及信息应用已经深入社会各行各业,加快民政信息化建设是民政部门管理国家有关社会行政事务发挥重要作用的有效手段
提出了利用空气网络变形加工技术生产氨纶网络丝的新技术,新工艺,并通过实验论证了 网络丝的弹性伸长率和网络度与网络张力的关系,从而得出最佳网络工艺参数。
提出一种协同工作式的TCP(transmission control protoc01)拥塞控制改进协议C^3P(cooperant congestion control protocol),通过C^3P源端检测RTT(roundtriptime)延时信息和路由器反
本文通过对国内外低碳经济机制政策进行研究,分析了山东省低碳建筑经济激励政策存在的问题,并提出了措施和建议。
行为序列分割是行为分析与识别中最初始、最基础的一个步骤.提出了一种无监督的行为序列分割算法,主要步骤包括:(1)采用等长有重叠的时间窗口对视频序列进行粗分割;(2)将粗分割的视频段两两作比较,通过Segmental-DTW算法分割出两个视频段中最相似的行为片断;(3)将行为片断的相似性转化为邻接图表示,通过图聚类方法对分割出的行为片断进行聚类.该算法采用了从粗到细的分割思想,能够准确地分割出视频序
网络拓扑结构可由邻近图表述,定义其为一个包含点集V和边集E的图,某有向边(u,v)属于该图当且仅当点v位于点“的邻域内,这个邻域是在某事先定义的邻近测度作用下产生的.回顾了迄今为
本文针对学生的实际情况,从教材的选择、教学方法及教学手段的改革、考试方法的改进等三方面,阐述了大学物理教学改革的具体做法.
高校思想政治辅导员是学生思想政治工作的组织者、实施者和指导者,是高校教师和管理队伍的重要组成部分。每一个学生思想政治辅导员在实现大学生思想政治教育的过程中,都扮演和