一种面向隐含主题的上下文树核

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户:passtestall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。
其他文献
针对水声环境中真实目标常常被强干扰掩盖而无法识别的问题,提出了一种基于特征分析的自适应干扰抑制方法(EAAIS)。根据目标信号可能的方向范围,通过构造合适的判决因子来自
首先分析了当前高速公路工程边坡的工程地质分类的现状、意义以及原则,接着着重探讨了高速公路工程边坡的工程地质分类的具体形式。
本文对以萘、甲基萘、甲苯及二甲苯为原料 ,通过烷基化、侧链烷基化、酰基化、加氢、脱水、脱氢环化、异构化及分离等过程 ,合成 2 ,6 -二甲基萘 (2 ,6 -DMN)的工艺进行了全
基础研究投入是R&D和整个科技活动及创新的基础和源泉,对经济和社会发展都具有十分重要的作用并产生重大影响。对我国基础研究投入现状进行总结,分析了基础研究投入带来的多元溢
国家工科数学课程教学基地对于工科人才培养具有重要的现实意义和特殊作用,工科数学基地建设应该进一步得到加强.基于“新工科”发展背景与新经济对人才培养所提出的新要求,
介绍了我国杜鹃属植物种质资源现状,对杜鹃属植物种质资源的应用研究以及开发利用存在的问题进行了分析,并提出合理开发利用杜鹃属植物资源的有效途径,以期为我国有效保护与
我国已成为世界上畜牧业生产大国,但是由于种种原因,我国畜产品国际贸易量很小.除绵羊毛外,目前我国畜产品的进出口贸易量不仅占国内畜产品生产总量的比重小,而且在世界总贸
用聚丙烯酰胺电泳法对皱纹盘鲍、家虫戚、泥螺、泥蚶、紫贻贝、虾夷寓贝、海湾扇贝、青蛤、文蛤、硬壳蛤、缢蛏11种经济贝类性腺组织的6种同工酶(MDH、ME、SOD、ADH、ATP、EST
我国挤压用空心圆铸锭(空心锭)的生产一般采用直接水冷(DC)立式半连续铸造工艺,或采用将实心圆铸锭经车皮和钻孔(或穿孔)成空心锭的方法来生产。直接水冷(DC)半连续铸造工艺生产的空心
随着国家交通基础设施建设的加快,公路交通发展日新月异,公路交通建设档案资料的重要作用也日趋凸显。公路交通建设发展的科学化、信息化、规范化对公路工程档案的规范管理工