基于半监督DPMM的新闻话题检测

来源 :郑州大学学报(理学版) | 被引量 : 0次 | 上传用户:kdkd03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于狄利克雷过程混合模型( DPMM)这一非参数贝叶斯生成模型,从语义的角度入手,结合其自动确定聚类个数的特性进行话题检测,运用了聚类个数K值由大到小变化的采样策略,通过逐层递进的形式获取到较为准确的K值,并在此基础上对语义聚类的词频特性加以分析,引入一组名词实体作为“热点特征词”来引导聚类过程,从而给出了DPMM半监督模型。实验结果表明,所给出的话题检测方法在TDT4语料上取得了较好的检测性能。
其他文献
随着互联网技术以及计算机技术、通讯技术等的发展,信息化浪潮席卷全球。在数字出版全球化发展的大背景下,欧洲各国的数字出版产业都得到了一定程度上的发展。根据国际出版协
本文主要研究路代数及其商代数的上同调性质。此外,还研究了路范畴和完备路代数的性质。首先,我们研究了路范畴的性质。我们讨论了路范畴上n-微分算子的性质,并研究了相应的
阐释学是一门关于理解、解释和应用的方法论学说。阐释学与翻译的联系,主要在于如何解释原语与译语之间纯语言差距之外的文化差异,如何较恰当地理解原语、表达译语。就《三国
性别工资差距是全球关注的议题,其对各地区的经济及社会均有着一定的影响。国际劳工组织最新公布的《2016/2017全球工资报告》指出,工资收入的不平等状况正在日渐加剧,目前全
从目前国内司法实践和研究文献看,人们对搜索引擎侵权责任的认识仍然存在较大分歧。造成这种分歧的主要原因是对搜索引擎商是否应负有注意义务,以及该注意义务应到何种程度这一
以民航相关安全信息统计报告中统计数据为基础,分析了跑道侵入事故发生的主导因素。首先,采用人-机-环-管法系统分析事故成因,确定贝叶斯网络节点;然后,找出事故发生链路,基
为研究跑道侵入事故发生机理,以民航相关安全信息统计报告中统计数据为基础。首先采用"人-机-环-管"法系统分析事故成因,确定贝叶斯网络节点;进而找出事故发生链路,用Netica
多囊卵巢综合征(PCOS)是青少年至生育年龄妇女较常见的内分泌紊乱性疾病之一,是生育年龄阶段妇女常见的内分泌失调性疾病,除导致女性不孕外,更重要的是对机体代谢产生重大不良影响
本文讨论了profinite群的共轭分离性和全形,把关于无限群的结果推广到了profinite群.
迪拜是阿联酋的一个新型商业都市.在新城区,道路宽达10~ 16车道.但这么宽的道路上很少见到骑自行车的,也没有自行车专用道,道路两侧连行人也很少见.原来,迪拜的夏季(4~ 10月)酷热