基于词义类簇的文本表示模型

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户：lingyuehqu2009

【摘要】

：

同义词和多义词现象是文档表示任务面临的重要挑战。因此本文提出了词义类簇模型fSense ClusterMocIel，SCM)，在词义类簇空问上表示文档。SCM首先构造词义类簇空问，然后将文档表

【作者】

：

唐国瑜;夏云庆;张民;郑方;

【机构】

：

清华大学计算机科学与技术系北京 100084

【出处】

：

第六届全国青年计算语言学会议

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

同义词和多义词现象是文档表示任务面临的重要挑战。因此本文提出了词义类簇模型fSense ClusterMocIel，SCM)，在词义类簇空问上表示文档。SCM首先构造词义类簇空问，然后将文档表示在词义类簇空问，获得每篇文档在每个词义类簇的概率。在词义类簇空问构造这一步骤中，首先利用词义归纳技术从文本中自动发现词义，接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空问构造后，本文首先进行词义消歧，然后利用词义消歧的结果将文档表示在词义空问上。实验表明，SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。

其他文献

装配式建筑下装配式装修设计的合理化

期刊

装配式建筑装修设计合理化

基于维基百科的汉日双语命名实体翻译等价对自动获取方法

提出了一种基于维基百科的汉日双语命名实体对自动获取方案。基本思想是先从维基百科中抽取汉日双语标题对作为训练数据，训练一个统计机器翻译系统；再抽取汉语或者日

会议

基于最小语言学资源的资源受限领域命名实体识别

如何在资源匮乏的大规模数据(如互联网纯文本数据)上识别命名实体是一个重要的问题。为解决该问题，我们使用简单的词典资源自动标注数据，然后将命名识别问题转化为基于最大熵马

会议

草坪的施肥方法

草坪地上部分的品质表现取决于地上、地下部分的双重护理。施肥就是草坪地下护理的一个重要方面。施肥可以避免草坪肥力衰退，补充由于修剪而消耗的养分，这对于观赏草坪和运动