基于跨语言广义向量空间模型的跨语言文档聚类方法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:buffon149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇.本文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(CLGVSM),并且比较了不同相似度的在文档聚类下的性能.同时提出了适用于GVSM的特征选择算法.实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA(潜语义分析法)。
其他文献
结合国内外矿井工作面探水技术和设备的发展情况,分析了直流电法、瞬变电磁等现阶段常用探水技术在原理、应用等方面的技术难点和局限性.介绍了矿井双模网络并行电法探水技术
针对煤层赋存条件差、地质构造变化、钻孔轨迹偏移等原因导致本煤层钻孔在部分区域不能完全覆盖回采工作面,造成工作面回采至该空白带区域时瓦斯偏高,甚至断电停产.对比分析
有一些摄影作品能让我们为美所折服,有一些摄影作品能让我们为奇所惊叹……。看到他的作品,我的心轻轻一颤,引人深思。穿越图片,回到当时,所有的作品都似乎传递着很多信息,历
我台25频道使用的30KW速调管发射机是美国COMARK公司的产品。北京广播器材厂通过对其消化吸收,研制开发了自己的776系列速调管发射机。因此两者具有许多相同和相似之处。工
和林格尔是一个以蒙古族为主体,汉族为多数的少数民族聚居地。悠久的历史,多彩的民俗,使得这里的婚俗具有独特的人文特质。在众多的和林格尔婚俗中,媒妁撮合是最为普及的一种
抽取式摘要是从正文中按照一定策略抽取重要句子组成摘要.本文提出了一种句子抽取方法.基本思想是将句子的抽取看作序列标注问题,采用条件随机场模型对句子进行二类标注,根据
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点.相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性.因
针对井下大型液压支架斜井提升运输问题,结合该煤矿实际工况参数,构建了大型液压支架运输虚拟样机系统,探析了不同速度、加速度以及制动减速度对缠绕时钢丝绳动张力以及平板
【摘要】初中学生正处于一个好奇心很强,自尊心也强的年龄阶段,英语学习的过程很容易出现两极分化的现象。特别对于从未接触过英语的农村初中生而言,如何缩小在英语学习中优、差生之间的距离对于农村初中英语教师任重而道远,更是一个棘手的难题。本文根据农村初中生从在学习英语的过程中出现的问题根源出发,合理地把心理学应用于英语教学中,对症下药,激发学生学习英语的兴趣,加强师生间的情感,树立起他们学习英语的信心,提
CITYIN:鸿利灯饰的市场定位是中高端市场,同时致力于为济南中高端业主提供环保健康尊贵的品质生活,那么鸿利灯饰在这方面有哪些优势呢?张总:鸿利灯饰已经有近20年的发展历程,