基于最大熵模型的柬英平行网页获取

来源 :计算机工程 | 被引量 : 0次 | 上传用户：jackzhao1

【摘要】

：

由于平行网站的异构性和复杂性，如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此，应用最大熵模型，将平行网页的识别问题看作候选网页对的分类

【作者】

：

莫源源潘丽同严馨余正涛刘小惠

【机构】

：

上海师范大学语言研究所,云南省计算机技术应用重点实验室,云南民族大学东南亚南亚语言文化学院,昆明理工大学信息工程与自动化学院

【出处】

：

计算机工程

【发表日期】

：

2016年5期

【关键词】

：

最大熵模型柬埔寨语-英语平行网页平行语料库余弦相似性 maximum entropy model Khmer-English parallel Web

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于平行网站的异构性和复杂性，如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此，应用最大熵模型，将平行网页的识别问题看作候选网页对的分类问题，对平行网页的获取方法进行改进。利用基于标题余弦相似性的方法或数据库查询的方法发现候选平行网页对。根据网页内容及候选网页对间余弦相似度特征和最大熵模型训练的分类器对平行网页进行识别。在特征选取上，提取网页的篇章结构特征、词汇化比例特征与页面元素特征等基本特征，并应用TF—IDF算法与余弦相似性提取文档向量的余弦相似度特征。实验结果表明，所

其他文献

大型企业网络大学体系架构设计案例研究

基于现代信息技术的网络培训方式已经成为大型企业员工培训与人才开发的一个重要手段,许多企业的网络大学也正在积极通过创新实践建立自己的学习品牌.本文以中国邮政网络培训

期刊

大型企业网络大学体系架构员工培训

良性阵发性位置性眩晕诊断及耳石复位治疗指南解读

文章简单介绍了良性阵发性位置性眩晕的发病机制，以及其基本分型。并从各方面介绍了良性阵发性位置性眩晕的主要治疗措施以及耳石复位疗法的临床疗效及其评价标准。

会议

良性阵发性位置性眩晕病理诊断耳石复位疗法疗效评价

幸福指数节节高——十师北屯市改革开放40周年成就掠影

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

十二师改革开放老年文化

安徽省农村金融发展对农民生活质量影响的实证研究

安徽省是农业大省,“三农”问题是关系到省内经济平稳增长和社会和谐的基本问题。随着全国农村金融改革的进程,安徽省努力完善金融支农体系,为推动“三农”发展提供了强劲助

学位

农村金融发展农民生活质量对比分析统计与计量分析

Welsch M-估计在视频重构与背景减除中的应用

针对监控视频在压缩采样过程中混入冲击噪声后的背景减除问题,提出一种基于Welsch M-估计与张量分解正则化的鲁棒视频重构与分解模型。为削弱冲击噪声对重构性能的影响,引入Welsch M-估计替代均方差作为衡量重建误差的代价函数。在张量框架下,将背景在不同维度、不同场景下的低秩差异性先验引入背景建模,得到重构与分解模型,并基于半二次理论和多块交替方向乘子方法给出相应的优化求解算法。实验结果表明,与

期刊

压缩感知冲击噪声背景减除WelschM-估计张量分解半二次理论Compressive Sensing(CS)impact noisebackgro

PF银行优先股融资研究

2013年11月30日,国务院颁布了《关于开展优先股试点的指导意见》,标志着我国在资本市场上的又一项全新尝试。优先股融资试点推出后,银行类股指涨幅达到1.66%,表现出市场对优

学位

优先股融资工具银行融资融资风险

床头标识在妇科病房安全管理中的应用

期刊

床头标识妇科病房安全管理应用

越南股票市场与世界主要股票市场联动性实证研究

随着国际金融一体化、资本流动自由化以及股票市场证券化的发展,国际金融市场联系日益紧密。同时计算机技术的提高和互联网普及使得一个国家的股票市场对世界市场新消息作出

学位