基于最大熵模型的柬英平行网页获取

来源 :计算机工程 | 被引量 : 0次 | 上传用户:jackzhao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于平行网站的异构性和复杂性,如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此,应用最大熵模型,将平行网页的识别问题看作候选网页对的分类问题,对平行网页的获取方法进行改进。利用基于标题余弦相似性的方法或数据库查询的方法发现候选平行网页对。根据网页内容及候选网页对间余弦相似度特征和最大熵模型训练的分类器对平行网页进行识别。在特征选取上,提取网页的篇章结构特征、词汇化比例特征与页面元素特征等基本特征,并应用TF—IDF算法与余弦相似性提取文档向量的余弦相似度特征。实验结果表明,所
其他文献
基于现代信息技术的网络培训方式已经成为大型企业员工培训与人才开发的一个重要手段,许多企业的网络大学也正在积极通过创新实践建立自己的学习品牌.本文以中国邮政网络培训
文章简单介绍了良性阵发性位置性眩晕的发病机制,以及其基本分型。并从各方面介绍了良性阵发性位置性眩晕的主要治疗措施以及耳石复位疗法的临床疗效及其评价标准。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
安徽省是农业大省,“三农”问题是关系到省内经济平稳增长和社会和谐的基本问题。随着全国农村金融改革的进程,安徽省努力完善金融支农体系,为推动“三农”发展提供了强劲助
针对监控视频在压缩采样过程中混入冲击噪声后的背景减除问题,提出一种基于Welsch M-估计与张量分解正则化的鲁棒视频重构与分解模型。为削弱冲击噪声对重构性能的影响,引入Welsch M-估计替代均方差作为衡量重建误差的代价函数。在张量框架下,将背景在不同维度、不同场景下的低秩差异性先验引入背景建模,得到重构与分解模型,并基于半二次理论和多块交替方向乘子方法给出相应的优化求解算法。实验结果表明,与
2013年11月30日,国务院颁布了《关于开展优先股试点的指导意见》,标志着我国在资本市场上的又一项全新尝试。优先股融资试点推出后,银行类股指涨幅达到1.66%,表现出市场对优
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着国际金融一体化、资本流动自由化以及股票市场证券化的发展,国际金融市场联系日益紧密。同时计算机技术的提高和互联网普及使得一个国家的股票市场对世界市场新消息作出
多变量公钥密码体制能抵抗量子计算机的攻击,是后量子时代一种安全的密码体制备选方案。考虑到Square体制可有效抵抗线性化攻击,不能抵抗差分攻击,三角型密码系统能抵抗差分
根据地面气象观测规范雾、霾的定义,结合天气学原理,归纳总结区别雾、霾天气现象的辨别方法,由此可提高地面观测、目测水平,为气候分析积累资料,服务于社会。