基于排序集成的哈萨克语固定短语抽取

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:zdx_comeon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准
其他文献
初中课本中所学的反比例函数y=k/x(k≠0为常数)从定义角度就十分特殊,因此决定了它们图象在直角坐标系中就具备很重要的特性:图象上任意一点P(x,y)满足x P·y P=k为定值.另外,
属性约简是粗糙集理论进行知识获取的核心问题之一。针对现实信息系统中属性值取值不确定的情况,结合灰色系统理论对集中有序关系进行扩展,建立了灰色信息系统中趋于某个标准
细胞神经网络用于彩色图像边缘提取已经有很多人做了研究。现有的大部分工作都根据经验选取固定阈值来设计CNN模板。但这种阈值的选取方法忽略了人眼最小分辨差具有自适应性的特点。在设计图像边缘提取CNN模板选取阈值时,引入人眼最小阈值差成果,设计出了一组阈值自适应的CNN模板,同时对设计的阈值自适应算法的稳定性进行详细的论证。该算法让检测出的边缘更加符合人眼的视觉特性。实验结果证明,该算法效果良好。
高职院校法律课的教学改革,相对于"依法治国"战略的推进和现代国家公民意识的培养来说,还有较大差距。因此,必须切实改变教学思想,改革教学内容,改变教学方法,改革考核方式,充
学习物理离不开做习题,如何选择习题,如何做习题,怎样总结习题,实际上是一个对物理习题功能认识理解的问题.只有深入地理解了习题的功能层次,才能跳出题海,高效率地学习物理.
为了求得代价最小的网络组播路径,提出了一种基于免疫Memetic算法的优化求解方法。算法充分结合免疫全局搜索和局部搜索机制,设计了适合组播路由问题的各种免疫算子,加快了算法
教育教学科研工作是高校工作不可缺少的部分,科研成果可推动教育教学改革、提高教学质量,扩大社会影响,服务经济建设。本文对贵州省几个民族职业技术学院教学科研工作现状进行分
函数是高中数学中的一条主线,同时也是高考命题的热点。高中函数知识不仅复杂,而且抽象,导致部分教师对高中函数的教学把握不到位,学生学习效果也不理想。本文主要谈谈函数的性质
采集接触网绝缘子泄漏电流时存在大量干扰,且使用经验模态分解(Empirical Mode Decomposition,EMD)方法去噪时存在端点效应和虚假分量的问题。提出利用类似极值延拓法和功率比值
在EQ-代数和直觉模糊集理论的基础上,引入了EQ-代数上直觉模糊前滤子和直觉模糊前素滤子的定义,讨论了它们的有关性质;研究了EQ-代数上直觉模糊前滤子的生成;得到了直觉模糊