多语言文本分词与词语提取方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:yuyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国“一带一路”倡议的提出及经济全球化的深入发展,跨语言交流在国家外交与民间经济交流方面的作用日益凸显。文本数据是信息获取的主要方式,也是大数据时代下组织进行管理决策的主要数据来源之一。相对于图像、视频等其它非结构化数据而言,文本具有更为显著的语言差异。为了快速获取瞬息万变的国际信息,支持我国各类组织的国际化战略决策,多语言文本数据的自动分析研究变得越来越重要。为了实现多语言文本的自动分析,本文研究多语言文本挖掘的基础环节——文本分词与词语提取。本文主要的研究内容有三:(1)多语言文本分词方法的综述研究。详细分析中文、日文、英文、俄文等语言文本主要的分词方法、工具及其性能,并比较分析了适用于多种语言文本的多语种分词方法和工具。对各分词方法和工具进行归纳分类之后,比较其实现原理、算法、性能、词典、开发语言和操作系统等。(2)提出一种基于原子词步长法的多语言词语提取方法。该方法采用语言学规则和统计信息相结合的方式,首先利用现成的多语言文本分词方法进行分词与词性标注,并从词性和停用词两方面删除成词度低的原子词;然后以原子词为步长提取所有原子词串并通过子串归并算法过滤结构不完整或独立性差的词串,从而得到质量较高的词语候选集合;最后结合词语单元度和词频分布计算候选词语的成词度,排序输出,确定最终的提词结果。该方法能够有效地提取出低频并有相对完整结构的词语,在一定程度上提高了词语提取的准确率。(3)基于原子词步长法的多语言词语提取方法在联合国平行语料库处理中的应用研究。在中英文语料的应用研究阶段,测试不同K值下子串归并的缩减和误判趋势并进行词语提取结果的对比分析。实验结果表明,相比已有方法,本文方法在中文语料上的准确率和召回率分别提升了4.08%和4.23%,在英文语料上的准确率和召回率分别提升了8.19%和8.91%。综上,本文针对多语言自动分析的基础技术问题,研究多语言文本分词与词语提取方法。对于不同语言的文本,只需利用现成的多语言文本分词方法进行分词,然后采用本文的基于原子词步长法的多语言词语提取方法提词,就可实现文本信息检索和舆情分析等文本挖掘应用。本文方法适合海量文本的自动分析,也支持经过语音识别之后的文本分析。
其他文献
直接甲醇燃料电池(Direct Methanol Fuel Cell,DMFC)作为最环保最高效的燃料电池技术之一,具有高能量、无污染环境、安全性好、结构简单及易储存等优点,在电动车、军工及通信等领域具有非常广阔的发展前景。尤其是在在商业化道路可实现利益最大化,但存在甲醇穿透、极化现象和催化剂性能下降等因素影响着DMFC的性能,同时因DMFC长期运行带来的电压偏差和性能衰减严重的阻碍了其商业化的进
具有橄榄石结构的LiMn PO4正极材料的电压平台高、理论能量密度高、热稳定性好、锰原料价格低、资源丰富且适合大规模使用,因此在锂离子电池中具有良好的应用前景。然而,LiMn PO4由于禁带宽度较高以及离子的扩散激活能较高,其导电率和锂离子扩散系数极低,其中的Mn3+会引起Jahn-Teller晶格变形效应,这些不足阻碍了其应用。提升LiMn PO4倍率性能常用的方法有表面修饰、细化晶粒、控制形貌
在航空、航天、造船、新能源汽车等先进制造领域,大尺寸工件测量是产品质量检测的重点和难点,但传统的人工测量方法存在效率低、精度低等缺点,常用的机器人在线示教测量方法因其测量路径规划过程效率低下,难以满足当前高效测量的需求。基于工业机器人离线编程技术的路径规划方法具有安全,高效,适用范围广等优点。因此,研究基于离线编程的大尺寸工件测量路径规划方法具有一定的理论意义,对于制造企业实现高效、精确、安全检测
精密零件的表面十分脆弱,在加工与运输过程中容易损坏,传统的接触式加工与传输方式利用表面摩擦力固定物体后再进行传输,已经不能满足要求。近场超声悬浮(Near-Field Acoustic Levitation,NFAL)是一种在精密加工制造领域具有广泛应用前景的技术,具有非接触,无污染,无噪声的优点。本文基于近场超声悬浮原理,对非匀质物体的近场超声悬浮与传输特性进行了研究、并基于近场超声悬浮原理设计
铰接罐式车辆(以下简称罐车)作为道路运输的主体,保有量逐年递增。罐车存在较大的驾驶盲区,很难保障行车安全。车辆全景环视系统可以有效消除驾驶盲区,将汽车周围的环境展现给驾驶员辅助其安全驾驶。目前国内全景环视系统的研究开发主要针对乘用车,针对罐车全景环视系统的研究较少。罐车的保有量虽然不及乘用车,但是一旦发生交通事故,危害往往巨大。基于此,本文研究并开发了一套罐车全景环视系统,该系统通过在罐车上安装六
《人生》是当代作家路遥的成名小说,也是其主要的代表作之一。在这部中篇小说中寄托的是作者在特殊时期里的理想和期待。路遥希望中华民族的传统美德不论在什么情况下,都应当传承。因为这种民族精神是中华民族的灵魂核心,应当永远保存在人类的历史中。但是如果有人将这种民族精神打破、抛弃时,是必然会受到强烈批判的。文章通过对路遥《人生》的分析,阐述作品中批判意识。
近年来,锑污染逐渐恶化,造成严重的环境问题,威胁人类健康,亟待治理。除锑技术主要包括吸附、凝结/絮凝、电化学、离子交换等,其中吸附法成本低、处理效率高,已被广泛研究及应用。铁氧化物作为吸附剂具有易于生产,无毒、生态友好,对Sb(Ⅲ)/Sb(Ⅴ)亲和力强等优点。纳米级零价铁(nZVI)通过其腐蚀可产生新鲜的羟基氧化铁,具有磁性易被分离,是一种有前途的铁基吸附材料。但由于其易团聚,在环境介质中不稳定,
在经典流水车间调度研究中仅考虑机器资源,工人资源的影响很少被考虑,且机器资源被假定为一直处于可使用的状态,实际上由于机器寿命、故障以及保养等原因,机器并不能一直正常运转。然而,无论是机器资源还是工人资源,作为生产过程中的两个重要因素,均直接影响企业生产效率。因此,本文从工人资源和机器维护两个方面研究人机资源约束对流水车间调度的影响,旨在构建更符合实际生产的流水车间调度模型及求解算法。主要研究内容包
我国发展已由高速发展转向质量为导向的阶段,为践行新发展理念,满足生态文明发展,作为可持续发展的重要模式,节能减排越来越受到社会的重视。在节能行业发展到今天,节能技术发展日益成熟,但投入的边际效益也在持续下降,节能大范围推广普及的阻碍因素也日益明显,主要存在着缺少资金投入,运作风险大、市场化程度不高、总体规模较小、缺乏激励机制等问题。为不断推动节能减排行业的发展,顺应我国生态文明建设的要求和目标,需
客观图像质量评估是在人类视觉系统(HVS)的基础上,运用数学和计算理论对输出图像的好坏使用计算机或者电子设备进行评估。怎么能够结合人类眼睛视觉功能的感知特性,从图像提取独特的图像特征来评估失真图像的质量好坏,是图像处理领域的一个经典内容。论文根据人眼对图像结构和纹理更为敏感的视觉特性的,提出一种新的基于奇异值加权重建和透射图相结合的全参考图像质量评估方法。具体创新如下:与普通的客观图像质量评估算法