基于机器学习的情景词库构建与实现

被引量 : 0次 | 上传用户:jianzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的发展,互联网和智能终端的大规模普及,从用户端的可获取信息量越来越多,这些海量的信息的背后蕴含着巨大的实用价值。例如通过获取用户的对话信息,通过这些信息能够识别出对话情景,判断出用户的行为和意图,从而为其提供所需的服务。准确的对话情景识别在优化人机交互和推动智能产品发展方面有着重要的作用。本文在现有理论研究的基础上,采用朴素贝叶斯算法和特征权重实现了可自学习的情景词库,并将其部署在自建的分布式并行计算环境中。朴素贝叶斯算法能够计算出对话隶属于某个对话情景的概率,但是,为了减少复杂的关系计算,提高算法的性能,朴素贝叶斯分类算法采用了独立性的假设,即属性之间相互条件独立,独立性假设忽略了在现实环境中属性之间具有一定关联性的特性,这给算法的分类准确性带来一定的影响。为此,本文提出了改进的TF-UIDF加权算法,对比传统的加权算法,TF-UIDF算法加入了属性在不同情景类别的分布情况,并且对文本训练集偏斜具有很强的适应性。通过TF-UIDF算法对属性在分类中的重要性进行评估,能够在不影响分类性能的情况下,用于帮助朴素贝叶斯分类器过滤掉重要性较低的属性,强化重要属性在分类计算中的作用。此外,为确保情景词库的可持续性使用性,本文在词库中加入了机器自学习的模块,采用预替换和评估系统相结合的方式确保了情景词库每一次学习的有效性,通过持续不断的学习和优化过程使得情景词库的分类效果保持最优。而在分布式环境方面,本文通过对主流的分布式框架进行分析,实现了轻量级的DaSys分布式并行框架,DaSys框架采用了基于计算类型的负载均衡算法和冗余主服务机的方式,使得情景词库具备了较高的性能和容错性。实验结果表明,TF-UIDF算法很好地弥补了朴素贝叶斯算法的不足,其训练集适应能力和分类准确性均高于传统算法;机器学习模块在实际的学习过程中亦表现出较好的训练集优化能力。情景词库在具备了基本的情景分类和学习功能外,还实现了高性能的需求,能够满足高并发请求的处理。
其他文献
眼睛蕴涵丰富的非言语刺激信息,从他人的眼睛获得信息在人类的社交中起重要作用。眼睛的注视方向传递了社交双方丰富的心理状态,特别是目光接触指示了他人指向觉察者的兴趣和意
本文主要研究自然工质CO2在热泵,制冷系统中的应用及性能方面的试验研究,通过前期对水源CO2热泵系统循环特性展开的试验研究,总结出不同参数对其性能的影响,为搭建空气源跨临
潘三煤矿17181(1)运输顺槽顶板岩层含水丰富,下向穿层钻孔抽采17181(1)运顺瓦斯受岩层富水影响较大。为解决这一问题,结合潘三矿11-2煤顶板实际情况,分析了影响下向穿层钻孔
以凤凰煤矿1402采煤工作面为工程应用背景,针对煤层薄、瓦斯含量高、透气性差、地质条件差的特点,运用岩层移动理论,研究了采煤工作面采空区大流量、高浓度卸压瓦斯的运移路
目的了解新疆农村维吾尔族老年人的生命质量状况及其影响因素。方法 2013年3—8月,对石河子乡的2个行政村、伊犁地区新源县哈拉布拉乡的4个行政村和库尔勒市哈拉玉宫乡的5个
侯孝贤作为台湾电影的代表人物之一,因其一贯的关怀主义和“苍凉”的风格,被认为是当代中国乃至国际最重要的电影人之一。本文主要从历史、景观、人物三个方面综论侯孝贤的电影,进行较为全面的研究,全文除绪论、结语外,主体部分由三章构成。第一章论说侯孝贤电影的景观呈现,从电影美学与叙事出发,包括长镜头的普遍运用、自然与人文的交叠、写实与抒情的融合等内容,指出侯孝贤透过声音和影像的辩证,以庶民记忆来质疑历史大叙
文章通过调查分析的方式,归纳总结辅导员队伍现状,提出了新时代提高高校辅导员职业能力的对策,即健全辅导员管理机制,为辅导员搭建发展平台;加强辅导员培训机制,提高辅导员专
在阅读推广的大背景之下,研究和探讨目录学知识的应用价值有着很强的现实意义。文章从阅读推广和目录学相同的价值旨归出发,分析目录学知识的价值在阅读推广活动中的体现,指
中华民族素来重视“以德为本”的教育根基,中国传统家训更是凝结着家族对后人德育思想的精华。有关人生中的各个方面的经验教训几乎在中国传统家训中都能找到相关阐述,而这些深
农村土地承包经营权信托登记制度,是农村土地承包经营权信托中的重要配套制度,就是通过信托登记的方式将土地承包经营权已设立信托的事实向公众予以公示的管理制度。其具有确