基于用户查询日志的中文互联网问句自动生成和查询压缩研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ppl_fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户和规模爆炸式增长,如何让用户更快捷的搜索到需要的信息成了学术界和搜索引擎公司共同关注的问题。搜索引擎上用户查询的形式是多种多样的,如何正确的分析查询是理解用户意图、帮助用户得到信息的关键,有广泛的应用前景和重要的地位,是目前研究的热点。用户查询日志记录着所有搜索引擎用户的查询和点击行为,是分析用户行为、改进搜索结果最有效的数据资源。本文应用中文搜索引擎的查询日志,重点研究了基于查询日志的问句自动生成和查询压缩方法,主要内容如下:第一,基于互动类问答知识库的中文查询问句自动生成。互动类问答知识库的出现为用户提供了获得高质量知识的途径,用户可以在上面提问、回答和评价他人对问题的答案。为改进互动类问答知识库的搜索并扩大其问题的数量,我们提出了一种问句自动生成的方法,该方法从用户查询日志中挖取问句模版,建立查询到模板的评分机制,当查询到来时找到与之最相关的模板,并将该查询嵌入模板中。实验结果显示我们的方法的1-best准确率为67%,比互动类问答知识库百度知道的搜索算法效果更好。第二,基于用户查询日志中文查询压缩。互联网搜索引擎的查询有越来越长的趋势,并且长查询由于含有冗余信息搜索结果相对不佳,为此我们研究长查询压缩技术。将长查询分词,利用有监督机器学习的方法以词为单位判断这个词是否为查询中的关键成分。分别采用基于支持向量机的分类方法和基于条件随机域模型的序列化标注方法,实验对比两种方法的结果,序列化标注方法的效果更好。同时,通过分析不同特征对关键成分识别的影响,增加了新的有效特征,改进查询压缩的效果。
其他文献
掌纹识别作为一种新兴的生物识别技术,因其识别区域大、易采集、精度高和可靠性高等优点得到了较快的发展。掌纹识别算法包括掌纹图像采集、掌纹图像预处理、掌纹特征提取以
在煤矿钻孔水位监测系统中,钻孔水位是煤矿最重要的安全参数,水位传感器是实现其测量的主要设备。目前,常用的浮子式水位传感器工作原理简单、稳定可靠,广泛应用在水利水电行
无线传感器网络是资源受限型网络,传感器节点的能量、通信能力、计算和存储能力都是非常有限的。为了维持网络更长的工作时间,设计能量高效的路由协议成为无线传感器网络研究面
目前,计算机视觉系统正在广泛地应用于视觉检测、视觉导航和自动化装配领域中。在大多数视觉系统中,摄像机都是作为摄像工具,对摄像目标进行处理,但是摄像机是被动传感器,当
本论文致力于软件可靠性优化分配技术的研究与实现的目的。全面分析了串联系统、并联系统、基于重要度复杂度、基于故障率分析、架构方式和基于AHP方式的多种软件系统可靠性
随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重要难题。数据仓库与OLAP(联机分析
长时间运行的Web应用系统存在软件老化现象。软件老化会造成严重的经济损失、对系统可靠性影响大,如何解决Web应用系统软件老化问题已成为当前研究的热点。为了降低软件老化
近年来,随着智能接口和人机交互技术的迫切需求和快速发展,以人脸表情识别为主的情感计算成为新的研究热点。人脸表情识别能够增强人机交互的智能性和友好性,具有重要的科研
蚁群优化算法( ACO )内在的并行性、鲁棒性等良好特性使其成为解决复杂组合优化问题的一种非常有效的计算模型,但ACO亦存在初始求解速度慢、易出现早熟或停滞现象的缺陷,本文
如何快速地、准确地诊断癌症一直是困扰着医生的难题,很多肿瘤病例由于病变区域介于良性与恶性之间,一些欠缺经验的医生不能及时下诊断,使得病患耽误医治的最佳时机。癌症的发病