面向搜索引擎的自然语言处理关键技术研究

被引量 : 0次 | 上传用户:L1010732268
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,互联网上的信息资源越来越庞大,用户越来越难以准确快捷地获取所需信息,从而产生了所谓的信息焦虑。互联网搜索引擎以其基于关键词匹配的信息检索机制为用户在瞬间搜寻出所需的相关信息,成为缓解人们信息焦虑最为有效的工具。目前,搜索已成为互联网上的一种日常活动,并带来了巨大的商机。然而,面对网络上越来越多样化的信息,基于关键字查询的搜索引擎存在和凸显出如下主要的缺点:难以构造出准确表达用户需求的查询请求,返回结果冗余甚至无用信息多,查询主观性信息的性能低下。为了最大程度地满足用户需求,面向人性化、智能化、个性化的第三代搜索引擎技术应运而生,并得到了广泛关注。近年来,随着搜索由基于关键字层面向基于知识层面转化,面向搜索引擎的自然语言处理技术逐渐成为新的研究热点,其研究的主要关注点在于:更好地理解用户的查询意图,更准确地推荐相关查询请求,返回更相关的查询结果,更好地筛选和组织查询结果等,力求提供更智能化、更人性化的人机交互,辅助用户更加便捷地找到想要的信息。本文在相关的查询推荐、查询意图识别、查询理解、重用问题答案库时的答案摘要等方面进行了深入而细致的研究。本文工作的主要贡献和创新点总结如下:1.研究基于比较关系的查询推荐,并提出一种弱监督的从比较性问题中挖掘比较对象的方法通常的查询推荐(Query Suggetion)都是推荐与用户初始查询请求相关的查询请求,例如,在用户搜索ipod touch时,搜索引擎推荐ipod touch break prison。然而,在不同的搜索场景下,用户所需要的相关查询是不同的。例如,在购买商品的产品搜索场景下,当用户搜索你Nikon d200时,用户往往想要了解该产品的相关信息,并将其与同类产品作比较,从而做出购买决策。这时,推荐Cannon 300d并提供两者之间的对比信息,将有利于用户尽快做出购买决策。当然, nokia d200 lens也是有用的推荐,然而相比之下,类似Cannon 300d的查询推荐,往往需要用户具有一定的知识储备,对同类产品有一定了解,这也往往是用户最为缺乏的知识,用户对此类推荐的需求更为迫切。由此可见,将用户初始查询请求的相关查询请求按其与初始查询请求的语义关系进行分类,根据搜索场景的不同给予不同类别的查询推荐,将使得搜索引擎更加个性化、智能化。由于比较备选方案是人们的日常决策行为中至关重要的一个步骤,本文针对用户比较行为这一搜索场景,提出基于用户查询请求的可比较对象的查询推荐。由于用户比较行为的主观性和复杂性,判断两个对象的可比性是困难的。幸运的是,互联网上有网络用户产生的大量意图比较两个或多个对象的比较性问题,这些比较性问题提供了人们想比较什么的证据,例如Which to buy, iPod or iPhone?。在本文中,比较性问题中用于进行比较的对象被称为比较对象,例如上述例句中的iPod和iPhone。为了从比较性问题中挖掘比较对象,本文首先需要识别一个问题是否是比较性问题。根据本文的定义,一个比较性问题必须是一个意在比较至少两个对象的问题。值得注意的是,包含两个对象的问题如果不包含比较的意图就不是比较性问题。但我们观察到:如果一个问题包含两个可比较对象,则该问题极有可能是比较性问题。本文利用这一点设计了一个弱监督的自举(bootstrapping)方法,可以在识别比较性问题的同时,抽取比较对象。据我们所知,这是第一个意图通过推荐好的比较对象以支持网络用户的比较行为的研究。也是第一次提出使用网上的比较性问题作为媒介来反映用户真实关心的比较对象。本文提出的弱监督方法的F1-measure在比较性问题识别上达到82.5%,在比较对象抽取上达到83.3%,在从比较性问题识别到比较对象抽取的整体系统上达到76.8%。2.利用对象之间的比较关系,提出一种基于图聚类的用户意图识别方法,并建立针对用户比较行为的比较搜索系统。基于关键字查询的搜索引擎中,用户往往只能使用有限数量的词汇来抽象和概括他们的需求。在用户将其需求抽象成有限的查询关键字的过程中,部分有用信息被丢失,从而导致用户查询意图不慎清晰。目前,搜索引擎搜索的结果通常是满足用户各种查询意图的文档的合集,用户需要阅读大量相关文档才能获得自己确实所需的信息。因此,在对用户的查询请求进行搜索之前,尽可能确定用户的查询意图,并进行面向用户查询意图的搜索将有利于更准确地找到用户想要的信息。如上所述,通常一个由一个或多个查询关键字组成的用户查询请求可能出于多种不同的意图。举个最经典的例子,当用户查询apple时,可能是查询一种水果,也可能是查询一种电子产品的品牌。而apple作为电子产品品牌时,用户可能想要查询apple的产品,也可能想要查询apple的网点分布。如果用户想要购买apple的产品,比如用户输入apple itouch ,有可能是想搜索产品介绍,有可能是想看不同网站的价格比较,还有可能是想看该产品与其它同类产品的比较。即使我们确定用户查询的意图是想要将apple itouch与其它产品相比较,用户还可能想比较产品的不同方面。比如,从产品升级的角度,用户可能想将其与ipod classic , iphone相比较;从娱乐功能性的角度,用户可能想将其与psp相比较等。可见,确切地理解用户的意图并不是件简单的任务。本文主要关注用户的比较行为,针对用户的查询请求,利用与其可比较的对象之间的比较关系,提出一种基于图聚类的用户意图识别方法,每个可能的用户意图由一组用户查询请求的可比较对象表示。利用信息抽取的方法,本文给识别出的每个用户意图赋予一个语义标签。实验证明,本文提出的用户查询意图识别算法的准确率达到92.7%以上。另外,本文还建立了一个基于用户比较意图识别的比较搜索系统,该系统在识别用户查询请求的不同比较意图的同时,还提供了不同的比较意图下,用户查询请求与相应的可比较对象的比较信息。3.研究面向开放域的查询理解,针对由多个查询关键词组成的复杂查询请求,提出一种无监督的基于查询模板的查询理解方法在搜索引擎中,用户的查询请求除了单个实体或对象(如Obama)以外,还存在大量的由多个查询关键词组成的复杂查询请求,例如flight from Beijing to New York。这些查询多是面向任务的,并要求得到精确的答案(如0:00, Nov.19th, 2010 )。在现有的搜索引擎中,用户通常要进行如下操作:首先,检索相关网页或在线数据库;然后,通过逐一阅读相关网页或向相关的在线数据库提交数据库检索请求以寻找所需信息。为了简化这一繁琐的过程,研究者们提出了结构化检索。而查询理解是结构化检索的至关重要的一步。具体来说,本文所指的查询理解包括识别和消歧复杂查询中的查询关键字两个步骤。例如,给定查询harry potter showtime in beijing ,本文先识别查询词harry potter , showtime ,beijing (即查询关键字识别);然后分辨每个查询词的含义并分别标记,这里harry potter被标记为movie name , beijing被标记为city ,而showtime是电影的一个属性(即查询关键字词义消歧)。本文主要关注如何在开放域的环境下理解用户的复杂查询请求:首先,利用现有技术自动创建一个语义词典;然后,尝试使用自动创建的语义词典进行开放域查询理解,即查询关键词识别与消歧。在本文的问题设定中,我们致力于解决以下两个问题:1)自动创建的语义词典无论在语义标签还是词或词组实例中都包含很多噪音,这些噪音将严重降低查询理解的性能。2)在开放域环境中,大量的语义标签是必需的。这使得以前用于处理有限数目的语义标签的基于序列标注技术的查询理解方法不再适用。为了解决以上问题,本文提出一种基于查询模板的查询理解方法。该方法先利用一个无监督的互增强的算法挖掘查询模式;然后基于挖掘到的查询模式和语义词典进行查询关键字识别及消歧。据我们所知,本文的研究是第一个利用自动创建的语义词典进行查询理解的尝试。4.研究社区问答服务的知识重用中答案完备性问题,提出了一种基于词的依赖层次的面向问题的答案摘要方法。传统的搜索引擎在面对一些复杂问题的查询时,其查询结果往往差强人意,例如how to recover my doc file?或what is the best smart phone?。这些复杂问题通常需要人的经验或意见的参与,答案因人而异或因情况而异,没有唯一正确答案。而目前,社区问答服务的出现,为解决这一问题提供了新的资源。如何重用社区问答服务中积累的问题答案知识提高复杂问题查询的满意度成为该研究的一个研究热点。但是,目前的研究主要集中在评测社区问答服务积累的答案的准确性上,对于答案的完备性没有涉及。事实上,由于复杂问题的正确答案往往并不唯一,提供汇总了不同情况下不同个人的回答的完备答案对提高搜索满意度也是至关重要的。本文尝试对一种特殊的问题——调研问题(survey questions)——进行答案摘要,以提高社区问答服务中可重用问题的答案的完备性。调研问题是指请求回答问题的用户推荐针对某种需求的最佳选择的问题。显然,对调研问题而言,答案的完整性至关重要,因为一方面不同的用户可能对不同的建议感兴趣,另一方面某个答案被推荐的次数也反映了该答案的值得推荐指数。据我们所知,本文最先指出在社区问答服务的知识重用中答案完备性的重要性。同时,这也是第一个关注调研问题的研究,调研问题作为面向意见的问题中一种有趣的类型,问题的完整性对其而言至关重要。除此之外,本文推荐使用面向问题的答案摘要方式产生完整的答案。本文提出一种有效的建立词与词之间语义依赖性的层次结构的方法,并利用建立的层次结构进行面向问题的答案摘要,从而基于社区服务中用户提供的所有已有答案生成一个完整简洁的答案。
其他文献
目的:为积极促进麻风病防治工作的有效开展,在低流行状态下对麻风病防治实现4个转变,麻风病防治工作由院内转为院外防治的模式。方法:随着医疗科学技术的发展和医学模式的转
序列图像匹配的基本任务是利用图像之间的某种特性将同一景物的两幅图像互相联系起来。人类识别和匹配物体使用的主要特征是物体的棱线及轮廓,而在实际的生活当中,直线常是物体
气道重塑是支气管哮喘(简称哮喘)的一个重要病理特征,但其具体发生机制尚不明确。整合素(Integrin)是一种由α、β亚单位组成的二聚体糖蛋白,能通过独特的信号传导途径调控细胞生长
自从1994年中国介入互联网,互联网在中国已经走过了15个年头。与此同时,作为互联网最为重要、主流和健康的网络交易模式,也已经由1997年的兴起,不经意的走过了一个轮回。网络
传统聚落建筑空间的形成体现了特定的历史时期及地域环境,是中华文明的瑰宝。其环境意识、社会适应性、形式表达及空间创作手法等,都可以成为地域建筑设计的源泉。关于中国传
<正>随着医院的发展,我院不断的开展了许多新的微创手术,相应地引进许多内镜器械。分别有电视腹腔镜胆囊摘除器械、鼻窦镜、膀胱镜、输尿管肾镜、前列腺电切镜等。这些都是价
网上银行又称网络银行、在线银行,是自从上世纪七十年代Internet技术逐渐发展起来后衍生出的服务,网上银行并不是银行计算机系统终端的简单延伸,它是现代高科技与传统金融业的
世界各国都普遍存在着罪犯和犯罪现象。这两者密切相关,不可分割。目前,如何改造罪犯已经成为世界各国面临的共同课题,它不但关系到罪犯个人的生存与生活,也关系到国家的稳定与发
<正>近几年的实践表明,消费者的通货膨胀预期是加剧市场波动的一个重要因素。经济过热时,它有加温作用;市场疵疲软时,它又产生致冷效应。这是因为,消费者的通货膨胀预期是一
目的:观察芬太尼透皮贴剂治疗中、重度癌痛的镇痛效果和不良反应。方法:选择80例中、重度癌痛患者,使用芬太尼透皮贴剂止痛,观察其止痛效果、生活质量变化及不良反应。结果: