基于Web的概念属性抽取的研究

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:mengqingwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 针对现今通用搜索引擎存在信息量大、查询不准确、深度不够的问题,提出概念分析的方法。它是用于研究信息检索的一条重要思路,它所倡导的以叠置原理为核心的语义分析技术,目标是自动地解析复合概念的语义,解决从简单的符号处理走向词的意义处理。通过实现基于Web的属性抽取,以支持基于概念的搜索模型。最终使用实验来分析验证算法,所获得的查全率随着迭代的递增,不断增加;相反,准确率却相应下降,这个评测结果说明属性抽取方法的可行性。
  [关键词] 属性抽取;概念;过滤;查全率;准确率
  doi:10.3969/j.issn.1673-0194.2009.10.033
  [中图分类号]F270.7;TP391[文献标识码]A[文章编号]1673-0194(2009)10-0098-04
  
  0引言
  
  全球调查显示,在互联网上搜索引擎的使用率仅次于电子邮箱,搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量快速定位信息瓶颈的问题,在海量的网页里找信息,按照传统方式需要用户一个网站一个网站、一级目录一级目录往下找,要耗费大量的精力和时间,而且互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集是海量的,且结果里存在大量的重复信息和垃圾信息,用户越来越难迅速地找到符合的信息。
  本文所研究的属性抽取基于概念分析方法,它所倡导的以叠置原理为核心的语义分析技术,目标是自动地解析复合概念的语义。同一概念可以用不同的语言表现形式来表达,也就是“一义多词”,如“计算机”和“电脑”就表示同一个概念。而相同的词也可以表示不同概念,也就是“一词多义”,如“苹果”,既可以表示水果,也可以表示美国的一家著名的电脑公司,也就是词汇与概念之间的非一一对应。在特定的检索目的下,如果限制“红苹果”和“红颜色的苹果”都是在说明“具有红色属性值的苹果(水果)”这样的实体时,两个检索表达式是等价的。这样就可以避免单纯的字符匹配所带来的查准率,查全率不高的问题,也就是说,要从简单的符号处理走向词的意义处理。
  
  1国内外研究状况
  
  近几年,国内外研究人员在信息模型的基础上,加入了自然语言处理(NLP)以及机器学习的方法,从而使信息检索系统更为“智能”。NLP技术试图通过将某个查询的语义信息与文档的语义信息进行匹配来提高查询的性能。它通常用于自由文本的信息抽取,即把文本分割成多个句子,对一个句子的成分进行标记,然后将分析好的句子语法结构和事先定制的语言模式匹配,获得句子的内容。NLP技术已经被应用于大规模文本检索(Text Retrieval Conference,TREC)语料库,并获得了一定程度的成功。尽管人们声称,要使信息检索达到其最佳潜能,必须对文本和查询进行更深层次的语义分析,所做的努力就包括潜在语义分析(Latent Semantic Analysis,LSI)的方法,它可以运用统计技术去除文本中的“噪声”,让和文本更相关的语义特征凸现出来,而且也取得了不错的应用效果。
  如Hearst和Caraballo从语料库中抽取词汇概念间的上下位(isa)关系[1-2], Berland ,Charniak和Poesio等人从中抽取part-of关系[3-4], Almuhareb 和 Poesio 使用普通英语模板从Web中识别属性[5]。但应用本文的方法基于Web抽取概念属性的方法还是首例。
  
  2属性抽取算法整体流程
  
  实现基于Web的属性抽取首先要得出两个结果:一为分类规则;二为原始属性集。所谓原始属性集就是通过一个给定的模板和一个具体的产品基于Web首次抽取出的属性集合,但这个集合还存在一些垃圾属性,需要将它过滤掉,那么就要通过分类规则来测试原始属性以实现过滤。分类规则是基于分类算法得到的,使用最大熵分类器,匹配两个字典模板组和人工标注后的属性获得PMI特征值,由人工标注后的属性和属性标记词素生成词素特征值,分类器通过这两个特征训练,得到分类模型,即为分类规则,以作为过滤的依据[6]。属性抽取算法的整体流程如图1所示,对原始属性通过获得的分类模型进行过滤之后得到的属性集需进一步实现扩展,因为在自然语言中是不可能抽取完那些已用的属性,这里使用连接短语模板抽取属性的并列词,并对并列词进行验证,以判定并列词是否为属性。符合属性条件的放入属性集中,再对这个属性进行扩展、过滤,这是一个迭代的过程。
  
  2.1分类模型
  实现分类过滤属性首先要建立一个模型,描述预定的数据类集或概念集, 使其满足所有已知的事实。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(0或1)的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集即特征,通过最大熵分类器,执行命令[7]:
  Maxent train_data.txt –i 200 –m model –v
  其中train_data.txt为由PMI值和词素值形成的训练数据集,model为所创建的模型,参数- i 200指迭代200次,通过参数–v显示训练的过程。
  根据已知属性分类事实,寻找其中的规则,所建立的模型即可对未知属性进行判断。并且可以测试分类算法的准确率,仍使用命令行:
  Maxent –m model –p test_data.txt
  其中model即为训练时所得的模型,test_data.txt是从训练集中随机选取的数据。
  对未知属性的判断同样使用的命令行:
  Maxent –m model –p test_data.txt –o output.txt
  test_data.txt是测试数据量,即为未知属性的特征值,自动判断的结果存于output.txt文本中,从中过滤掉标注为“0”的非属性,图1每次循环中的过滤就是通过model模型使用命令行实现对扩展后的属性特征值分类过滤。
  2.2基于Web扩展基础属性组
  在自然语言中是不可能抽取完那些已用的属性。这主要是因为属性词可能是复合的,且新的复合的属性每天都在出现。例如,属性“能力”能与“飞行”和“语言”复合形成新的属性,分别为“飞行能力”和“语言能力”。因此,在获取基础属性集后还要进行属性扩展。
  本文扩展属性组的方法使用连接短语模板一。
  的x和NP(模板一)
  使用这样一个短语模板的目的是基于Resnik’s的假设[8],并列部分在语义上是类似的。
  给予一个可知的属性x,可以设想在模板一中的并列部分NP也是一个属性。例如,如果x是感光度,连接短语一显示了快门速度也是一个属性。
  的感光度和快门速度(连接短语一)
  在连接短语一显示了快门速度也是一个属性确认之前要确认两个问题:{1}并列部分NP是否是个名词短语;{2}并列的界限确定。
  解决第一个问题,可以使用名词知识识别器来判定并列部分是否是名词,前提确定是名词再来确定并列的界限;另一种方法,限定并列部分的字符数为不超过6个,再查看并列部分中是否有所给定的标点符号(" , ; . , - ; 。 、 ! ! ~ ”)(( 》 ? ?: “ "等),如果有的话就过滤掉包括标点符号右边的文本,最后获得的为并列名词。
  使用以上连接短语模板扩展属性获取的主要困难在于确定并列的界限。例如连接短语一,因为快门和速度都是一个名词,所以感光度和快门速度结构模糊,如连接短语二中所说明的。
  a.[感光度和快门]速度
  b.[感光度]和[快门速度] (连接短语二)
  在a中,感光度的并列部分是快门,而在b中,相应并列部分是快门速度。现可以使用称为位置交换搜索(PES)的方法来解决这个问题。PES假设,如果A和B在并列句“A和B”是并列部分,那么很可能有“B和A”结构的语句。那么,给予一个已知的属性a和通过名词识别器所验证得到的一个可能的并列部分b。通过Web搜索短语“的b和a”来测试b成为候选属性是否合适。如果b通过了PES测试,那么将它送到Web过滤器以进一步验证。
  
  3实验分析与结果
  
  3.1实验设计
  以Visual C 6.0为实验环境, 建立4个实验模块,其中第一个模块是计算分类特征值[6],第二个模块实现读入扩展后的属性集(人工认为标注都为“1”的属性)和通过分类器自动产生的属性标注,凡是自动产生的标注为“1”的属性都以正确的属性保存下来,并作为下阶段扩展属性模块的种子。本模块基于抽取属性的迭代数,来决定调用次数。
  第三个,笔者通过Google查询配置出针对具体产品实体相对应的属性的最佳匹配模板,并通过语言专家组的认可,最终确定“打印机的A为”这样一个模板,基于这个模板在Web上抽取出其中的A,再过滤掉结果中的非短语结构,最后形成原始属性集。以此为基础进行下面的扩展和过滤,过滤的算法是基于第一个模块中得出的分类模型。
  Google搜索限制查询结果最多1 000项,且每页面最多可显示100项。根据模板“打印机的”作为Google关键字获取1 000项查询结果,并精确定位于HTML标记“<td class=\”j”\><font size=-1>”和“</b><br><span”之间的内容,且过滤掉HTML标记“<” 和“>”之间及 “
其他文献
[摘 要] 本文以贵州少数民族地区为例,从少数民族的人口素质分析入手,探讨人口素质和劳动力就业之间的关系,为促进少数民族地区的劳动力就业提出相关建议与对策。  [关键词] 少数民族地区;人口素质;劳动力就业  [中图分类号] F241.4 [文献标识码] A [文章编号] 1673 - 0194(2013)13- 0026- 03  1 前 言  贵州是个多民族聚居的省份,除汉族外,全省世居的少数
[摘 要] 对于学会计的学生来说,中级财务会计是一门非常重要的课程,但是现实是很多学生在学完之后居然面对实务不知如何下手,特别是独立学院,这就使得其教学改革迫在眉睫。本文以共青学院为例,就当前教学存在的问题提出一些改革建议。  [关键词] 中级财务会计;教学改革;教学方法  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 12. 072  [中图
[摘 要] 移动供应链是一种新兴的供应链管理模式,具有供应链管理和移动商务双重优点,它能运用于企业信息化中并为企业发展注入活力。本文将探讨移动供应链的应用模式,并进一步分析其应用的优势、劣势、机会和威胁,即所谓的SWOT分析。  [关键词] 移动供应链; 移动商务; SWOT分析  doi:10.3969/j.issn.1673-0194.2009.10.032  [中图分类号]F270.7[文献
[摘要] 对山东黄金三山岛金矿网络安全综合监控平台的研究,旨在有效指导下一步完善三山岛网络安全。在前人工作的基础上,采用主动防御的方法,总结了三山岛金矿网络系统特征,分析了三山岛金矿网络安全的潜在问题,探讨了网络安全维护的解决方案,得出主动防御,边界防护及主动隔离的技术方案。  [关键词] 三山岛金矿; 网络安全; 技术方案  [中图分类号] TP393 [文献标识码] A [文章编号] 1673
[摘 要] 电子表格Excel软件作为一种功能强大的数据处理工具,在工作中的应用日益广泛。公式与函数是Excel工作表的核心。本文通过介绍Excel数据表查找函数VLOOKUP的功能和格式,举例说明了VLOOKUP函数在会计工作中的应用。  [关键词] VLOOKUP函数;功能;语法;应用  [中图分类号]F232[文献标识码]A[文章编号]1673-0194(2008)10-0010-03   
[摘 要] 气象观探测设备能实时采集大气、海洋等常规与非常规资料,是整个气象信息系统正常工作的基础。为落实装备管理的“三化”要求,提升复杂电磁环境下装备管理系统化、信息化及自动化水平,气象观探测设备实时监控系统以地面气象遥测仪和主要的气象雷达等关键设备为监控对象,通过开发气象观探测设备运行状态采集程序和状态监控单元,实现气象观探测设备的运行状态监测和管理的自动化。系统由信息采集分系统、信息汇集与转
[摘 要] 本文从股价同步性的影响因素出发,分析了“信息效率观”和“非理性行为观”两大学派的研究脉络,指出在我国针对“非理性行为观”的研究将具有重要意义。针对信息披露质量与资本市场效率的关系存在的正反两种解释,提出在利用股价同步性指标衡量信息效率时要考虑我国资本市场股票的定价机制。  [关键词] 信息披露质量;股价同步性;资本市场信息效率  [中图分类号] F830.91 [文献标识码] A [文
[摘 要] 我国中小企业的信息化建设迫在眉睫。但是由于受到资金、人才、技术等资源的约束,实现信息化尚存在一定的困难。本文分析了基于SaaS的中小企业信息化模式的内涵和优势,并从中小企业主体的角度出发,指出在实施这一模式时应注意的若干问题。  [关键词] 软件即服务;中小企业信息化;服务模式;信息化  [中图分类号]F270.7[文献标识码]A[文章编号]1673-0194(2009)02-0078
[摘 要] 本文试图从管理心理学的视角对团队合作中的“搭便车”现象进行深入的探索,在准确把握现象本质和类型的基础上,从个人心理和团队环境两个层面分析现象产生的原因以及对工作效率和团队发展造成的负面影响,并相应地提出了解决问题的对策和建议。  [关键词] 搭便车; 人性假设; 团队管理; 工作效率  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2013 .
[摘 要] 企业过度投资会造成资源的浪费,影响企业价值的实现,自由现金流量是导致企业过度投资的主要原因之一。由于信息不对称、代理问题和股权制衡等方面的原因,经理层倾向于使用自由现金流量进行过度投资。企业可以通过完善资本市场建设、完善公司治理机制和优化经理奖惩机制等方面抑制自有现金流量引发的过度投资。  [关键词] 自由现金流量;过度投资;委托代理;股权制衡  doi : 10 . 3969 / j