基于Internet的商业信息抽取

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:unix365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上数据量急剧膨胀使其成为企业竞争情报获取的重要来源,然而如何从这个信息海洋中找到企业所需要的情报成为困扰企业竞争情报获取的难题。商业信息抽取作为解决这一难题的重要手段,其抽取结果的好坏对最终竞争情报的形成有着重要的影响。本文对Web环境上的商业信息抽取技术进行了研究,主要关注两个方面:商业信息中的关系抽取和实体抽取。针对抽取对象的不同特征,研究不同的技术方法,以提高抽取的召回率和准确率。其中关系信息抽取以职位关系抽取为例,分析了职位关系实例在网页中的呈现特征,设计了基于结构特征的职位关系抽取算法;实体抽取以机构名识别为例,基于语言学中语法对语义的依赖关系和共生性词场两个观点,提出了语义隐马尔可夫模型的机构名识别算法。两个算法有效改善了商业信息抽取效果,同时也为其它商业信息抽取提供了参考。本文的主要贡献主要有:(1)提出了基于Web的职位关系抽取算法。职位关系反映了一个人在一个组织所占据的职位,是一种重要的竞争情报。本文分析了网页中职位关系实例的特征,并利用结构化系数和结构化文件片断对这些特征进行描述,最后利用模式匹配的方法从结构化文件片断中抽取出职位关系。实验结果表明算法达到了准确率超过96%、召回率超过87%的较好结果。(2)提出了基于语义隐马尔可夫模型的中文机构名识别算法。语义隐马尔可夫模型的构建以语言学中的语法对语义的依赖关系和共生性词场两个重要观点为理论依据。一个句子可以看作是一个词的序列,这个序列背后隐含着一个语义序列,且语义序列决定了句子的组成。我们首先对机构名及其上下文中的词进行语义标注,然后构建语义隐马尔可夫模型。在机构名上下文选择时利用共生性词场现象来决定上下文的边界。事实上,算法试图利用机构名与其上下文之间的语义关联性来提高机构名识别的效果。实验表明算法改善了机构名识别效果,而且普适性更好。
其他文献
2003年,Al-Riyami和Paterson在文献[1]中第一次提出了无证书公钥密码体制。这种体制结合了传统公钥密码体制和基于身份公钥密码体制的优点,因为既不需要传统公钥密码体制中的
最近几年来,无线局域网技术发展非常迅速。由于它具有很多传统有线网络所不可比拟的优点,例如组网灵活、布线容易、支持移动接入、价格便宜等等,现在已经广泛应用于各个领域之中
随着社会经济的发展和科学技术的进步,我国的人口计划生育家庭奖励及帮扶工作也实现了数字化、网络化管理,很大程度上减少了人工操作的繁琐性和易出错性。然而,随着业务需求的不
学位
粒计算是人工智能领域新兴起的一个研究方向,是一种新的处理数据的方法和范式。该方法主要用于处理不确定的、模糊的、不精确的、部分真的和海量的信息,其基本思想是利用不同
量子遗传算法是将量子计算与遗传算法相结合的一种新的优化方法,具有重要的研究价值和实用价值。量子遗传算法全局寻优能力强,但局部寻优能力较差。针对这一问题,本文对量子
由于复杂的网络坏境,多跳无线网络面临的多径衰落效应非常强烈,严重地影响了无线信号的传输,需要采用有效的抗衰落手段来增强无线网络的传输质量。协作通信因能克服信道衰落、提
Voronoi图作为空间离散划分的基本几何结构单元,是计算几何领域重要的研究方向之一。Voronoi图因其垂直平分的特性,特别适用于利用有限体积法求解如液体间流动、热传导等具有某
随着网络、通信技术的不断发展,我国高等院校普遍建立了自己的校园网络,特别是随着我国在科技人才的培养和教育资源方面的深度投入,数字化校园的建设日渐成为各大高校的主流
随着工业现代化和互联网信息化进程的不断推进,精准快速有效的信息搜索技术在机械产品变型设计中显得特别重要。资料数据统计显示,在三维CAD新产品开发设计中,约40%是直接重