论文部分内容阅读
Internet上数据量急剧膨胀使其成为企业竞争情报获取的重要来源,然而如何从这个信息海洋中找到企业所需要的情报成为困扰企业竞争情报获取的难题。商业信息抽取作为解决这一难题的重要手段,其抽取结果的好坏对最终竞争情报的形成有着重要的影响。本文对Web环境上的商业信息抽取技术进行了研究,主要关注两个方面:商业信息中的关系抽取和实体抽取。针对抽取对象的不同特征,研究不同的技术方法,以提高抽取的召回率和准确率。其中关系信息抽取以职位关系抽取为例,分析了职位关系实例在网页中的呈现特征,设计了基于结构特征的职位关系抽取算法;实体抽取以机构名识别为例,基于语言学中语法对语义的依赖关系和共生性词场两个观点,提出了语义隐马尔可夫模型的机构名识别算法。两个算法有效改善了商业信息抽取效果,同时也为其它商业信息抽取提供了参考。本文的主要贡献主要有:(1)提出了基于Web的职位关系抽取算法。职位关系反映了一个人在一个组织所占据的职位,是一种重要的竞争情报。本文分析了网页中职位关系实例的特征,并利用结构化系数和结构化文件片断对这些特征进行描述,最后利用模式匹配的方法从结构化文件片断中抽取出职位关系。实验结果表明算法达到了准确率超过96%、召回率超过87%的较好结果。(2)提出了基于语义隐马尔可夫模型的中文机构名识别算法。语义隐马尔可夫模型的构建以语言学中的语法对语义的依赖关系和共生性词场两个重要观点为理论依据。一个句子可以看作是一个词的序列,这个序列背后隐含着一个语义序列,且语义序列决定了句子的组成。我们首先对机构名及其上下文中的词进行语义标注,然后构建语义隐马尔可夫模型。在机构名上下文选择时利用共生性词场现象来决定上下文的边界。事实上,算法试图利用机构名与其上下文之间的语义关联性来提高机构名识别的效果。实验表明算法改善了机构名识别效果,而且普适性更好。