基于海量文本的企业行为识别及行为关系发现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:haixinmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体在自然语言处理中表示语言描述的对象,例如商业新闻中的企业和旅行游记中的景点等。隐藏在文本中的实体关系具有极大的价值,例如企业关系可以辅助决策,景点关系可以帮助推荐等。因此从文本中发现实体关系成为了一项极具管理意义的工作。在传统的实体关系抽取研究中,研究者们主要是依据实体之间的共现关系进行。这样抽取出的关系是异质的,即抽取出的关系不一定是同一类关系,然而更紧密的同质关系更能体现实体间的联系。假设我们建立企业的关系是因为他们的某种具体行为,而不是仅仅因为他们出现在同一篇新闻稿中。那么在构建出的网络中,实体的关系将更加紧密,从而使得后续分类或预测工作的准确度更高。抽取同质关系主要面临三个挑战:首先,同质关系在网络文本中的存在很稀疏。其次,文档包含的实体未知。最后,语料包含的关系集合和文档对应的标签也未知。针对以上挑战,本文着手在互联网的海量文本中进行企业关系的预测。我们需要分别解决实体识别和行为抽取两个问题,并以此来对实体的同质关系进行建模。本文关注的第一个问题是实体名识别——需要去探究文档中字(词)元素组成实体名的可能性。本文将该问题转化为一个复合词识别问题。本文提出了一种度量候选样本元素分布的方法。根据分布,样本被分为四组,然后对每一组分别使用八十余种关联度进行识别。实验验证了本文提出的分组策略会提升复合词识别的准确程度。另外,针对识别效果不理想的组别,本文还提出了AMIS(Association Meassurement Introduction Strategy)算法进行改进。本文关注的第二个问题是行为的抽取。本文提出了一个“聚类+标注+分类”的框架。实验表明,本文的提出的方法在识别行为的效果上,优于其他传统表征结合经典的分类方法,除此之外还能够识别出稀有的企业行为。本文以实体为节点,特定的行为为边构建企业的行为关系网络。本文关注的第三个问题是,在给定现有关系网络的情况下,判断原本没有关系(边连接)的企业之间建立关系(边)的可能性。本文改进Node2Vec模型训练节点向量,得到一个适合的模型进行预测。实验证实了改进后的Node2Vec确实会得到更好的效果。本文的主要贡献是提供了从互联网语料中挖掘和使用企业同质关系的技术路线。本文针对实体名识别提出的样本分布度量方法、分组策略以及AMIS算法,针对企业行为识别提出的“聚类+标注+分类”的框架,以及针对关系预测改进的Node2Vec模型,为该技术路线中的关键步骤所面临的问题提出了良好的解决方案。
其他文献
随着社会市场经济飞速发展,我国建筑事业已发生了一系列的变化。相应地,对于建筑工程建设来说,工程监理是其中不可或缺的一部分,扮演着重要的角色。因此,本文作者以建筑工程监理为
随着教学改革的进一步深入,交互式电子白板作为一种新型信息技术设备,整合了现代多媒体和传统黑板的功能,成为课堂教学的重要工具和手段,因此,在教育领域中得到了越来越广泛的应用
目的探讨康艾注射液联合常规化疗及贝伐珠单抗治疗非鳞非小细胞肺癌的疗效及对患者免疫功能的影响。方法以我院2014年1月至2017年1月收治的经病理学确诊的60例非鳞非小细胞肺
基于2016年10月和2017年4月在台州益顽湾海域(27.9°N~28.6°N和121.1°E~121.9°E)的渔获物调查数据,采用功能群结合种间相遇机率(PIE)与生态位的方法,对主要游泳动物群落特征
<正> 加工地参系列食品,前景好、效益高。投资规模:10万元左右。适宜地区:地参产区。适合人群:普通农户、下岗工人及加工项目投资者。案例:云南省剑川县生产的各种"地参"风味
本文归纳了上一轮普通高等学校本科教学工作水平评估的经验教训,综述了国外高等教育质量评估的发展趋势及其借鉴意义。在此基础上,就新一轮本科教学评估的价值取向、制度设计
从关注喀斯特石漠化生态环境恢复重建到关注石漠化农村社区发展是喀斯特石漠化综合防治领域的重大创新和突破;石漠化综合防治可持续性的核心在于满足当地社区具体需求并促进环
无边界管理强调的是边界的可渗透性,即把组织的边界不再当作传统意义上的"墙"而看作类似于生物有机体中的"隔膜",信息、资源、构想及能量应能快捷便利地穿越组织的"隔膜",使
<正> 黑龙江省位于祖国东北,因境内最大的河流黑龙江而得名。境内的主要河流嫩江、松花江和乌苏里江等均汇入黑龙江,而后于俄罗斯尼古拉耶夫斯克注入鄂霍茨克海;仅南部的绥芬