基于海量学术资源的知识元抽取研究

被引量 : 0次 | 上传用户:dingdingdeaiqing86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于海量的学术资源,若是将知识的控制单元由文献深化到知识元,并把文献分解为一个个独立的知识元,这样会便于知识的存储与查找,以缩短知识创造的过程。另外,文献中知识元的链接关系可以揭示出相关领域之间的隐性知识,以挖掘出新的知识单元,从而实现知识的增值转化,加速知识创新的进程。学术资源中知识元的研究,对于推动人类对知识利用及新知识创造的进程有着至关重要的作用。知识元的抽取是其相关研究领域的基础性工作。目前关于知识元的理论研究还没有统一的认知,不同知识元研究领域对知识元的模型有不同的定义。另外当前研究证实了文献之间存在着知识元的隐含关联,但是要从学术资源中抽取知识元还没有行之有效的方法,而采用人工操作的工作量太大,实现起来比较困难。虽然有学者已经尝试着利用计算机自动抽取知识元,但是他们对知识元的认知有些差异,系统的抽取效果也不够理想,因此不适合用到学术资源的知识元抽取工作当中。本文将基于学术文献资源,致力于该领域知识元的自动抽取研究工作。本文首先结合数字图书馆学术资源的特征,提出能够体现其特征的知识元七元组结构模型。为了知识元抽取的全面性,对学术文献资源进行主题划分成为不可或缺的工作。针对主题划分工作,本文引入归一化割准则用于主题划分,其中权值矩阵需要准确地反映文本关系图中各个节点间的相似程度,它影响着分割准则的分割效果。文中从语义的角度计算节点间的相似度,完成权值矩阵的构建,并在此基础上提出基于归一化割的主题划分算法,并验证了该算法在主题划分中的有效性。然后,本文基于同一领域内的学术文献资源,提出术语定义句子抽取算法。该算法首先对学术文献中句子进行硬匹配,生成候选术语定义句库,然后结合定义隶属度算法和句子重要度排序算法,进一步提升抽取术语定义句子的准确性。实验表明本文算法的效果表现良好。接着,将主题划分算法及术语定义抽取算法融入抽取系统中。首先针对学术文献资源在规模上变大的问题,本文借助潜在语义分析模型构建文本关系图,并用于主题划分模块,然后结合术语定义抽取模块,构建知识元抽取系统,最终完成知识元属性-内容描述的抽取工作。同时,本文在抽取到该属性的基础上介绍了知识元其它属性的抽取思想。最后,本文对研究工作进行总结,并提出了展望。
其他文献
目的探讨肩关节镜微创手术治疗肩关节滑膜软骨瘤病的疗效。方法选取肩关节滑膜软骨瘤病患者11例,行肩关节镜微创病灶清理手术。采用美国加州大学(UCLA)肩关节评分及疼痛视觉
茶文化是我国传统文化的主要内容之一,不仅形式丰富多样,而且具有深厚的思想内涵,对提升公民的精神品质有着重要的影响作用。本文以纪录片《茶,一片树叶的故事》为例,对其中
汪康年是戊戌时期的重要政论宣传家,他在《时务报》上发表政论,提出设议院、兴民权的主张,倡导“相爱”的群学观;主张自下而上进行改革。这些政论对推动政治改革思想的传播;推
目的:建立心血管变异性的数学模型,探讨变异性频谱的主要频率成分机理。方法:建立了包含血流动力学和自主神经系统,尤其考虑了心血管中枢整合的闭环控制数学模型。结果:成功地模拟
肇源农场是黑龙江优质稻米的重要产区,所生产的稻米口感良好,品质优异,但是在销售中并没有体现出较好的价格优势和品牌溢价能力。肇源农场稻米的江水灌溉附加值以及土壤有机
目的探讨人参炔醇(PNN)对人胰腺癌细胞PANC-1增殖的抑制作用。方法将人胰腺癌细胞PANC-1分为3个PNN浓度(1、9、27μmol/L)组和对照(C)组,MTT检测各组细胞增殖情况,流式细胞术
<正>一、采购与付款业务内部控制的基本制度1.不相容职务岗位分工制度。(1)请购与审批。企业物品采购应由使用部门根据其需要提出申请,并经分管采购工作的负责人进行审批;(2)
日军对华北的文化侵略,是同它的军事、政治、经济侵略同步进行的,既有其强制性,又有其潜移默化性。其组织形式多样化,既有日本人亲自出马的“宣抚班”,又有日本人充当顾问的
建立了一种分子印迹固相萃取-超高效液相色谱-串联质谱同时测定猪肉中5种β2-受体激动剂残留的方法。样品经过均质处理后置于乙酸铵/乙酸缓冲液中,加入内标物和β-葡萄糖醛酸
公务员惩戒制度是公务员管理的重要内容,然而现有的针对公务员惩戒制度的研究总是易于陷入就惩戒而谈惩戒的窠臼,未能用新的方法、从新的角度来研究公务员的惩戒制度,使得有