一种基于特征树的Web碎片信息抽取算法

来源 :兰州理工大学学报 | 被引量 : 0次 | 上传用户:fantasy1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为进一步解决Web碎片信息所特有的随意性给信息抽取带来的困难,通过对Web碎片信息DOM树的结构特征和Web碎片信息的文本特征(如时间、作者、信息等)进行研究,发现将两者相结合能有效地进行Web碎片信息抽取,提出一种基于特征树的Web碎片信息抽取算法.以新浪微博、腾讯微博、搜狐微博等在内的100个信息分享平台作为实验对象,实验结果表明,该算法具有良好的性能,可以达到较高的召回率与查准率.
其他文献
为满足人才培养的需要,解剖学教学应进行必要的改革。理论实践一体化教学能调动学生学习积极性和主动性,是高素质人才培养的创新模式。一体化教学要求从思想理念认识、教师专业
提出一种应用于科技文献分类的文本特征选择方法.该方法运用了聚类与关联规则的思想,对文本特征进行逐层选择.同时为提高K-means算法的聚类性能,对K-means算法做了相应的改进
文章主要从口述历史访谈、口述文稿处理、口述历史成果的艺术呈现、文献收集与工作卷宗等问题进行论述。文章认为,口述历史访谈是口述史学中最主要的问题,也是口述历史后期成
基于Biot介质理论,对层状饱和多孔介质中弹性波的传播进行数值模拟.通过双相饱和多孔介质的一阶双曲型速度-应力弹性波波场分离方程,采用交错网格高阶有限差分法实现P-S波在
微课作为一种新型教学资源,受到教育部门和各校关注,各校的优秀教师投身于微课制作的实践和各类大型比赛中,在实践中得到磨练。教学能力也得到提高。本文主要谈了本人以及团
目的探讨我院0~16岁儿童先天性心脏病的患病情况,为预防儿童先天性心脏病的发生提供参考。方法抽取我院1 098例0~16岁儿童,采用心脏听诊和超声检查确诊的方法对其进行先天性
通过铝球弹丸高速撞击单层铝板和双层铝板结构的动能耗散特性分析,在弹丸未破碎和已破碎两种撞击条件下,基于单层铝板撞击失效临界动能研究了双层铝板结构的高速撞击防护性能
本研究分析了报关职业岗位职责和报关所需知识技能,提出基于工作流程的课程设计,分析了《报关实务》在基于工作过程导向的项目化教学改革研究中面临的几个问题:学生学习兴趣
采用基于混合物理论的多孔介质模型,建立饱和土介质一维动态响应问题的控制方程,在基本方程中考虑土体的非均匀性以及变形过程中的固体颗粒相和孔隙流体相体积分数的变化.选
为了研究含沙水下单级双吸离心泵叶轮的磨损规律,采用比转速相等原则,用相似换算法将AABS150-365原型泵转换为模型泵.基于Mixture多相流模型和标准k-ε湍流模型,并结合SIMPLE