【摘 要】
:
针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音
【基金项目】
:
海洋科学与技术国家实验室鳌山科技创新计划项目(2016ASKJ07,2016ASKJ07-08)
论文部分内容阅读
针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特征,并采用SVM训练样本数据。SVM训练得出的数据模型可以有效去除导航、推广、版权等噪音信息,成功保留正文。将该方法应用于几大常用的网站,实验结果表明该方法具有较好的正文抽取效果和降噪效果,对于传统方法中经常误删的短文本、与正文相关的超链接等信息能够准确保留。
其他文献
问题解决是学校数学教学的核心。培养学生在数学开放题中的问题解决能力需要教师根据各种开放题的特征,准确把握契机.才能事半功倍;实施开放题问题解决时,教师要努力做到:解读文本
目的比较在重症冠心病急性心肌梗死患者治疗中应用瑞舒伐他汀与阿托伐他汀的临床价值。方法选取河间市人民医院2016-03至2019-03治疗的118例重症冠心病急性心肌梗死患者为研
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的通过研究在自然衰老小鼠大脑皮层中及可溶性Aβ1-42介导的神经退行性改变中β-1,3-半乳糖基转移酶Ⅱ的变化,以及Notch信号通路中关键蛋白Notch1的变化,进一步阐明β-1,3-
吴永刚,独具个性的艺术追求孟宪励电影是以现代工业技术为基础、通过集体通力创作的艺术门类,又是以追求利润为目的的商品。有时也是体现正统观念的宣传品。这就决定了任何一个
等级制是传统社会的一个共有特征,它形成于加洛林王朝时期和契约、法相联系.初期稳定了封建秩序,但也造成了王权的削弱,对等级制产生、特征及衰落的研究,有助于我们对西欧封