基于相似度的中文网页正文提取算法

来源 :西南科技大学学报 | 被引量 : 0次 | 上传用户：cailing12530

【摘要】

：

网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块，提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页

【作者】

：

熊子奇张晖林茂松

【机构】

：

西南科技大学计算机科学与技术学院

【出处】

：

西南科技大学学报

【发表日期】

：

2010年1期

【关键词】

：

内容相似度标签相似度分块文本挖掘 Text similarity Tag similarity Blocking Text Mining

【基金项目】

：

基金项目：国家人事部留学归国人员启动基金（07ZD0105）,西南科技大学留学归国人员启动基金（07ZX0102）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块，提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤，在规范网页之后，先提取网页的最大文本行，然后计算每行文本与最大行的内容相似度和标签相似度，再结合内容相似度与标签相似度来提取网页正文。实验中，利用随机抽取的网页进行了测试，其测试精度接近95％，表明该算法在实际中是有效的。

其他文献

花大力气下大功夫搞计生

今年，内蒙古包头市土右旗人口计生局以综合改革为动力，创造优质服务先进旗县为载体，突出抓综合治理出生人口性别比，建立和完善符合土右旗实际利益的导向机制，继续深入开展妇女病普

期刊

内蒙古出生人口性别比导向机制妇女病普查普治信息化建设人口环境

农业信贷的重点应转向农业开发

【正】农业是国民经济的基础,农业开发是发展农业的“金钥匙”。农业开发呼唤信贷投入,农业信贷投入重点应转向农业开发。所谓农业开发,是指在农业领域中对一切农业生产对象

期刊

农业开发农业信贷投入农村金融部门信贷资金开发信贷农业发展后劲资金投入农业银行农业资源资金供应体制

椭圆型近似直线轨迹导引机构的综合方法及其误差分析

直线导引机构在机构轨迹综合中占有重要地位，近似直线机构由于结构上的特点可能更具有良好的性能和应用价值。以椭圆仪机构为基础，提出了一种椭圆型近似直线导引机构的设计方法

期刊

椭圆型四杆机构近似直线导引机构Ellipse Four-bar mechanism Straight line guiding mechanism

兑水养殖二十年

公元一九八八年，中国实行改革开放政策后的第十个年头。经过120多个月份的改革开放实践，中国农民身体里沉睡了几辈子的潜能开始宣泄出来，进发开来，不断地形成强劲崭新的生产力，由

期刊

兑水养殖中国农村改革开放生产力

圆实复式钢管混凝土柱轴压承载力研究

运用统一强度理论，考虑内、外钢管对内层混凝土的双重约束作用以及钢管因环向受拉导致纵向应力降低的影响，得出了圆实复式钢管混凝土柱轴压极限承载力的计算公式，给出了较为合理

期刊

统一强度理论复式钢管混凝土轴心受压承载力Unified strength theory Multibarrel tube-confined concre

对信用社转存银行资金实行期限管理的初步构想

【正】农村信用社作为农村金融体系的一个重要组成部分,其资金营运应当纳入农业银行综合信贷计划进行衔接和平衡,以利农村金融秩序的稳定,同时给农村经济持续、稳定,协调及展

期刊

信用社行期银行资金初步构想利率期限管理转存款特种存款存款准备金农村金融秩序

企业利息负担能力分析在银行贷款管理中的应用

【正】无论是企业的经营者,还是银行贷款的管理者,科学地使用企业利息负担能力分析的方法,都有助于明确各自的管理目标和提高各自的管理手段,并且较为直观地预测出企业在未

期刊

能力分析企业利息举债成本银行贷款举债经营利息负担盈利水平税前利润贷款利息隐含利息

RISE教学法在临床见习中的应用

目的探索RISE教学法在临床见习中教学及对临床药师培养的可行性和有效性。方法带教教师引导学生以选定主题查阅文献，将文献资料合理取舍综述，形成文字报告进行讨论。结果RISE教

期刊

RISE教学法临床见习临床药师培养应用RISE teaching method clinical practice clinical pharm

垂钓渔业管理的轻与重

随着经济的发展和人们生活水平的提高,休闲垂钓渔业近年来在本地区蓬勃发展,遍地开花,每个乡镇少则三五家,多则数十家,另外一些交通便利的养殖塘口养、钓两不误，等于直接冲进

期刊

垂钓渔业渔业管理交通便利生活水养殖塘垂钓业

“洪湖清水”获湖北省著名商标

近日，从湖北省工商行政管理局获悉，由洪湖市闽洪水产品批发交易市场服务有限公司注册申报的“洪湖清水”商标被确定为湖北省著名商标。

期刊

湖北省洪湖市商标清水工商行政管理局市场服务水产品

基于相似度的中文网页正文提取算法

与本文相关的学术论文