论坛正文内容提取通用方法的研究

来源 :科技风 | 被引量 : 0次 | 上传用户:jmrys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  DOI:10.19392/j.cnki.16717341.201714071
  摘要:本文提出了一种新颖的通用论坛信息的提取算法。针对标题,利用论坛标题与网页标题相同这一特征提取。针对回帖模块的定位,我们提出了一种称为基于相似性度量和最低公共父节点的边界确定(BDBSL)的算法。针对回帖内容的提取,我们利用该标签所采用的css样式绝大多数都含有minheight属性这一特点进行提取。针对主题帖,利用主题帖独有的分享模块进行单独提取。
  关键词:论坛正文提取;BDBSL算法;dom树;html
  1 标题的提取
  通过查看网页的源代码我们发现,论坛标题总是用来做网页标题,而网页的标题在标签下面的标签中。 <br>  在100个样例数据中进行验证,成功率高达98%,所以我们采用固定的xpath来提取标题。 <br>  2 BD-BSL算法确定回帖所在的模块 <br>  2.1 DOM树的使用及锚节点的提出 <br>  对于一给定URL的论坛,我们可以通过它的URL提取到它的HTML源代码,进而生成与源代码相对应的DOM树。 <br>  通过分析大量论坛发现,同一论坛中所有回帖各部分内容对应的标签格式是相一致的。假设论坛中所有的回帖都包含同一个属性N,回帖数量有M个,则DOM树中至少有M个节点为属性N的标签。通过分析随机选取的100个论坛样例,我们发现所有论坛的所有回帖都包含“发布时间”(PT)这一属性,因此,我们选取PT作为属性N,它的标签所对应的DOM树中的节点作为锚节点。假设锚节点的数量是m(m>1)。 <br>  下文中,我们将一个回帖模块记为一项数据记录(DR)。 <br>  2.2 相似度分析聚类确定哪些锚节点是属于DR部分的有效锚节点 <br>  Step1 构造相似性矩阵M1 <br>  从锚节点出发依次经过它的所有祖先节点一直到达树的根节点会形成一条路径,将这条路径上的所有节点对应的标签按照经过的先后次序提取出来形成一个序列。前文中我们假设锚节点数量为m,因而最终会形成m个序列,对于在DOM树中从左到右依次出现的m个锚节点项分别标号为1,2,…m。 <br>  接下来,构造一个m×m的矩阵M1。对这m个锚节点两两进行相似性分析,形成一个相似性分值作为相似性矩阵对应位置的值(m1ij是第i个锚节点提取到的序列和第j个锚节点提取到的序列的相似性分值,这个值处在矩阵的第i行第j列)。m1i j 介于01之间,其值越接近于1,相似度越大。 <br>  Step2 构造相似性矩阵M2 <br>  除了要对上一步形成的序列做相似性分析之外,我们注意到,锚节点的直接父节点通常不止有锚节点一个子节点。此外,大部分锚节点的兄弟节点依然会向下拓展形成多个子节点,显然,对这些兄弟节点及它们的的子节点做相似性匹配也是很有必要的。基于此,我们构造了一个m×m的相似性矩阵M2。 <br>  接下来,对锚节点所在的直接子树做相似性分析。锚节点的直接子树涵盖范围如图1。 <br>  图1 锚节点的直接子树覆盖范围(蓝色圆圈为锚节点) <br>  M2矩阵中存储的值是每两个锚节点的所在的直接子树的相似性分值m2i j (i,j = 1,2, … ,m)。 <br>  Step3 通过M1和M2构造最终相似性矩阵M <br>  通过矩阵M1和M2得到矩阵M相应位置的值mi j 。即: <br>  mi j = m1i j + m2ij 2(i,j = 1,2, … ,m) <br>  通过矩阵M我们便可以知道任意两个锚节点之间的相似性分值。 <br>  Step4 基于贪婪策略的聚类分析 <br>  在此,我们将对锚节点做聚类分析。首先,设定一个阈值Χ作为衡量相似的指标,若第一个锚节点和第二锚节点的相似度大于Χ,则认为它们之间有较高的相似性从而将其分类为新的簇。然后,继续与第三个锚节点进行比较,只要相似度符合条件,就将锚点放在包含第一个锚节点的群集上。重复执行该操作,直到所有节点与其余节点聚集。 <br>  最终我们把最长的簇里面的锚节点确定为有效的锚节点。 <br>  2.3 BD-BSL算法确定回帖边界 <br>  我们对每一个锚节点向上遍历寻找它的父节点并进行比对,直到找到一个共同祖先节点,这个节点就是所有锚节点的最低公共父节点(LCN)。 <br>  任意一个锚节点Ni,Ni以上,LCN以下部分便是一个DR的模块。 <br>  3 回帖内容的提取 <br>  在论坛网页中,用户回复内容区域被分配固定的一块大小。我们查看其对应标签的class并在层叠样式表(css)中查找该class的属性,发现minheight就是定义内容区域大小默认值的属性。为了证明这个属性可以被用来作为提取内容的标准,我们做了检验,成功率约为90%。 <br>  4 主题帖的提取 <br>  利用主题帖独有的分享模块提取主题帖。分析分享模块的标签,发现它们往往处于类似“<div class~=“share”>”的标签中。我们人工分析了50个论坛,大多数主贴都符合情况。 <br>  5 结语 <br>  用我们的方法进行通用论坛正文提取是可行的,但是需要进一步的优化。比如对于帖子数较少的网页提取成功率会降低。 <br>  参考文献: <br>  [1]Song X,Liu J,Cao Y,et al.Automatic extraction of web data records containing usergenerated content[C].ACM International Conference on Information and Knowledge Management.ACM,2010:3948. <br>  [2]蘇秀芝.网页去噪与特征提取算法的研究及实现[D].西南交通大學,2010. </div> </section> <!-- 其他文献块 --> <section class="article-other"> <div class="article-other-header" style="color:#2162e4"><span>其他文献</span></div> <div class="article-other-content"> <div class="tit"><a href="/periodical/4ff7cf2fb64ac40a9bd86c86382913b4.html" target="_blank" title="在高中物理教学中实施科学探究的再认识"> 在高中物理教学中实施科学探究的再认识 </a></div> <div class="con"> 新的物理课程标准明确指出了科学探究包含的一般要素,并对科学探究能力的基本要求作出了比较详细的说明和教学建议,这就决定了科学探究既是组织物理教学的重要内容,又是学生 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> <span><a href="/tags/%E9%AB%98%E4%B8%AD%E7%89%A9%E7%90%86%E6%95%99%E5%AD%A6" target="_blank">高中物理教学</a></span><span><a href="/tags/%E7%89%A9%E7%90%86%E8%AF%BE%E7%A8%8B%E6%A0%87%E5%87%86" target="_blank">物理课程标准</a></span><span><a href="/tags/%E6%95%99%E5%AD%A6%E5%BB%BA%E8%AE%AE" target="_blank">教学建议</a></span><span><a href="/tags/%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95" target="_blank">学习方法</a></span><span><a href="/tags/%E7%A7%91%E5%AD%A6%E6%8E%A2%E7%A9%B6%E8%83%BD%E5%8A%9B" target="_blank">科学探究能力</a></span><span><a href="/tags/%E6%95%99%E5%AD%A6%E8%A7%82" target="_blank">教学观</a></span><span><a href="/tags/%E7%A8%8B%E5%BA%8F%E6%80%A7%E7%9F%A5%E8%AF%86" target="_blank">程序性知识</a></span><span><a href="/tags/%E9%99%88%E8%BF%B0%E6%80%A7%E7%9F%A5%E8%AF%86" target="_blank">陈述性知识</a></span><span><a href="/tags/%E7%8B%AC%E7%AB%8B%E6%8E%A2%E7%A9%B6" target="_blank">独立探究</a></span><span><a href="/tags/%E6%95%99%E5%AD%A6%E6%B4%BB%E5%8A%A8" target="_blank">教学活动</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/f454f4b8d5e5cb94a888df194f72c431.html" target="_blank" title="基于经济发达地区新城镇中小学“健康校园”的模式研究"> 基于经济发达地区新城镇中小学“健康校园”的模式研究 </a></div> <div class="con"> 【摘 要】随着改革的不断深入,浙江等经济发达地区原有乡村不断城镇化,现代化。国家针对新城镇中的流动人口及弱势群体的子女开展公共教育均等化,是社会与时代的呼唤、要求。在此背景下,本文试图从理论与实践的双重视角来研究“健康校园”项目这一模式,试图为社会整体推进公共教育良性发展的后续政策与措施提供参考。  【关键词】新城镇 健康校园 模式    一、前言    城市化水平高低是一个国家经济和社会发展水平 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> <span><a href="/tags/%E6%96%B0%E5%9F%8E%E9%95%87" target="_blank">新城镇</a></span><span><a href="/tags/%E5%81%A5%E5%BA%B7%E6%A0%A1%E5%9B%AD" target="_blank">健康校园</a></span><span><a href="/tags/%E6%A8%A1%E5%BC%8F" target="_blank">模式</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/8727ebbaa2c93ef28d5de98dfced51d3.html" target="_blank" title="现代生活中的电子技术新应用探讨分析"> 现代生活中的电子技术新应用探讨分析 </a></div> <div class="con"> 摘 要:当前形势下电子技术的发展速度较快,为人们的生产生活提供了较大的便利。在此形势影响下,为了更好地满足现代生活需要,保持电子技术的良好应用效果,需要深入探讨这类技术的新应用。基于此,本文就现代生活中电子技术新应用进行系统阐述,以便提升电子技术实践应用中的潜在价值。  关键词:电子技术;现代生活;新应用;潜在价值  从不同的方面对现代生活中电子技术新应用进行探讨与分析,有利于扩大其实际应用范围, </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%94%B5%E5%AD%90%E6%8A%80%E6%9C%AF" target="_blank">电子技术</a></span><span><a href="/tags/%E7%8E%B0%E4%BB%A3%E7%94%9F%E6%B4%BB" target="_blank">现代生活</a></span><span><a href="/tags/%E6%96%B0%E5%BA%94%E7%94%A8" target="_blank">新应用</a></span><span><a href="/tags/%E6%BD%9C%E5%9C%A8%E4%BB%B7%E5%80%BC" target="_blank">潜在价值</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/f0ef5c2ee643f192317e5764ef2b52df.html" target="_blank" title="“互联网 ”时代下体验式教学在大学生心理健康教育课程中的应用"> “互联网 ”时代下体验式教学在大学生心理健康教育课程中的应用 </a></div> <div class="con"> 【摘 要】“互联网 ”时代背景下,将体验式教学应用于大学生心理健康教育课程中,能够拓展心理健康教育的深度和广度,提高大学生心理素质。但是“互联网 ”下的心理健康教育环境跟传统教学环境存在较大差异,在应用教学过程中仍然存在部分问题,影响心理健康教学课程的开展。本文首先介绍了体验式教学应用在大学生心理健康课堂中的作用,随后分析了实际应用过程中面临的问题,最后总结出运用体验式教学提升心理健康教育课程质量 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> <span><a href="/tags/%E4%BA%92%E8%81%94%E7%BD%91%E6%97%B6%E4%BB%A3" target="_blank">互联网时代</a></span><span><a href="/tags/%E4%BD%93%E9%AA%8C%E5%BC%8F%E6%95%99%E5%AD%A6" target="_blank">体验式教学</a></span><span><a href="/tags/%E5%BF%83%E7%90%86%E5%81%A5%E5%BA%B7%E6%95%99%E8%82%B2" target="_blank">心理健康教育</a></span><span><a href="/tags/%E5%A4%A7%E5%AD%A6%E7%94%9F%E6%95%99%E8%82%B2" target="_blank">大学生教育</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/be36c6480347beecb2116f78a6bde859.html" target="_blank" title="社会资本:影响大学生就业的重要因素"> 社会资本:影响大学生就业的重要因素 </a></div> <div class="con"> [摘要]社会资本是一个与物资资本、人力资本相对应的概念。本文通过对社会资本概念的介绍,指出社会资本是影响大学生就业的一个重要因素,并重点分析了社会资本在大学生就业过程中的作用,认为大学生在就业过程中应该重视对社会资本的利用。  [关键词]社会资本 大学生就业 作用    当前,中国大学毕业生就业难已经成为一个社会性的难题。一方面,随着高校的不断扩招,大学毕业生的数量越来越多;另一方面,就业机会却没 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%A4%BE%E4%BC%9A%E8%B5%84%E6%9C%AC" target="_blank">社会资本</a></span><span><a href="/tags/%E5%A4%A7%E5%AD%A6%E7%94%9F%E5%B0%B1%E4%B8%9A" target="_blank">大学生就业</a></span><span><a href="/tags/%E5%B0%B1%E4%B8%9A%E8%BF%87%E7%A8%8B" target="_blank">就业过程</a></span><span><a href="/tags/%E8%B5%84%E6%9C%AC%E6%A6%82%E5%BF%B5" target="_blank">资本概念</a></span><span><a href="/tags/%E7%89%A9%E8%B5%84%E8%B5%84%E6%9C%AC" target="_blank">物资资本</a></span><span><a href="/tags/%E4%BA%BA%E5%8A%9B%E8%B5%84%E6%9C%AC" target="_blank">人力资本</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/3b0d842f8e5d94971d6d8512750cf8d8.html" target="_blank" title="试谈中职学校教学设备的会计核算"> 试谈中职学校教学设备的会计核算 </a></div> <div class="con"> [摘要] 由于教学成本的核算将成为中职学校未来发展的趋势和必要,因此,需改革和完善现行事业单位会计制度,以满足教育成本核算的需要。教学设备成本的核算是教育成本的主要内容之一,本文对会计年度及教学设备购入、折旧、处置的会计核算方法进行探讨。  [关键词] 中职学校 教学设备 会计核算    一、现行会计制度的不足  随着教育改革的深入,中等职业学校对教育成本核算将会成为趋势。我国中等职业学校执行的是 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> <span><a href="/tags/%E4%B8%AD%E8%81%8C%E5%AD%A6%E6%A0%A1" target="_blank">中职学校</a></span><span><a href="/tags/%E6%95%99%E5%AD%A6%E8%AE%BE%E5%A4%87" target="_blank">教学设备</a></span><span><a href="/tags/%E4%BC%9A%E8%AE%A1%E6%A0%B8%E7%AE%97" target="_blank">会计核算</a></span><br /> </div> </div> </div> </section> </div> </div> <!-- 右侧边栏 --> <div class="col-lg-3 col-md-3 hidden-sm hidden-xs"> <div class="content-right"> <div class="sid"> <div class="tit"> <h3>其他学术论文</h3> </div> <div class="con3"> <ul> </div> <!-- <div class="bot"> <a href="#" target="_blank"><button class="btn btn-default btn-block">更 多</button></a> </div> --> </div> <div class="sid-img-ad"> <script src=/d/js/public/new5.js></script> </div> </div> </div> </div> </section> </main> <!-- 页面底部 --> <footer class="public-footer"> <section class="top"> <div class="container"> <div class="row"> <div class="col-xs-120 gongjujianjie">期刊论文论坛正文内容提取通用方法的研究发表于2017年14期科技风作者范媚琳 司明皎 孟媛,本篇论文的所有权归原作者范媚琳 司明皎 孟媛所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。 </div> </div> </div> </section> <section class="bottom"> <div class="container friend-link"> <div class="row"> <div class="col-xs-12"> <span class="title">友情链接:</span> <a href="https://www.soolun.com/" target="_blank">搜论网</a> <a href="https://www.soolun.com/" target="_blank">论文下载</a> </div> </div> </div> <div class="container service-link"> <div class="row"> <div class="col-lg-9 col-md-9 col-sm-12 col-xs-12"> <div class="aboutus"> <a href="/about.html">关于我们</a> <a href="/about.html">联系我们</a> <a href="/about.html">广告服务</a> <a href="/about.html">版权声明</a> <a href="/about.html">新手指南</a> <a href="/about.html">网站地图</a> </div> <div class="kefuqq"> 客服qq:184688754 客服qq:184688754 </div> <div class="disclaimer"> <span>声明:本文档内容版权归属内容提供方,如果您对本文有版权争议,可与客服联系进行内容授权或下架</span><span>搜论网</span> © CopyRight 2018-2025 </div> </div> <div class="col-lg-3 col-md-3 col-sm-12 col-xs-12 wechat"> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信客服" > <div class="img-name">微信客服</div> </div> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信服务号"> <div class="img-name">微信服务号</div> </div> </div> </div> </div> </section> </footer> <script src="/js/jquery.min.js"></script> <script src="/js/bootstrap.min.js"></script> <script src="/js/bootstrap-hover-dropdown.min.js"></script> <script src="/js/bootstrap-select.min.js"></script> <script src="/js/js.js?v=1.0"></script> </body> </html>