文本分类及其在网络内容过滤中的应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:limingxing0623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网信息不断增加,其中有很多有益的知识,也有很多有害的信息,如色情、恐怖主义等。对互联网信息进行管理是一个快速增长的的需求。   当前市场上存在很多网络内容过滤产品,大部分是根据URL分类库进行过滤。由于互联网的网页等资源很多,不可能全部收集并分类,而且网页经常发生变化,基于URL分类库的方法不够灵活和准确。因此,还需要根据内容进行实时过滤。不论是基于URL分类库,还是基于内容实时过滤,都离不开文本分类技术。   在当前文本分类的研究工作中,文本表示方法大部分为基于词特征的向量空间模型(VSM)。这种表示方法忽略了词之间的相互关系,造成了信息的丢失。另外一种文本表示是基于潜在主题的表示,如潜在狄利克雷分配(LDA),这种表示方法引入了词之间的联系,但是会丢失一些浅层的词汇信息。因此,单一的文本表示都存在不足。   本文主要针对单一文本表示的不足进行了研究,同时研究了文本分类技术在网络内容过滤中的应用。主要工作包括:   1)基于随机森林算法的多视角文本分类方法。鉴于单一文本表示的不足,尝试结合两种文本表示方法,以减少信息的丢失来提高分类的精度。其中,使用了随机森林方法来结合基于词的文本表示和基于潜在主题的文本表示。随机森林方法是一种集成学习方法,具有很好的分类性能,但在应用到结合两类文本表示时,它不能公平地结合两类特征。因此,分别构造两类特征树,引入了权重参数。在标准数据集上的实验验证了方法的有效性。   2)基于文本分类的内容过滤系统框架设计。提出了一个基于透明代理缓存的多层反馈式过滤系统框架设计。结合基于关键词过滤、基于URL分类库过滤和实时文本自动分类过滤等多种过滤手段,在保证准确率的同时减少对用户正常访问的影响。   3)文本分类技术在URL分类库建立中应用。将文本分类技术应用到URL分类库建立中。通过应用改进的随机森林算法有效地结合词表示,潜在主题表示以及网页的结构化信息。   4)文本分类技术在实时过滤中应用。将文本分类技术应用到实时的文本自动分类过滤。使用了计算复杂度较低的类中心法,并使用了网页的三种容易提取并且对分类贡献较大的结构化信息,兼顾了精度和处理效率。   5)原型系统实现:在Linux平台下实现了一个原型系统,并且开发了一个图形界面的配置管理系统。 </div> </section> <!-- 其他文献块 --> <section class="article-other"> <div class="article-other-header" style="color:#2162e4"><span>其他文献</span></div> <div class="article-other-content"> <div class="tit"><a href="/degree/eddc667791c4af7b6fc0c2951d5c2d77.html" target="_blank" title="基于HLA的弹头姿态仿真软件研究"> 基于HLA的弹头姿态仿真软件研究 </a></div> <div class="con"> 分布式仿真是一种形成可参与的综合性仿真环境的仿真技术,它采用协调一致的结构、标准、协议等手段,通过网络环境将部署于各地的仿真系统进行互联。这种技术的出现使得构建大 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E5%88%86%E5%B8%83%E5%BC%8F%E4%BB%BF%E7%9C%9F" target="_blank">分布式仿真</a></span><span><a href="/tags/%E5%BC%B9%E5%A4%B4%E5%A7%BF%E6%80%81%E4%BB%BF%E7%9C%9F%E7%B3%BB%E7%BB%9F" target="_blank">弹头姿态仿真系统</a></span><span><a href="/tags/%E9%AB%98%E5%B1%82%E4%BD%93%E7%B3%BB%E7%BB%93%E6%9E%84%28HLA%29" target="_blank">高层体系结构(HLA)</a></span><span><a href="/tags/%E8%BF%90%E8%A1%8C%E6%94%AF%E6%92%91%E7%B3%BB%E7%BB%9F%28RTI%29" target="_blank">运行支撑系统(RTI)</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/cf58f53c67ba0c945e7c1fc7c96cefd1.html" target="_blank" title="隐私保护数据挖掘方法研究"> 隐私保护数据挖掘方法研究 </a></div> <div class="con"> 数据挖掘是从海量数据中获取新颖的、潜在有用知识的过程,目前已经得到了广泛的应用。数据共享给用户带来好处的同时,也带来了泄密的风险。伴随着数据共享而来的隐私保护数据挖 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E9%9A%90%E7%A7%81%E4%BF%9D%E6%8A%A4" target="_blank">隐私保护</a></span><span><a href="/tags/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98" target="_blank">数据挖掘</a></span><span><a href="/tags/%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99" target="_blank">关联规则</a></span><span><a href="/tags/%E5%BA%8F%E5%88%97%E6%A8%A1%E5%BC%8F" target="_blank">序列模式</a></span><span><a href="/tags/%E6%95%8F%E6%84%9F%E7%9F%A5%E8%AF%86" target="_blank">敏感知识</a></span><span><a href="/tags/%E9%9A%90%E8%97%8F%E7%AE%97%E6%B3%95" target="_blank">隐藏算法</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/28c80c78fb82ce33c1305871b9abe419.html" target="_blank" title="主动兴趣管理中的拥塞控制技术研究"> 主动兴趣管理中的拥塞控制技术研究 </a></div> <div class="con"> 分布式虚拟环境的研究需要解决可扩展性问题,主动兴趣管理技术将主动路由技术和基于内容的发布-订购模式相结合,使用双向共享组播树作为兴趣管理的通讯结构,在一定程度上提高了 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E5%88%86%E5%B8%83%E5%BC%8F%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83" target="_blank">分布式虚拟环境</a></span><span><a href="/tags/%E4%B8%BB%E5%8A%A8%E5%85%B4%E8%B6%A3%E7%AE%A1%E7%90%86" target="_blank">主动兴趣管理</a></span><span><a href="/tags/%E6%8B%A5%E5%A1%9E%E6%8E%A7%E5%88%B6" target="_blank">拥塞控制</a></span><span><a href="/tags/%E9%98%9F%E5%88%97%E7%AE%A1%E7%90%86" target="_blank">队列管理</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/c4fa63c770c5479a24c40f5571f5470c.html" target="_blank" title="基于小波的边缘检测技术的研究"> 基于小波的边缘检测技术的研究 </a></div> <div class="con"> 伴随着计算机技术的高速发展,数字图像处理成为了一门新兴学科,并且在生活中的各个领域得以广泛应用。图像边缘检测技术则是数字图像处理和计算机视觉等领域最重要的技术之一 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E5%B0%8F%E6%B3%A2%E5%8F%98%E6%8D%A2" target="_blank">小波变换</a></span><span><a href="/tags/Canny%E7%AE%97%E5%AD%90" target="_blank">Canny算子</a></span><span><a href="/tags/%E8%BE%B9%E7%BC%98%E6%A3%80%E6%B5%8B" target="_blank">边缘检测</a></span><span><a href="/tags/%E4%BB%BF%E7%9C%9F%E5%88%86%E6%9E%90" target="_blank">仿真分析</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/52faaa38acb6b7d3791888e0a1aa49e3.html" target="_blank" title="程序不变性的分析与应用研究"> 程序不变性的分析与应用研究 </a></div> <div class="con"> 程序的不变性(Immumbility)是指类的实例对象的状态在其生命周期内不会发生改变。分析程序的不变性主要有两种技术:一种是采用静态分析技术分析程序的类、属性和方法等,获得不 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%A8%8B%E5%BA%8F%E4%B8%8D%E5%8F%98%E6%80%A7" target="_blank">程序不变性</a></span><span><a href="/tags/%E7%94%9F%E5%91%BD%E5%91%A8%E6%9C%9F" target="_blank">生命周期</a></span><span><a href="/tags/%E9%9D%99%E6%80%81%E5%88%86%E6%9E%90" target="_blank">静态分析</a></span><span><a href="/tags/%E5%8D%95%E5%85%83%E6%B5%8B%E8%AF%95" target="_blank">单元测试</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/274ffe4db8ceddccaff9228796f6097e.html" target="_blank" title="基于OSG的林分场景可视化研究与实现"> 基于OSG的林分场景可视化研究与实现 </a></div> <div class="con"> 为实现林业信息化、提高林业现代化,国家林业部提出建设“数字林业”的构想。即利用3S技术和相关计算机技术,将林业的各种特征用数字化的形式表现出真实的林业状况。其中,林分景 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E6%9E%97%E4%B8%9A%E4%BF%A1%E6%81%AF%E5%8C%96" target="_blank">林业信息化</a></span><span><a href="/tags/%E6%95%B0%E5%AD%97%E6%9E%97%E4%B8%9A" target="_blank">数字林业</a></span><span><a href="/tags/OSG" target="_blank">OSG</a></span><span><a href="/tags/%E6%9E%97%E5%88%86%E6%99%AF%E8%A7%82%E5%8F%AF%E8%A7%86%E5%8C%96" target="_blank">林分景观可视化</a></span><span><a href="/tags/%E4%B8%89%E7%BB%B4%E5%BB%BA%E6%A8%A1" target="_blank">三维建模</a></span><span><a href="/tags/%E8%99%9A%E6%8B%9F%E6%9E%97%E5%88%86%E5%9C%BA%E6%99%AF" target="_blank">虚拟林分场景</a></span><span><a href="/tags/%E5%9B%BE%E5%BD%A2%E6%B8%B2%E6%9F%93%E5%BC%95%E6%93%8E" target="_blank">图形渲染引擎</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/2ebda56465353a26bb2abf1c87c4376a.html" target="_blank" title="测试集约简中的相对冗余技术用于保持或提高缺陷定位效果的研究"> 测试集约简中的相对冗余技术用于保持或提高缺陷定位效果的研究 </a></div> <div class="con"> 随着现代大规模软件版本不断更迭,测试集的规模也变得庞大,软件测试的成本也随之上升。测试集约简技术则被考虑用来解决此类问题,它可以找到原测试集中规模更小的一个子集,且能满 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E8%BD%AF%E4%BB%B6%E6%B5%8B%E8%AF%95" target="_blank">软件测试</a></span><span><a href="/tags/%E6%B5%8B%E8%AF%95%E9%9B%86%E7%BA%A6%E7%AE%80" target="_blank">测试集约简</a></span><span><a href="/tags/%E7%BC%BA%E9%99%B7%E5%AE%9A%E4%BD%8D" target="_blank">缺陷定位</a></span><span><a href="/tags/%E5%86%97%E4%BD%99%E6%B5%8B%E8%AF%95" target="_blank">冗余测试</a></span><span><a href="/tags/%E9%81%97%E4%BC%A0%E7%AE%97%E6%B3%95" target="_blank">遗传算法</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/bbec762cde3f7d65abb7b887c5c04d68.html" target="_blank" title="无线传感器网络动态定位算法的研究"> 无线传感器网络动态定位算法的研究 </a></div> <div class="con"> 随着微型机电系统(Micro-Electro-Mechanical System,MEMS)、无线通信、数字电子学等技术不断地发展,基于无线传感器网络(Wireless Sensor Network,WSN)的定位技术孕育而生。正 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E6%97%A0%E7%BA%BF%E4%BC%A0%E6%84%9F%E5%99%A8%E7%BD%91%E7%BB%9C" target="_blank">无线传感器网络</a></span><span><a href="/tags/%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B" target="_blank">运动检测</a></span><span><a href="/tags/%E5%8A%A8%E6%80%81%E5%AE%9A%E4%BD%8D%E7%AE%97%E6%B3%95" target="_blank">动态定位算法</a></span><span><a href="/tags/%E5%81%8F%E5%B7%AE%E4%BC%B0%E8%AE%A1%E7%AE%97%E6%B3%95" target="_blank">偏差估计算法</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/35f2c58d45e8e216cc27de08b61e1cb3.html" target="_blank" title="时序离群点检测方法研究"> 时序离群点检测方法研究 </a></div> <div class="con"> 离群点检测是数据挖掘领域研究的重要问题之一,与其他数据挖掘研究的任务不同,离群点检测着力于从数据集中发现与其他数据显著不同的一小部分对象。目前离群点检测已经在许多领 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%A6%BB%E7%BE%A4%E7%82%B9%E6%A3%80%E6%B5%8B" target="_blank">离群点检测</a></span><span><a href="/tags/%E6%97%B6%E5%BA%8F%E6%95%B0%E6%8D%AE" target="_blank">时序数据</a></span><span><a href="/tags/%E5%91%A8%E6%9C%9F%E6%A8%A1%E5%BC%8F" target="_blank">周期模式</a></span><span><a href="/tags/%E6%97%B6%E9%97%B4%E7%B2%92%E5%BA%A6" target="_blank">时间粒度</a></span><span><a href="/tags/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98" target="_blank">数据挖掘</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/e6ac13d137e951979c8b8f2baf20a102.html" target="_blank" title="三维网络分割的关键技术研究"> 三维网络分割的关键技术研究 </a></div> <div class="con"> 三维网格分割(简称网格分割)的目标是采用计算机自动地将三维网格模型分割成为若干有意义的部件。但“有意义”本身并非良定义、可量化的概念,这是实现三维网格自动分割的困难 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%BD%91%E6%A0%BC%E5%88%86%E5%89%B2" target="_blank">网格分割</a></span><span><a href="/tags/%E8%A7%86%E8%A7%89%E7%90%86%E8%AE%BA" target="_blank">视觉理论</a></span><span><a href="/tags/%E7%89%B9%E5%BE%81%E7%82%B9%E6%A3%80%E6%B5%8B" target="_blank">特征点检测</a></span><span><a href="/tags/%E8%BE%B9%E7%95%8C%E5%8F%AF%E8%83%BD%E6%80%A7%E8%AE%A1%E7%AE%97" target="_blank">边界可能性计算</a></span><br /> </div> </div> </div> </section> </div> </div> <!-- 右侧边栏 --> <div class="col-lg-3 col-md-3 hidden-sm hidden-xs"> <div class="content-right"> <div class="sid"> <div class="tit"> <h3>与本文相关的学术论文</h3> </div> <div class="con3"> <ul> </ul> </div> <!-- <div class="bot"> <a href="#" target="_blank"><button class="btn btn-default btn-block">更 多</button></a> </div> --> </div> <div class="sid-img-ad"> <script src=/d/js/public/new5.js></script> </div> </div> </div> </div> </section> </main> <!-- 页面底部 --> <footer class="public-footer"> <section class="top"> <div class="container"> <div class="row"> <div class="col-xs-120 gongjujianjie">学位论文文本分类及其在网络内容过滤中的应用研究发表于2010年期南京大学作者田宝明,本篇论文的所有权归原作者田宝明所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。 </div> </div> </div> </section> <section class="bottom"> <div class="container friend-link"> <div class="row"> <div class="col-xs-12"> <span class="title">友情链接:</span> <a href="https://www.soolun.com/" target="_blank">搜论网</a> <a href="https://www.soolun.com/" target="_blank">论文下载</a> </div> </div> </div> <div class="container service-link"> <div class="row"> <div class="col-lg-9 col-md-9 col-sm-12 col-xs-12"> <div class="aboutus"> <a href="/about.html">关于我们</a> <a href="/about.html">联系我们</a> <a href="/about.html">广告服务</a> <a href="/about.html">版权声明</a> <a href="/about.html">新手指南</a> <a href="/about.html">网站地图</a> </div> <div class="kefuqq"> 客服qq:184688754 客服qq:184688754 </div> <div class="disclaimer"> <span>声明:本文档内容版权归属内容提供方,如果您对本文有版权争议,可与客服联系进行内容授权或下架</span><span>搜论网</span> © CopyRight 2018-2024 </div> </div> <div class="col-lg-3 col-md-3 col-sm-12 col-xs-12 wechat"> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信客服" > <div class="img-name">微信客服</div> </div> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信服务号"> <div class="img-name">微信服务号</div> </div> </div> </div> </div> </section> </footer> <script src="//cdn.bootcdn.net/ajax/libs/jquery/1.11.1/jquery.min.js"></script> <script src="//cdn.bootcdn.net/ajax/libs/twitter-bootstrap/3.4.1/js/bootstrap.min.js"></script> <script src="//cdn.bootcdn.net/ajax/libs/bootstrap-hover-dropdown/2.2.1/bootstrap-hover-dropdown.min.js"></script> <script src="//cdn.bootcdn.net/ajax/libs/bootstrap-select/1.13.14/js/bootstrap-select.min.js"></script> <script src="/js/js.js?v=1.0"></script> </body> </html>