基于增量多模型融合的垃圾短信过滤算法研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:ilytotti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着通讯技术的不断成熟,与通讯相关的使用场景也愈加宽泛。一方面,人们享受着科技带来的丰硕成果,无线网络技术得到飞速发展,但另一方面,制度和监管的相对缺失,使得很多围绕无线通讯的“黑色产业”造成了许多负面的影响,例如手机的垃圾短信就始终困扰着人们的生活。为了对手机的垃圾短信进行检测识别与过滤,对当前基于文本分类技术的垃圾短信过滤方法进行了研究,详细介绍了文本分类过程中的预处理技术和特征提取技术,并通过实验对比分析了 K邻近算法和朴素贝叶斯算法的性能。此外,针对传统文本分类算法中存在的缺陷,即当加入新的样本后分类器会因为识别的局限性导致分类效果下降,提出了两点改进方法:(1)设计并实现了基于评分法的增量多模型融合方法。增量多模型融合方法对新增的样本依次进行训练,每个样本数据集可得到一个子分类器,不同的训练集构成多个子分类器。增量多模型融合方法通过“少数服从多数”的原则对每一条待分类短信进行分类,若多数子分类器输出的结果表示正常,则该待分类短信为正常短信,反之则为垃圾短信。这样做的优势在于避免重新对分类器进行训练,减少了文本检索算法的时间损失和资源耗费,提高了文本分类的效果;(2)设计并实现了基于学习法的增量多模型融合方法,该方法同样是对新增的样本进行训练。评分法不同的地方是,基于学习法的增量多模型融合方法采用的是双层框架,即存在两层分类器。初级分类器采用了朴素贝叶斯算法进行分类,其输出作为次级分类器的输入,在次级分类器中则是采用了 SVM算法。这样的双层结构在解决增量问题的同时,进一步改善了垃圾短信的过滤结果。
其他文献
管理层与分析师的信息来源和信息处理方式的不同,导致了二者的盈利预测也存在差异。管理层的业绩预告因包含公司业绩的前瞻性信息,这些信息通常与公司现实的经营状况和未来的发展规划紧密相关,更契合分析师预测的需要,可以成为分析师进行盈利预测的重要信息来源。由于管理层和分析师在信息方面具有不同的优势,管理层的业绩预告是分析师盈利预测的重要补充,尤其是当二者的盈利预测出现分歧时,管理层预测与分析师预测之间的差异
碳酸盐岩储层是富源-果勒地区最为重要的一种储层类型,然而其储集空间类型复杂多变,且在钻完井过程中经常发生放空、漏失等事故,极易导致外来流体和固相颗粒进入储层造成储层
3μm波段光纤激光器在基础科学研究、环境检测、生物医疗以及国防安全等领域有着重要应用。利用稀土离子掺杂ZBLAN(ZrF_4-BaF_2-LaF_3-AlF_3-NaF)玻璃光纤作为增益介质,已实现数十瓦量级3μm波段激光输出。然而稀土离子在该波段发光效率较低,探索提高稀土离子发光效率的方法有助于进一步提升3μm波段光纤激光器的性能。本论文选取具有较低声子能量的氟化铟基玻璃作为基质材料,围绕Ho3
金字塔股权结构广泛存在于我国上市公司中,作为资本市场的重要特征之一,其对我国资本市场运作及公司治理均产生着显著的影响。因此,对金字塔股权结构的成因及后果进行研究具有重要意义。在金字塔股权结构的成因方面,学术界主流的观点为“控制权私利论”及“融资优势论”,但有学者提出,我国地方国有企业金字塔股权结构的形成是地方政府权力下放所致。由于我国独特的政治及经济制度,政府可通过行政手段对地方国有企业施加重要影
多项式优化问题是非线性规划中的一类重要问题,近二十年来其理论与算法已得到深入发展.本文利用多项式优化中已有的经典理论和算法,研究了无约束多项式局部鞍点值排序问题和
石墨相氮化碳(g-C3N4)是一种非金属聚合物半导体材料,具有合适的能带位置、可见光活性以及稳定的物理化学性质,这些特性使其成为光催化领域的研究热点。然而,块状的g-C3N4存
经过二三十年的发展,我国的公益慈善事业进入了一个快速发展的新时期,它在推进中国社会转型与改革、构建和谐社会的过程中发挥着越来越重要的作用。随着互联网公益的发展,我国公民的公益慈善意识逐步觉醒,但总体来说普及率还比较低,民众的公益文化价值观和参与意识还有待提高。作为一个相对特殊的报道领域,公益报道因为处在比较边缘的位置,所以受重视的程度较低,报道内容比较有限,媒体公益报道的社会功能没有得到充分发挥。
非刚性运动恢复结构(Non-Rigid Structure From Motion,NRSFM)技术,通过利用二维图像序列中的特征点,能够估计出物体的三维结构及相应的运动参数,是实现物体三维重构的一种重要途径。当图像序列中的样本较少时,即小尺寸图像序列,目前已有的NRSFM算法,性能会显著下降。这是因为少量数据只能建立起来有限的方程组数,而自变量数目相对多,难以求解最优解。此外,当NRSFM用于单
随着人们生活水平的提高,医疗科学的不断发展,人类越来越长寿。老龄人口的增长数量和速度都不容忽视,持续的人口老龄化是不可避免的趋势。我国人口基数大,虽然现在仍有人口红利使各种矛盾没有凸显的很严重,但也需要引起我们国家的重视。老年人占人口比重的提高给社会带来了养老压力、劳动力不足、养老金缺口等一系列问题。如何将老龄化的负面影响转化为正面影响是我们亟需解决的问题。鼓励老年人再就业,发挥自己的余热,是其中
在申请专利时,专利审查员需要确定申请专利的现有技术,以确定该专利的新颖性。对于专利组织来说,如何高效准确地为给定专利推荐引文是一件非常重要的事。传统的专利引文推荐需要大量的人工审查,十分耗时。为减少人工以及节省时间,有研究人员利用计算机技术自动为专利推荐引文。然而,许多研究仅考虑专利的文本信息,忽略专利文档所具有的丰富的结构信息,而这些结构信息在进行专利引文推荐时也非常重要。此外,大多数研究工作仅