基于多方向特征集的传销预判研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wangliang284
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息已经成为当今社会环境及网络环境的重要影响因素。随着网络数据流量的大面积覆盖、网络技术的陈新换代,非法网络数据也在不断入侵网络环境。近年来,传销作为一种非法诈骗行为,网络传销将作为未来主要的传播途径,通过社交平台或招聘网站等开放网络环境传播思想,以非法牟利等,对网民乃至网络环境已经造成一种严重的网络安全威胁。因此,对网络传销数据的研究及控制具有十分重要的意义。本文在现有理论技术的基础上采用自动提取数据及数据特征分析方法对传销数据做预判工作,具体如下:第一,提出一种数字邻近特征集提取算法,既可扩充现有的特征集库,也作为了传销预判算法的预判依据因素之一。实验表明:数字邻近特征集算法与现有的特征集有同样的表征效果,且对于某些背景领域中的数据,表征效果更好。第二,提出一种基于多方向特征集的传销预判算法。该算法以多方向特征集作为预判依据集,基于词语相似度的改进算法,将每个文本数据特征集通过向量抽象化,与剩余文本数据特征集进行相似度计算,将结果作为预判指标,待测特征集与多方向特征集的特征交集率作为预判传销嫌疑的实验,将两种指标结合起来分析,对传销数据进行预判。其中待测特征集是由待测数据作为实验对象,通过以上方法处理为待测特征集。实验表明:相比单种特征集,构造多方向特征集的预判依据更可靠,预判依据更有可信度。第三,结合基于Python开发环境的Selenium框架、应用于提出的网络数据多方向特征集及特征集提取方法。该框架原理是以现有的“反传销网站”为研究数据源,基于Selenium框架及浏览器驱动、浏览器操作脚本等,趋于自动化模式提取该研究网站的HTML数据源,再将源数据转为文本数据做预处理等操作,如分词、停用词过滤、特征提取等,得到多方向特征集,包括本文提出的数字邻近特征集,特征集用于多方向特征集预判算法的实验数据。本文通过提出研究数据特征相关算法、基于特征集的传销预判算法以及贯穿于算法中的Selenium代码框架,并结合与现有算法的对比实验,充分验证了算法的有效性和可靠性。研究过程中结合了网络实际数据的研究背景,证明论文的研究方向及研究结果是有学术价值和时代意义的。
其他文献
2015年到2018年,中国房地产市场不断升温,上涨的房地产价格引起社会各界的广泛关注。与此同时,人民币对美元汇率自2015年初的6.25元人民币/美元开始向上调整,不断创出新高,分
投资者在金融市场做出的交易决策受到市场波动及其他突发事件的影响,这些波动或突发事件会被媒体机构以新闻的形式发布在公开网站上。传统金融投资决策的制定往往是基于量化
目前全球环境恶化问题日益加剧,人们逐渐意识到要持续性地在生态优美的环境下生活,不能只讲究生态理念,也要讲究美学理念。生态与美学的融合便形成一门交叉学科——生态美学
针对目前空气净化器制造企业中遇到的系列产品繁多、重复工作量较大等问题,提出了一种基于装配体的空气净化器系列化设计方法。此系列化方法由设计人员选择重要参数,综合尺寸
调查背景改革开放以来,在国家教育方针指引下,广州市的民办教育如雨后春笋,迅速发展起来.民办学校为提高教学质量,从省内外引进了大批教师,一些公立学校也聘用民办教师,他们
光正交频分复用(Optical Orthogonal Frequency Division Multiplexing,OOFDM)技术由于具有高频谱利用率及高色散容忍性的优势吸引了光通信领域学者的广泛关注。尽管OOFDM相
本项目总体可分为两部分。第一部分是本论文作者基于翻译实践所撰写的翻译报告,第二部分为节选英文材料及对应中文译本。翻译材料节选自英国埃及学家托比·威尔金森(Toby A.H.Wilkinson)的《古埃及兴衰史》(The Rise And Fall Of Ancient Egypt,这部作品由兰登书屋出版。作为一本科普类历史书籍,作者凌越于时间轴之上,用一种宏观的艺术视角展现了一幅关于古埃及兴衰的历
本文综合了中国农业政策所包含的对农业企业经营者的素质要求、国有企业经营者公开招聘中的胜任需求和国有农业企业经营者职业目标取向特征,并结合中小型国有农业企业经营者
<正>20世纪70年代,我国发明了硫铝酸盐水泥,80年代又首创了铁铝酸盐水泥的工业生产,中国水泥研究者在世界水泥品种发展史上做出了卓越贡献。硫(铁)铝酸盐水泥的矿物组成特征
会议
<正>2013年2月,美剧《纸牌屋》横空出世,与之前的美剧不同,它是由美国知名的在线视频商Netflix原创打造的一部网络自制剧,独立于以往传统的美国电视生态系统而存在。《纸牌屋