论文部分内容阅读
近年来,问答类社会网络迅速发展,用户量快速增长。经过数年的积累,以人为核心的问答类社会网络正成为互联网的主体应用之一。然而,随着社会网络的蓬勃发展,互联网安全受到了新的挑战。首先是用户信息的安全。在社会网络中,为了更好的交流,用户一般都会公布自己的个人信息。然而由于缺乏安全防护意识和未采取隐私措施,用户信息资料经常被非法公开或被一些不法分子非法利用。使得用户的隐私和安全问题频频发生。其次是不良URL的传播。由于社会网络中信息的快速传播性,很多黑客可以用社会网络传播不良信息。其中危害性比较大的是不良URL,主要有恶意URL、钓鱼URL。垃圾广告URL、色情URL等。这些给用户使用社会网络及社会网络的健康发展造成了严重的危害。 本文是当前研究问答类社会网络中的不良URL的少数文章之一。有效的弥补了该类研究的不足。针对当前问答类社会网络中出现的不良URL现象进行了深入的研究。本文首先对社会网络中的不良URL的问题进行了分析。说出了其中的危害:传播恶意URL(包括钓鱼URL)、给用户造成威胁、安装恶意软件、窃听用户信息、盗取用户密码等威胁;或者传播色情URL,影响网络生态环境;或者散步大量广告,使用户难以找到自己需要的答案,或者用户收到许多不良信息的误导和骚扰。 本文针对问答类社会网络中的问题,提出了解决方案。即首先爬取问答类社会网站,提取其中用户回答问题所发布的URL,然后通过urlvoid网站进行判断,可以迅速的找出该URL的性质,进而判定是否是恶意的URL。对于广告类的URL,也就是与用户问题不想对应的URL。通过文本相似度来计算URL与问题的匹配值。其中用到了网页关键字提取,文本相似度计算等。如果匹配值较低,则认为他们是不相关的,进而判断为不相关URL。 最后实现实验并对实验结果进行评估。通过大量的实验及评估,实验取得了较好的实验结果。 本文主要通过对问答类社会网络中不良URL的研究,通过对雅虎问答的爬取,分析,得到了以下结论,取得了一下成果: 1,本文是当前对社会网络中的不良URL研究的少数文章之一,针对问答类社会网络中出现的安全问题,提出了解决框架,并设计了我们的系统,通过了实验验证; 2,用雅虎S4平台提高了鉴定不良URL的速率,获得了较为理想的速率; 3,利用文本相似度处理,鉴定垃圾URL,广告URL,扩展了文本相似度原理的应用; 4,能够快速的判别出恶意URL,这大大减少了恶意URL的危害。