论文部分内容阅读
随着Web2.0技术的成熟和广泛应用,网络论坛在人们的日常生活和工作学习中扮演着越来越重要的角色,人们可以自由方便地在网络论坛中与他人沟通交流。网络论坛的诸多优点吸引了大量网络用户参与其中,这些用户的在线活动使得网络论坛中积累了海量的信息资源。由于互联网的开放性和网络监管机制的滞后性,网络上的信息呈现出良莠不齐的特点,网络论坛往往容易沦为被人利用的工具,如不能对论坛进行有效管理,可能就会对社会造成危害。另外,随着网民使用网络程度的加深,势必会对原有的人际交往和社会结构发生重大影响。作为网络化的社会群体,论坛中用户交流及其规律等也越来越受到研究者的关注。本研究的目的就是给网络论坛的研究者和舆情研究人员提供一个网络论坛的监测工具。
本文通过对国内外相关技术的研究,结合当前需要,设计开发了一个网络论坛监测系统的原型。本系统将论坛的数据采集系统和数据报表系统有机组合,构成了一个有效的半自动监测系统平台。
网络论坛的信息抽取是本系统的构建核心,由于论坛的结构特点和论坛监测研究的需要,现有的数据采集程序不能适用于论坛信息的抽取,本文基于对论坛页面结构特点的分析,提出了基于重复模式发现的论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题。经过实验验证,该方法具有较好的准确性、通用性和实用性。
在论坛数据抽取结果的基础上,结合报表技术,本文设计实现了论坛监测的显示部分。最后,为检验整个系统的实用性和可行性,课题选取了清华大学网络学堂部分课程论坛进行了模型实验,并根据报表的数据情况,对结果进行了讨论和分析。