论文部分内容阅读
随着互联网技术的迅速普及与发展,每天有4.85亿网民实时通过论坛、贴吧、博客、微博等网络媒体发表网络言论,参与话题交流,汇集成网络民意,形成网络舆论。截至2014年12月,我国网民规模达6.49亿,互联网已成为政府了解民情的直接渠道。只有及时发现互联网的热点信息,快速发现、快速处理有较大影响的重要事件,并快速识别和定向跟踪,才能更快更全面地掌握舆情动向,从而进正面引导舆论和宣传。目前,政府部门对藏文网页的舆情监控尚处于传统的人工方式。因此,开展藏语网络舆情的监测,发现关注热点,同步进行数据分析,是亟待解决的关键问题。针对中英文的热点事件发现与提取已有较多成功的系统,然而在少数民族语言环境下的网络热点事件发现与提取系统却很少有公开的实用系统,其主要原因在于少数民族语言研究基础薄弱,网络文本内容编码复杂且不统一。本文结合藏语网络文本特点,设计并实现了一个藏文网络环境下的热点事件发现与提取系统。该系统以六家藏文网站语料为基础,从中提取热点词汇,发现并提取网络热点事件,最终从不同角度抽取热点事件特征,展现给用户。本文的主要研究内容包括:(1)本文通过分析藏文网页信息特点,基于藏文网络热词在标题与内容中具有不同重要程度,提出词频位置加权算法,同时基于熵值,方差等,对大量藏文网页文本数据进行统计分析,提取、过滤藏文网络热词。实验结果表明,该方法可以有效提取藏文网页中的热点词汇。(2)分析网络热点事件特点,总结了藏语环境下的热点事件量化方法,通过分析网络热点事件评价指标,结合具体环境,计算热点事件的报道热度以及扩散热度。最后归纳热点事件量化模型公式,以此计算衡量网络热点事件热度。(3)总结网络热点事件特征标签,从不同角度提取热点事件标签。通过文本相似度最大化方法选择大量文本集合中的特定文本标题作为事件标题;通过计算热词、TFIDF值相结合的方法提取事件标签词的方法,获取热点事件特征标签,并将其展示给用户。