论文部分内容阅读
为了解决互联网上信息过载方便人们快速的找到自己所需的感兴趣的信息,产生了文本信息过滤技术。文本信息过滤是指根据用户的信息需求,从大规模动态文本信息流中自动选出用户所需的信息。当今,互联网是人们获取新闻必不可少的一种媒体。在网络上所有新闻中,近年来大家很关心那种不容易预测突然爆发的,在世界各国都可能引起重大影响的突发事件新闻,如:地震、流感、瓦斯爆炸和交通事故等新闻。对于突发事件新闻文本来说标题是一篇新闻报道内容的概括,是文本内容的浓缩,与文本主题密切相关,这部分的内容对于人们过滤信息有最重要的参考价值,利用标题进行文本过滤,可以起到事半功倍的效果。文章针对人们当前关心的突发事件新闻进行了基于突发事件新闻标题的过滤方法研究,并给出了过滤模型。该方法是利用突发事件新闻标题采用基于内容过滤的方法进行过滤,用户兴趣描述是根据用户提供示例文本的方式获得。 文章以突发事件新闻语料库为研究背景,结合突发事件新闻标题的特点,对突发事件新闻进行基于标题的文本过滤方法研究。该方法借鉴TFIDF思想,采用基于词频统计的方法,提出了以标题兴趣相关度为依据进行过滤。具体研究内容和方法如下: (1)从突发事件新闻的特点出发,根据中科院分词软件2009版进行分词,对分词后出现的一些关键未登录词建立了突发事件新闻各个类对应的未登录词词典,将所建立的未登录词词典添加到分词软件中重新进行分词,从而完成突发事件新闻语料库中的一些关键的未登录词的识别问题。 (2)依据标题兴趣相关度方法进行过滤,先根据用户兴趣的描述计算出待过滤标题中各个特征的兴趣相关度,在此基础上再计算出标题兴趣相关度,将其与过滤阈值进行比较,大于过滤阈值的文本即满足用户需求。 (3)建立突发事件新闻的类别特征库,将标题特征和用户兴趣类特征的共现相似度应用于过滤中,重新确定标题中特征的兴趣相关度和待过滤标题的兴趣相关度,再根据此方法进行过滤研究。 根据以上的研究,文章对各个过滤方法进行详细阐述,并通过实验做了测试,实验证明所提出的过滤方法有较好的过滤效果。