论文部分内容阅读
互联网正深刻地改变着人们的生活,学习和工作等各个方面,特别是改变了人们交流和表达的方式,新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用,成为网络上新词创造和传播的主要平台。新词发现作为中文信息处理领域的一项基础性任务,直接影响到分词等其它中文信息处理任务的性能。虽然很多学者进行了新词发现的研究,并取得一定的成果。新词发现研究仍然存在一些问题:一是新词发现的效果不够理想,实际应用的时候常常需要人工干预;二是在微博等互联网语料上进行新词发现的研究比较少;三是缺少对新词进行分析的研究,以指导新词的应用。针对以上分析,本文进行了微博新词发现的研究,做了如下工作:第一,使用规则与统计相结合的方法进行新词发现。首先分析了五个经典统计量在抽取微博新词时的表现,指出现有方法存在的问题。在此基础上,本文提出一个基于邻接熵的新统计量——加权的相对邻接熵,实验表明新统计量具有明显的优越性。对发现的微博新词进行初步的分析,按照来源将微博新词分为七个类别,探讨了新词的形成原因。第二,将新词发现与微博分词相结合。在分词方面,针对微博文本的特点,采用一些规则辅助分词;针对微博缺少标注的训练语料的问题,本文利用KL距离选取领域外的标注语料作为训练语料;针对微博中新词较多的问题,本文将提出的新统计量作为特征加入分词模型的训练。分词后,利用分词给出的置信度,将高置信度片段和低置信度片段作为候选字符串,从中发现新词,并将发现的新词加入到词典中,作为词典特征加入分词模型的训练。通过实验验证了将新词发现与分词相结合促进了两者性能的提升。第三,对微博中新词的生命周期进行分析。首先是借助生命周期曲线从生命周期长度,新词频数和分布均匀度三个方面分析了新词的时间分布规律,大部分的新词在出现后很快就消亡了,只有少部分新词能存活下去,逐渐发展为普通词。接着我们利用频繁项集挖掘算法抽取新词的共现词语,分析新词的空间分布规律,一般新词的高支持度的共现词语比较少,代表新话题的话题词和命名实体类新词的共现词语比较多,能确切地描述出话题的主要内容。