论文部分内容阅读
中文信息处理中词表是一项非常重要的基础资料。未知词提取尝试自动从文本中提取出词表中缺少的未知词。随着以微博为代表的社交网络的快速发展,新的中文词汇大量被创造和传播,这给中文未知词提取带来了新的挑战和机遇。传统的未知词提取以基于统计模型的算法为主,这一类算法对于使用场景丰富的通用词汇具有较好的效果,但是对于使用场景比较单一的属于某些特定领域的词汇则效果一般。如何提高对这些使用场景比较单一的未知词的提取效率是一个需要解决的问题。 本文尝试从微博数据中提取未知词。为了提高未知词提取的效果,本文尝试通过对微博数据聚类,将属于同一话题或领域的文本聚集在一起,以增强属于这些特定领域未知词的统计特征。同时本文还通过改进未知词提取算法来优化未知词提取的效果。为了避免在聚类过程中人为的将相似的字符片段聚集在一起导致错误的未知词提取,本文采用了微博的相关用户集合对微博数据聚类。具体的工作包括以下几个方面: 1.本文提出了一种基于相关用户集合的微博聚类算法。该算法通过衡量两条微博的相关用户集合之间的相似度来度量两条微博的相似度。在此基础上使用层次聚类算法进行聚类以避免了预先设定类的数量。由于层次聚类对大规模的数据聚类要消耗过多的时间,本文通过连通图识别将微博关系图中的各个连通分支识别出来,然后对其分别聚类。最终在较快的时间内完成了对大量微博的聚类。 2.在现有基于统计模型的未知词提取算法的基础上,本文提出了一种改进的未知词提取算法。算法首先通过PMI值筛选出紧密相关的字符序列作为未知词候选。对于长度超过2的字符序列本文提出了PMI+值。然后通过字符序列的上下文熵排除未知词候选中属于某个未知词的子序列。针对中文字符使用灵活,上下文熵分布较均匀,单一的阈值无法起到较好过滤作用的情况。本文提出了使用从文本中学习字符的上下文熵以动态调整阈值的方法。和已有算法的对比证明本文提出的改进的未知词提取算法表现更好。 3.本文在未聚类微博和聚类微博两个数据集上对两种未知词提取算法做了对比实验。实验验证了PMI+值能够提高未知词提取的准确率,动态调整上下文熵阈值能够提高未知词提取的召回率。另一方面,微博聚类能有效提高基于统计模型的未知词提取算法的召回率。