基于微博数据聚类的未知词提取优化

来源 :北京大学 | 被引量 : 0次 | 上传用户:xinxinrenren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理中词表是一项非常重要的基础资料。未知词提取尝试自动从文本中提取出词表中缺少的未知词。随着以微博为代表的社交网络的快速发展,新的中文词汇大量被创造和传播,这给中文未知词提取带来了新的挑战和机遇。传统的未知词提取以基于统计模型的算法为主,这一类算法对于使用场景丰富的通用词汇具有较好的效果,但是对于使用场景比较单一的属于某些特定领域的词汇则效果一般。如何提高对这些使用场景比较单一的未知词的提取效率是一个需要解决的问题。  本文尝试从微博数据中提取未知词。为了提高未知词提取的效果,本文尝试通过对微博数据聚类,将属于同一话题或领域的文本聚集在一起,以增强属于这些特定领域未知词的统计特征。同时本文还通过改进未知词提取算法来优化未知词提取的效果。为了避免在聚类过程中人为的将相似的字符片段聚集在一起导致错误的未知词提取,本文采用了微博的相关用户集合对微博数据聚类。具体的工作包括以下几个方面:  1.本文提出了一种基于相关用户集合的微博聚类算法。该算法通过衡量两条微博的相关用户集合之间的相似度来度量两条微博的相似度。在此基础上使用层次聚类算法进行聚类以避免了预先设定类的数量。由于层次聚类对大规模的数据聚类要消耗过多的时间,本文通过连通图识别将微博关系图中的各个连通分支识别出来,然后对其分别聚类。最终在较快的时间内完成了对大量微博的聚类。  2.在现有基于统计模型的未知词提取算法的基础上,本文提出了一种改进的未知词提取算法。算法首先通过PMI值筛选出紧密相关的字符序列作为未知词候选。对于长度超过2的字符序列本文提出了PMI+值。然后通过字符序列的上下文熵排除未知词候选中属于某个未知词的子序列。针对中文字符使用灵活,上下文熵分布较均匀,单一的阈值无法起到较好过滤作用的情况。本文提出了使用从文本中学习字符的上下文熵以动态调整阈值的方法。和已有算法的对比证明本文提出的改进的未知词提取算法表现更好。  3.本文在未聚类微博和聚类微博两个数据集上对两种未知词提取算法做了对比实验。实验验证了PMI+值能够提高未知词提取的准确率,动态调整上下文熵阈值能够提高未知词提取的召回率。另一方面,微博聚类能有效提高基于统计模型的未知词提取算法的召回率。  
其他文献
软件复用技术已成为当前研究热点,框架作为一种重要的面向对象软件复用技术,得到了越来越多的重视;尤其是针对于特定行业领域的应用框架技术,已经成为当前的研究重点与发展趋
随着网络技术和网络规模的快速发展,特别是Internet大范围的开放以及金融领域网络的接入,在我们享受如今的信息技术带来的种种便利的同时,也遭受着黑客的攻击.尽管近年来网络
Java 2企业版(J2EE)是Sun提供的一个标准的企业应用开发平台,它为我们开发企业Web应用提供了丰富的技术选择.然而,一个高质量的应用有赖于设计良好的体系架构的支持.如何正确
随着因特网的不断发展,数字图书馆已成为人们获取信息的主要来源,尤其在经常查找某个感兴趣的科学技术研究主题时,数字图书馆更是获取文献资源必不可少途径.随着数字图书馆海
在计算机发展进入了网络计算的新阶段中,分布式系统已得到了越来越广泛的研究和应用.由于分布式系统的并行性降低了处理的瓶颈,提供了更好的性能价格比,且具有在系统出现故障
近年来,在许多虚拟现实系统中需要动态仿真水流运动,为了增加系统的真实感,就要正确地对水流进行仿真,其关键是建立恰当的模型和采用适当的渲染算法。许多现有的流体模型只能单独
相机参数标定是基于图像的三维模型重建中的关键步骤,提取标定点是准确完成相机参数标定的必要前提,而棋盘格标定板在三维重建中的应用最为广泛。为了完成棋盘格角点的提取,本文
电视发射合作为国家宣传阵地的前沿,担负着极其重要的电视发射任务,其不仅仅要保证发射信号的质量,同时维持播出信号的可靠性和稳定性也是非常重要的.这样就不但要求输入信号
随着互联网技术的高速发展,网络上的信息呈爆炸式增长。据权威互联网资讯公司Netcraft的统计数据显示,截止2014年2月,全球有效在线网站约有920,102,079个。按每个网站拥有1000个网
随着IC卡的使用越来越普遍,IC卡应用领域越来越广泛,IC卡应用系统的安全问题也日益突出,因此,如何提高IC卡应用系统的安全性能成为目前研究的热点问题.首先,该文综述了IC卡,