微博新词发现研究

被引量 : 0次 | 上传用户：snoopy10222001

【摘要】

：

互联网正深刻地改变着人们的生活，学习和工作等各个方面，特别是改变了人们交流和表达的方式，新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用，成为网络上

【作者】

：

苏其龙

【发表日期】

：

2013年期

【关键词】

：

新词发现统计量分词生命周期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网正深刻地改变着人们的生活，学习和工作等各个方面，特别是改变了人们交流和表达的方式，新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用，成为网络上新词创造和传播的主要平台。新词发现作为中文信息处理领域的一项基础性任务，直接影响到分词等其它中文信息处理任务的性能。虽然很多学者进行了新词发现的研究，并取得一定的成果。新词发现研究仍然存在一些问题：一是新词发现的效果不够理想，实际应用的时候常常需要人工干预；二是在微博等互联网语料上进行新词发现的研究比较少；三是缺少对新词进行分析的研究，以指导新词的应用。针对以上分析，本文进行了微博新词发现的研究，做了如下工作：第一，使用规则与统计相结合的方法进行新词发现。首先分析了五个经典统计量在抽取微博新词时的表现，指出现有方法存在的问题。在此基础上，本文提出一个基于邻接熵的新统计量——加权的相对邻接熵，实验表明新统计量具有明显的优越性。对发现的微博新词进行初步的分析，按照来源将微博新词分为七个类别，探讨了新词的形成原因。第二，将新词发现与微博分词相结合。在分词方面，针对微博文本的特点，采用一些规则辅助分词；针对微博缺少标注的训练语料的问题，本文利用KL距离选取领域外的标注语料作为训练语料；针对微博中新词较多的问题，本文将提出的新统计量作为特征加入分词模型的训练。分词后，利用分词给出的置信度，将高置信度片段和低置信度片段作为候选字符串，从中发现新词，并将发现的新词加入到词典中，作为词典特征加入分词模型的训练。通过实验验证了将新词发现与分词相结合促进了两者性能的提升。第三，对微博中新词的生命周期进行分析。首先是借助生命周期曲线从生命周期长度，新词频数和分布均匀度三个方面分析了新词的时间分布规律，大部分的新词在出现后很快就消亡了，只有少部分新词能存活下去，逐渐发展为普通词。接着我们利用频繁项集挖掘算法抽取新词的共现词语，分析新词的空间分布规律，一般新词的高支持度的共现词语比较少，代表新话题的话题词和命名实体类新词的共现词语比较多，能确切地描述出话题的主要内容。

其他文献

重整计划强制批准法律问题研究

《中华人民共和国企业破产法》规定了人民法院对重整计划的强制批准制度,对企业重整的顺利进行起到了重要的保障作用,但由于此项新制度的实施尚缺乏充足的实践经验,仍有一些

期刊

重整计划强制批准重整价值新价值例外原则风险补偿机制

基于文本的关键词提取方法研究与实现

由于数据信息的膨胀，文本检索经常涉及海量文档。除学术论文包含关键词外，大量的文档没有关键词。面对海量文档的检索，如果没有关键词，几乎无法处理这类检索问题。因此，要进行海量

学位

词语相似度关键词提取TFIDF词语网络

划时代的氯化钙除湿吸湿布即将开始销售

<正> 同协作研制成功划时代的氯化钙除湿吸湿布(商品名),将于本月开始正式出售。该品是以无纺布经特殊加工制成,具有①吸湿性极高,②使用方法简便等特征,主要是供家电、精密

期刊

氯化钙吸湿量除湿剂划时代

企业信息资源的整合及其实现

企业所使用的信息资源有其自身特色,对企业信息资源的整合方式也不同于高校或公共图书馆对数字图书馆的信息资源整合。合理、有效地组织企业内的各种信息资源,满足企业对信息

期刊

企业信息资源整合平台

搜索引擎Yahoo的性能评价及评价指标的选择

本文以数据库规模和内容、索引方法、检索功能、检索结果、用户界面和检索效率6个评价指标为基础,对Yahoo的性能进行了多方面的评价。

期刊

搜索引擎Yahoo性能评价评价指标

天平、杆秤和天平动

叙述与天平和杆秤有关的力学问题，以及与卫星的天平动之间的联系．

期刊

天平杆秤复摆天平动

中国银行:创建党建工作新模式

近年来,中国银行认真贯彻全面从严治党要求,积极创新,形成了“一种文化、两个平台、三轮驱动、四个融入”党建工作新模式。“一种文化”是具有中行特色的党建文化。即以最好

期刊

工作新模式党建工作中国银行

Aspen工程软件在化工过程工艺开发中的应用

Aspen工程软件提供了丰富的物性数据库和多种单元设备的模型库以及适用于不同场合应用的物性方法和计算方法,可以为科研开发、工程设计、生产管理等提供强有力的支持。利用As

期刊

Aspen工程开发设计应用

基于食品安全的连锁超市食品供应商管理研究

“民以食为天，食以安为先”，这句古语一直在不断地警惕着人们：食品安全是食品生产和消费的第一要义。但近年来食品安全问题时常发生，困扰着每一个中国消费者。随着连锁超市的不断

学位

食品安全连锁超市供应商选择供应商关系管理

论会计信息系统与公司治理和管理系统的关系

本文在公司治理和公司管理整合的框架中,全面论述了会计的地位和作用:会计信息系统一方面是联系公司治理系统和公司管理系统的纽带,是治理系统和管理系统得以正常运转的基础;

期刊

治理管理会计信息

微博新词发现研究

其他学术论文