微博新词发现研究

被引量 : 0次 | 上传用户:snoopy10222001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网正深刻地改变着人们的生活,学习和工作等各个方面,特别是改变了人们交流和表达的方式,新词的不断出现就是一个证明。微博作为Web2.0时代的最热门的社交网络应用,成为网络上新词创造和传播的主要平台。新词发现作为中文信息处理领域的一项基础性任务,直接影响到分词等其它中文信息处理任务的性能。虽然很多学者进行了新词发现的研究,并取得一定的成果。新词发现研究仍然存在一些问题:一是新词发现的效果不够理想,实际应用的时候常常需要人工干预;二是在微博等互联网语料上进行新词发现的研究比较少;三是缺少对新词进行分析的研究,以指导新词的应用。针对以上分析,本文进行了微博新词发现的研究,做了如下工作:第一,使用规则与统计相结合的方法进行新词发现。首先分析了五个经典统计量在抽取微博新词时的表现,指出现有方法存在的问题。在此基础上,本文提出一个基于邻接熵的新统计量——加权的相对邻接熵,实验表明新统计量具有明显的优越性。对发现的微博新词进行初步的分析,按照来源将微博新词分为七个类别,探讨了新词的形成原因。第二,将新词发现与微博分词相结合。在分词方面,针对微博文本的特点,采用一些规则辅助分词;针对微博缺少标注的训练语料的问题,本文利用KL距离选取领域外的标注语料作为训练语料;针对微博中新词较多的问题,本文将提出的新统计量作为特征加入分词模型的训练。分词后,利用分词给出的置信度,将高置信度片段和低置信度片段作为候选字符串,从中发现新词,并将发现的新词加入到词典中,作为词典特征加入分词模型的训练。通过实验验证了将新词发现与分词相结合促进了两者性能的提升。第三,对微博中新词的生命周期进行分析。首先是借助生命周期曲线从生命周期长度,新词频数和分布均匀度三个方面分析了新词的时间分布规律,大部分的新词在出现后很快就消亡了,只有少部分新词能存活下去,逐渐发展为普通词。接着我们利用频繁项集挖掘算法抽取新词的共现词语,分析新词的空间分布规律,一般新词的高支持度的共现词语比较少,代表新话题的话题词和命名实体类新词的共现词语比较多,能确切地描述出话题的主要内容。
其他文献
《中华人民共和国企业破产法》规定了人民法院对重整计划的强制批准制度,对企业重整的顺利进行起到了重要的保障作用,但由于此项新制度的实施尚缺乏充足的实践经验,仍有一些
由于数据信息的膨胀,文本检索经常涉及海量文档。除学术论文包含关键词外,大量的文档没有关键词。面对海量文档的检索,如果没有关键词,几乎无法处理这类检索问题。因此,要进行海量
<正> 同协作研制成功划时代的氯化钙除湿吸湿布(商品名),将于本月开始正式出售。该品是以无纺布经特殊加工制成,具有①吸湿性极高,②使用方法简便等特征,主要是供家电、精密
企业所使用的信息资源有其自身特色,对企业信息资源的整合方式也不同于高校或公共图书馆对数字图书馆的信息资源整合。合理、有效地组织企业内的各种信息资源,满足企业对信息
本文以数据库规模和内容、索引方法、检索功能、检索结果、用户界面和检索效率6个评价指标为基础,对Yahoo的性能进行了多方面的评价。
叙述与天平和杆秤有关的力学问题,以及与卫星的天平动之间的联系.
近年来,中国银行认真贯彻全面从严治党要求,积极创新,形成了“一种文化、两个平台、三轮驱动、四个融入”党建工作新模式。“一种文化”是具有中行特色的党建文化。即以最好
Aspen工程软件提供了丰富的物性数据库和多种单元设备的模型库以及适用于不同场合应用的物性方法和计算方法,可以为科研开发、工程设计、生产管理等提供强有力的支持。利用As
“民以食为天,食以安为先”,这句古语一直在不断地警惕着人们:食品安全是食品生产和消费的第一要义。但近年来食品安全问题时常发生,困扰着每一个中国消费者。随着连锁超市的不断
本文在公司治理和公司管理整合的框架中,全面论述了会计的地位和作用:会计信息系统一方面是联系公司治理系统和公司管理系统的纽带,是治理系统和管理系统得以正常运转的基础;