一种基于微博类短文本的未登录词识别和词义发现研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:eton8816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未登录词识别技术对提高文本自动分词和句法分析的准确性有很重要的意义。随着网络社交平台的不断发展,微博(WEIBO,MicroBlog)平台已经成为人们进行信息分享、传播以及获取的重要平台。基于微博类短文本的未登录词识别研究成为热点,而微博文本中包含大量不规范用语、网络流行语等,增加了未登录词识别的困难。本文针对微博类短文本的特点,提出了针对基于微博类短文本的未登录词识别和语义发现算法。论文提出了一种基于改进的FP-Growth(Frequent Pattern Growth Algorithm)未登录词识别算法(POS-FP),该算法考虑了词性对未登录词的识别影响。首先使用POS-FP算法获取频繁项集,再和N-grams模型相结合初步获取未登录词;然后利用改进的互信息、左右信息熵、上下文依赖性和开源验证的方法,对初步获取的未登录词进行过滤和验证。与传统方法相比,该算法在微博类短文本的未登录词识别率上有一定程度提高。论文提出了一种基于相似性计算的词义发现方法。首先构建基于微博语料的带词性的同义词词林(POS-Dic-Cilin),然后利用Word2vec技术分别生成未登录词和所有名词的词向量,利用构建的POS-Dic-Cilin对词向量进行修正。最后是通过相似性计算获取未登录词的词义集合来表示未登录词词义,并通过实验验证了方法的有效性。
其他文献
在20世纪30年代,有这样一个群体,他们在皑皑雪山、茫茫草地,打破敌人的围追堵截,战胜人间难以想象的艰难困苦,创造了人类历史上最动人心魄的伟大壮举。这个英雄群体,就是中国
航空发动机高空熄火是非常严重的安全威胁,高空燃烧稳定性与可靠再点火是航空发动机燃烧室的普遍要求.文章介绍了高空低压低温条件下航空发动机燃烧室模拟实验设备方案和调试
目的探讨优质护理干预在电子无痛胃肠镜诊疗中的应用效果。方法选取九江市第一人民医院2015年10月—2016年12月收治的行电子无痛胃肠镜诊疗的患者50例,随机分为常规组和治疗
财税政策在很大的程度上助推了产业结构的转型,基于此,本文从当前财税政策下产业结构转型的发展趋势展开论述,详细阐述了财税政策在塑造优势产业、改造传统产业、弥补新兴产
康德从质、量、关系和方式四方面阐述了对美的分析,鉴赏判断只能通过"合目的性"去把握"美",在"共通感"的前提下形成审美判断的普遍性的愉悦。
本文利用1999~2007年中国制造业企业微观数据系统考察了企业财务约束对企业出口行为的影响。通过运用面板Probit模型我们发现,财务约束是导致中国本土制造业企业出口扩张的重
目的:探讨胸腰椎损伤分型及评分系统(TLICS)的临床应用价值。方法:81例胸腰段骨折患者,给予TLICS评分。≤3分者保守治疗,=4分者根据实际情况选择治疗方式,≥5分者手术治疗。
魏品康教授擅长治疗消化系统疾病,认为胃食管反流病主要病因在于饮食不节、情志不畅、脾失健运等原因致痰浊阻滞中膈,影响气机升降而发为本病。临症时应详审病因病机,明辨阴
<正> 从二十年代到三十年代,中国社会生活继续在震荡中,并且发生了更大的震荡.北洋军阀统治为国民.党新军阀所取代,后者建立了空前残暴的法西斯专政,对内残酷镇压共产党和革
<正>"日本和德国,都因极端的国家主义和种族主义发动了二次世界大战。日本用否定和模糊战争责任的方式维护自己的民族认同,而德国,对国家主义和种族主义的肃清,近乎苛刻。"20