WEB文本挖掘中关键问题的研究

被引量 : 27次 | 上传用户:ww5205205220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和通讯网的迅猛发展,网络文本成为信息的主要载体及人们生活中不可或缺的主要信息来源,文本挖掘技术的研究意义和实用价值越来越突出。另一方面,随着Web2.0时代的到来,出现了越来越多的由用户创作的网络数字内容。用户数字内容的大量产生和传播使得短文本计算、Web文本信息抽取、文本情感分析等逐渐成为Web文本挖掘研究的热点问题。针对这些问题,本文进行了以下研究:(1)基于统计语言模型的短文本计算。针对短文本包含字符少、文本语言不规范、文本数量巨大的特点,本文提出了一种基于N-gram的特征提取和RPCL(Rival Penalized Competitive Learning)的短文本聚类算法。首先进行基于字符级的N-gram特征提取,即从未分词的语料中抽取中文块。中文块可以是一个汉字、一个词或者字符串,这样,中文块不但可以表达短文本的语义信息,而且能够保留语序结构和字符之间的依赖。然后通过统计子串约减和互信息过滤得到候选中文块集合。最后,使用一种神经网络聚类算法RPCL对短文本进行聚类。实验结果表明,这种基于N-gram的特征提取和RPCL的短文本聚类算法能够有效的对短文本聚类,并能有效的降低特征的维度。(2)面向广告推荐和情感分析的Web文本信息抽取。针对广告推荐中的复合词抽取问题,本文提出了基于隐马尔科夫模型的半监督中文复合词抽取算法。从少量种子复合词出发,通过设定一个BEMI(Begin,End,Middle,Independent)模板,使用隐马尔科夫模型识别与种子复合词具有相同或相似信息的复合词。算法采用Bootstrapping的学习方法,通过自学习不断增大复合词列表的规模。实验结果表明,本算法可以满足广告系统关键词推荐的信息抽取需求,并具有较高的准确率和可以接受的召回率。针对文本分析问题中情感词抽取的问题,本文提出了基于最大熵和LMR(Left,Middle,Right)模板的中文情感词抽取算法。通过对文本设定一个滑动窗口,使用LMR模板标记词的位置信息,使用词、词的先后位置信息、词性信息作为特征,对情感词进行识别和抽取。实验结果表明,本算法具有较高的召回率和准确率,同时在某些特征组合的情况下,情感词抽取具有良好的鲁棒性。(3)基于监督和半监督的文本情感分类。针对网络上大量流行音乐、网友原创、改编的音乐,本文提出了一种对音乐歌词的情感分类方法。首先,通过对歌词语料库的词进行统计发现其分布基本符合齐夫定律,但与中文分类通用语料库(863计划文本分类测试数据)中词语分布略有差异。由于对歌词表现的情感进行的分类不同于按照主题对普通文本的分类任务,所以需要抽取更多表现情感色彩的特征。本文在N元模型的框架下采取了三种不同的预处理方法(不同N-gram模板、消去停用词、按词性过滤)抽取更多的歌词情感语义特征,并提出了带有高斯先验和指数先验的最大熵模型的分类算法对歌词的情感特征进行建模。实验结果表明,具有高斯先验和指数先验的最大熵模型非常适合用于歌词情感分析问题。针对实际的情感分类中标注数据不足的情况,本文提出了一种基于半监督学习的文本情感分类算法。假设空间中存在一个情感流形结构,将待分类文本看作是这个情感流形上抽样的点。首先,利用这些点的邻域信息进行构图,每个点与它近邻的边的权重使用它的近邻线性加权表示;然后,将该图看作是一个概率转移矩阵,各类别的标签在此矩阵上扩散完成情感分类过程。在电影评论和中文歌词语料集上的实验结果表明,该算法在文本情感分类上具有良好的性能。(4)文本观点检索。以本文作者2008年参加的COAE2008中的面向主题的中文文本观点检索任务为主线,介绍了本文参评系统PRIS-SAS。本系统采用两阶段处理方式,在经过编码转换、分词等预处理后,PRIS-SAS首先使用Indri检索系统对语料集建立索引,使用任务中的主题词进行ad-hoc检索,然后使用本文中文本情感分类算法建立倾向性模型和极性模型,对检索得到的相关文本进行文本倾向性判断,并对检索结果重新排序。在COAE2008数据集上的评测指标表明,本文设计的文本观点检索系统达到了较高的性能水平。
其他文献
目的:探讨“右归丸”治疗腰椎间盘突出症(肾阳虚)的临床疗效及安全性。为临床进一步研究奠定基础。方法:将60例腰椎间盘突出症患者随机分为2组,治疗组30例,对照组30例,分别服用
<正>目前,随着我国经济的迅速发展,政府对节能减排、环境保护要求的日益提高,以及劳动力价格的快速上涨,建筑业正在发生着深刻的变革,并必将从粗放型走向集约化,逐步走上建筑
通过对建筑物非正常破坏的两类形式,即建筑工程事故以及建筑物体的灾害性终结的描述与分析,指出建筑学基本问题之重要性依旧。当今建筑学的外延大得似乎不着边际,但地震提醒我们
本文分析了毛泽东基于辩证唯物主义发展而来的历史观,并提出这一社会主义历史学有助于当前共和国政权反思其过去和未来的关系。我们知道,资本主义与共产主义的矛盾不仅存在于
伴随着桥梁建设规模日益扩大以及大跨度桥梁建设,钢筋锈蚀等劣化因素所造成的结构耐久性不足的问题日益突显,对桥梁进行耐久性实时监测就显得尤其重要,由于传统人工桥梁耐久性监
目的本研究分别通过碘缺乏饲料及PTU饮水建立甲状腺功能减退大鼠模型,观察碘缺乏及甲状腺功能减退大鼠仔鼠小脑发育的影响,以及对CaMKⅡ、CaM、CaN表达的影响。为阐明碘缺乏
设计一个高效的交通路线方案是一个非常复杂的工程问题,在设计过程中很多需要考虑的因素是复杂的,尤其是广西、云南、贵州等西南地区,整个地势都是多山地和高原。针对这些错
周吉生前是新疆艺术研究所的研究员、新疆音乐家协会名誉主席,是我国著名的民族音乐学家和作曲家。他以毕生心血为新疆文化的大发展、大繁荣做出了突出贡献。他的逝世,是我国
电石渣浆回收乙炔气装置投用以来,虽然相对较平稳,但是也出现了一些问题,根据出现的问题,采取切实可行的措施进行解决,确保了该技术在公司的安全平稳运行。
微弧氧化是从阳极氧化基础上发展而来的新兴表面处理工艺,微弧氧化技术是当前铝合金、镁合金表面处理的研究热点之一。本文采用微弧氧化法在LY12铝合金和AZ91D镁合金表面制备