用于文本分类的简明语义分析技术研究

被引量 : 0次 | 上传用户：zel1988

【摘要】

：

文本是获取、存储、传播信息最有效的途径。目前人类正面对着信息的海洋,海量的文本信息储存了人类知识和文化的精华,也是人类文明得以延续和发展的保证。文本分类技术的作用

【作者】

：

李智星

【发表日期】

：

2011年期

【关键词】

：

简明语义分析文本表示词串模型可扩展性与并行化推荐系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本是获取、存储、传播信息最有效的途径。目前人类正面对着信息的海洋,海量的文本信息储存了人类知识和文化的精华,也是人类文明得以延续和发展的保证。文本分类技术的作用就是利用计算机辅助,帮助人们对文本进行归类、整理。作为自然语言处理和文本自动化处理的一个基础应用,文本分类一直都被研究者们所关注。文本表示是文本分类的一个关键步骤。文本表示指的是如何将人能阅读和理解的自然语言文本表示为计算机可读的数据,本质上是一个信息转换的过程。我们总是希望能够将尽可能充足和完备的信息传递给计算机,然而计算机只有对数据进行存储和计算的能力,无法像人脑一样对文本进行语义分析。为克服经典词袋模型的高维和词语独立性假设的缺陷,本文提出了一种用于文本分类的简明语义分析方法,将词语和文本片段在一个较低维的概念空间中进行表示,从而实现词语和文本片段的语义分析。同时为考察简明语义分析在大规模数据集上应用的潜力,深入分析了简明语义分析的可扩展性与并行化。为充分利用文本中的词序信息,本文提出了一种可以保留原文词语顺序的词串模型,将文本表示为概念空间中的向量串,并提出两种向量串相似度计算方法,设计了一个拟k-NN分类器,并通过实验对词串模型的性能进行了验证。论文主要成果如下:①提出了一种基于类标的简明语义分析技术。简明语义分析技术是针对文本分类提出的一种文本表示技术,可以将文本表示在被类标派生出来的概念所构成的空间中。根据语料库的不同,本文提出直接派生、拆分派生和组合派生三种派生方式。针对不同的语料库可以选取不同的方式,构造简洁有效的概念空间。②提出了一种词语与概念之间相关度计算的方法。本文提出的方法基于信息集中度的思想,将文本长度当做词语重要性的一个影响因素,实现了词语在概念空间中的有效表示,并通过对比实验证明了简明语义分析在文本分类应用中的有效性。③对简明语义分析的可扩展性和并行化做了深入分析。证明了简明语义分析良好的可扩展性和并行化简明语义分析的高效率,为简明语义分析在大规模数据集上的应用奠定了理论基础。④提出了一种可以保留词序的词串表示模型,将文本表示为概念空间中的向量串,使得形式化后的数据可以还原原文的语义流向信息。同时提出并设计了两种向量串相似度计算方法,设计了一个拟k-NN分类器,通过实验和分析证明了词串模型在分类精度上优于词袋模型。⑤将简明语义分析应用到手机新闻推荐系统,构建了一个具用占有网络带宽小、信息覆盖面全和可有效保护用户隐私的手机新闻推荐系统,并给出了一个原型系统。

其他文献

荔波城市旅游用地及其接待设施指标研究

荔波是旅游城市却无城市旅游,对于市域资源丰富、市内资源稀缺的旅游城市,如何开展城市旅游是重点;荔波有旅游用地,但旅游用地规划有待深化,如何充分利用已有资源、创造性地

学位

城市旅游用地功能复合旅游用地规划项目策划接待设施指标

基于图论的智能电网最优孤岛划分模型和算法

孤岛运行(或独立子系统运行)是互联电网和含分布式发电(DG)配电系统的一类特殊运行方式。对于前者而言,及时地将系统解列成多个能够稳定运行的孤岛系统可以避免局部事故扩散

学位

电力系统主动解列孤岛划分图论背包问题

高山杜鹃品种‘罗伯茨’×大白杜鹃杂交F1代主要观赏性状的遗传分析

开展以高山杜鹃品种‘罗伯茨’（Rhododendron‘Lord Roberts’）为母本,大白杜鹃为父本的杂交,对其杂交F1代花期、花色、斑点、香味、花部性状及叶型进行统计分析,研究高山杜鹃F

会议

高山杜鹃杂种观赏性状遗传

外部源知识对企业破坏性创新的影响研究

2015年在达沃斯论坛上强调“面对多变的经济形势,我们主张要大力推动开放创新”。国家之间的开放合作归根到底要落实到企业这一市场主体上。因此,企业如何才能够实现创新成长成为一个重要问题。尤其是进入知识经济时代,企业单纯依靠内部知识研发进行高成本的创新活动已经难以适应快速发展的市场需求和日益激烈的企业竞争,越来越多的企业积极从组织外部获取知识并对其加以整合利用来提升自身创新水平。在这一背景下,很多研究

学位

外部源知识知识整合能力破坏性创新战略柔性

《蒹葭》题旨多解考辨

<正>一、美刺之说这是学术史对《蒹葭》题意最早的定位。《毛诗序》说:"《蒹葭》刺襄公也,未能用周礼,将无以固其国焉。"[1]东汉郑玄《诗笺》:"秦处周之旧土,其人被周之德教

期刊

《蒹葭》王宗石姚际恒方玉润上海古籍出版社钱钟书中华书局《毛诗序》

利用侧吹风提高铁路道床吸污车吸污能力研究

论述吹吸结合的吸污原理,对轨道板沟槽内污物难吸收问题进行理论分析,提出利用铁路道床吸污车的侧吹风提高吸污能力的解决方案。从污物卷吸的基本条件、侧吹风卷吸污物理论和

期刊

侧吹风铁路道床吸污车吸污能力轨道板沟槽

税务信息化建设的意义和作用

期刊

税务信息化税务机关纳税人税收决策依法治税意义和作用

厦门市婴幼儿过敏性症状的影响因素分析

目的探索厦门市婴幼儿过敏性症状的影响因素,制定有效预防措施,指导临床工作,降低过敏风险。方法随机抽取两个社区调查0～30月龄婴幼儿母亲及妊娠28周以上孕妇,进行面对面问卷

期刊

过敏性症状胎儿期婴幼儿影响因素

全球化语境下跨文化意识与旅游翻译工作者的专业化发展

在经济与文化全球化的背景下,旅游翻译工作者必须具备跨文化意识并在其指引下追求专业化发展。本文描述了追求专业化发展的译者的四个主要特征,探讨了跨文化意识推动旅游翻译

期刊

旅游翻译跨文化意识专业化发展

基于仿真技术的汽车装配生产系统平衡性研究

设施规划设计作为工业工程领域重要的分支,是对一个企业中的实物设施进行设计,以提高资源的有效利用来达到企业高效运行的目的。系统建模仿真的技术迅猛发展,将仿真技术应用

学位

汽车装配系统建模仿真在制品库存生产线平衡

用于文本分类的简明语义分析技术研究

其他学术论文