基于向量支持主题识别的文本关键词提取

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:woai6672690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对网络短文本,利用相关文本主题和关键词提取算法,对其具有的相应特征和传播特性,设计具有可操作意义的改进算法,针对网络文本的传播的快捷程度和与传统文本所不同的结构特征,进行适宜网络环境的适应性设计,获得针对该类文本的形式化,可兹借鉴和推广的,具有广泛应用前景的文本主题关键词提取算法,为文本观点倾向性分析,大规模网络舆情分析,以及包括本体构建在内的一系列相关研究作出相应的试验性探索。  主要内容包括:1)汉语文本处理的相关技术和方法,包括汉语自动分词与词性标注,句型成分分析与词频权值计算,歧义结构及其处理策略。2)关键词提取的算法设计,文本分通过对比分析研究传统的算法和各提取模型的优缺点,改进并提出了新的参数设定模型,引入依赖关系,文本全局特性,上下文关联语境等相关信息,对特征向量的取值及实验效果进行了广泛的实验和对比,并综合现有各种方法的优点和不足,提出了具有实践意义的,具有可资证明的大幅度效率提升的关键词提取算法改进。3)其他研究,本文还重点研究了基于统计与规则相结合的关键词提取算法的原理、样本特征选取、参数估计和文本分类算法,调研分析了近年来基于SVM改进的各种衍生模型,为关键词提取的改进提供理论和实践基础和依据。4)本文从CAOE获取的现实文本语料,针对现实网络短文本提出的文本  关键词改进算法可以广泛的应用到相关领域,也是对新环境文本处理和语义理解的有效补充和铺垫。  
其他文献
基于产业集群理论发展起来的高新技术产业区,在我国已有20余年历史,由最初的创新要素集聚逐渐向区域创新网络过渡,处于不断成长和完善中的高新技术产业集群还没有形成坚实稳固的
专利是技术创新和科学技术发明的产物,已被广泛用于研究技术进步与创新活动、鉴别技术发展趋势、研究国家和企业研发战略、指导创新管理与政策制定等。专利权人在创新过程中发
小学数学"大问导学"的教学模式就是指根据特定的小学生的心理特点、学习经验以及学习困惑点,采用一定的教学策略,对课程关系、问题引导、学习方式等多方面进行系统处理,提出质量高
本文通过对荣华二采区10
技术由于内在的不确定性存在风险。技术风险包括技术给社会经济系统带来的风险,即科技哲学层面的技术风险;投资和科研项目开发中的技术风险和技术本身不确定带来损失的可能,即纯
期刊
亲爱的《体育文化导刊》读者们:6月15日,我在中国北京劳动人民文化宫(太庙)参加了以“奥林匹克,瞬间的永恒”为主题的“2017北京奥林匹克博览会”开幕式。来宾们在气势宏伟的
期刊
随着网络科技文献数目的日益庞大,现代科技文献的特点是产出成果多、速度快、知识容量大。人们希望查找的有关信息夹杂在浩瀚的无关信息中,即使是有关的信息也存在着无数次重复
在科研教育领域,e-Science、e-Learning、e-Administration、e-Media等应用环境相互融合成为综合数字环境,用户对信息资源的需求范围和使用形式已经开始发生巨大变化。图书馆作
期刊