论文部分内容阅读
本文针对网络短文本,利用相关文本主题和关键词提取算法,对其具有的相应特征和传播特性,设计具有可操作意义的改进算法,针对网络文本的传播的快捷程度和与传统文本所不同的结构特征,进行适宜网络环境的适应性设计,获得针对该类文本的形式化,可兹借鉴和推广的,具有广泛应用前景的文本主题关键词提取算法,为文本观点倾向性分析,大规模网络舆情分析,以及包括本体构建在内的一系列相关研究作出相应的试验性探索。 主要内容包括:1)汉语文本处理的相关技术和方法,包括汉语自动分词与词性标注,句型成分分析与词频权值计算,歧义结构及其处理策略。2)关键词提取的算法设计,文本分通过对比分析研究传统的算法和各提取模型的优缺点,改进并提出了新的参数设定模型,引入依赖关系,文本全局特性,上下文关联语境等相关信息,对特征向量的取值及实验效果进行了广泛的实验和对比,并综合现有各种方法的优点和不足,提出了具有实践意义的,具有可资证明的大幅度效率提升的关键词提取算法改进。3)其他研究,本文还重点研究了基于统计与规则相结合的关键词提取算法的原理、样本特征选取、参数估计和文本分类算法,调研分析了近年来基于SVM改进的各种衍生模型,为关键词提取的改进提供理论和实践基础和依据。4)本文从CAOE获取的现实文本语料,针对现实网络短文本提出的文本 关键词改进算法可以广泛的应用到相关领域,也是对新环境文本处理和语义理解的有效补充和铺垫。