论文部分内容阅读
基于位置的服务(LBS)是当前测量学中一个研究的热点领域,它涉及到定位技术、GIS技术、无线网络技术等诸多理论方面的问题,而且具有广阔的市场前景。本文以LBS移动终端设备由于资源受限难以浏览整个Web页面为主线,侧重LBS中的关键性技术,开展技术创新研究,提出将文本挖掘中重要技术方法应用于LBS中,以解决上述难题。本文主要内容如下:
1.分析了LBS的研究状况和其中关键性技术,阐述了LBS的主要应用和巨大的社会价值。在LBS系统中,终端设备由于资源局限性不能浏览整个Web页面,本文研究内容针对上述难题而展开。
2.综述了文本挖掘的基础知识,主要包括文本挖掘的产生背景,文本挖掘的处理模型。并且按照模型对文本挖掘的处理过程进行了介绍,其中包括信息预处理、文本表示模型、特征子集的选取、文本挖掘的关键技术和模型质量评价。
3.汉语自动分词是中文文本挖掘的首要步骤,而必要的词性标注可以提高文本挖掘的精度。综述了汉语词法分析的数学基础。分词部分介绍了自动分词的主要方法、切分歧义的处理和未登录词的识别,词性标注部分介绍了汉语词性标注的主要方法。
4.提出对Web页面进行主题提取,用特征词串来表示网页的粗略摘要,以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。
中文文本主题自动提取的关键是特征词加权函数的设计,本文总结了已有的研究成果,设计了一个新的特征词加权函数,选择的加权因子有词所跨的段落数、词频、词长、词的位置,并且采用非线性函数描述词长因子、词所跨的段落数因子和词频因子的作用,比较符合语言实际情况。
开发了中文文本主题自动提取的原型系统,对文本集的测试验证了函数的有效性。
5.提出将自动文摘技术应用于LBS系统中,采用句子组成的摘要来表达Web页面的主题,以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。
提出了一种基于文本结构分析的文摘方法。采用向量空间模型将文本、段落和主题段中的句子表示为等长的特征词向量,计算段落和文本相似度,根据阈值来选择主题段,然后计算主题段中的句子与主题段的相似度,根据文摘比例和相似度由高到低选取主题句,组成粗的文摘。
开发了中文自动文摘的原型系统,对文本集的测试验证了此方法的有效性。
6.提出采用信息抽取技术将用户感兴趣的信息抽取出来,再发给LBS的终端设备,解决终端设备由于资源受限而不能显示整个网页的难题。
提出了一种基于信息抽取的页面转换方法,通过标记样本实例形成抽取规则,应用抽取规则和模式匹配来抽取结构和风格类似页面,将抽取信息转化为WAP页面,发送给用户终端。
开发了信息抽取的原型系统,对实际数据源的抽取验证了此方法的效果。