基于位置的服务(LBS)中的文本挖掘研究

来源 :中国科学院测量与地球物理研究所 | 被引量 : 0次 | 上传用户:vera17
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于位置的服务(LBS)是当前测量学中一个研究的热点领域,它涉及到定位技术、GIS技术、无线网络技术等诸多理论方面的问题,而且具有广阔的市场前景。本文以LBS移动终端设备由于资源受限难以浏览整个Web页面为主线,侧重LBS中的关键性技术,开展技术创新研究,提出将文本挖掘中重要技术方法应用于LBS中,以解决上述难题。本文主要内容如下: 1.分析了LBS的研究状况和其中关键性技术,阐述了LBS的主要应用和巨大的社会价值。在LBS系统中,终端设备由于资源局限性不能浏览整个Web页面,本文研究内容针对上述难题而展开。 2.综述了文本挖掘的基础知识,主要包括文本挖掘的产生背景,文本挖掘的处理模型。并且按照模型对文本挖掘的处理过程进行了介绍,其中包括信息预处理、文本表示模型、特征子集的选取、文本挖掘的关键技术和模型质量评价。 3.汉语自动分词是中文文本挖掘的首要步骤,而必要的词性标注可以提高文本挖掘的精度。综述了汉语词法分析的数学基础。分词部分介绍了自动分词的主要方法、切分歧义的处理和未登录词的识别,词性标注部分介绍了汉语词性标注的主要方法。 4.提出对Web页面进行主题提取,用特征词串来表示网页的粗略摘要,以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。 中文文本主题自动提取的关键是特征词加权函数的设计,本文总结了已有的研究成果,设计了一个新的特征词加权函数,选择的加权因子有词所跨的段落数、词频、词长、词的位置,并且采用非线性函数描述词长因子、词所跨的段落数因子和词频因子的作用,比较符合语言实际情况。 开发了中文文本主题自动提取的原型系统,对文本集的测试验证了函数的有效性。 5.提出将自动文摘技术应用于LBS系统中,采用句子组成的摘要来表达Web页面的主题,以解决LBS的终端设备由于资源受限而不能显示整个网页的难题。 提出了一种基于文本结构分析的文摘方法。采用向量空间模型将文本、段落和主题段中的句子表示为等长的特征词向量,计算段落和文本相似度,根据阈值来选择主题段,然后计算主题段中的句子与主题段的相似度,根据文摘比例和相似度由高到低选取主题句,组成粗的文摘。 开发了中文自动文摘的原型系统,对文本集的测试验证了此方法的有效性。 6.提出采用信息抽取技术将用户感兴趣的信息抽取出来,再发给LBS的终端设备,解决终端设备由于资源受限而不能显示整个网页的难题。 提出了一种基于信息抽取的页面转换方法,通过标记样本实例形成抽取规则,应用抽取规则和模式匹配来抽取结构和风格类似页面,将抽取信息转化为WAP页面,发送给用户终端。 开发了信息抽取的原型系统,对实际数据源的抽取验证了此方法的效果。
其他文献
  本文利用CAFN公司的100 MHz波形数字采样器(Waveform Digitizer DT5724),基于GNUPLOT和ROOT软件,自主编写了数据获取程序,通过获取信号波形及相关时间信息,测量了光中子源的
  极端丰中子和丰质子原子核表现出了很多奇特的性质。本文通过原子核壳模型研究了这些原子核的基态和低激发态的性质。在极端丰中子区,考虑新提出的哈密顿量YSOX,研究了碳
GPS载波相位测量是GPS高精度定位的主要方法。然而其前提是要先解算出相位的整周模糊度即初始历元的整周相位。一旦整周模糊度被正确解算,载波相位观测值即可转化为高精度的测
  本工作通过实验测量了208 Pb(7Li,6He)209Bi体系的单质子转移反应角分布,以及入射道7Li+208Pb体系的弹性散射角分布.束流7Li的能量分别为25.67,28.55,32.55,37.55和42.55
会议
会议
该文依据认知科学的研究成果,结合国家空间基础设施,对数字地图设计技术的进一步发展进行了系统的研究.主要的研究工作包括以下几部分:1、总结了数字地图设计技术的发展历程,
  本文结合文献数据,比较分析了不同物理状态的水对α和p的阻止截面。分析发现,不同物理状态(物相)的水对相同入射能量粒子的阻止截面有以下现象:S气>S固,液。本工作首次总结了
  激发态的双质子发射是当今国际核物理研究的热点领域。我们在中国科学院近代物理研究所的HIRFI_RIBLL1上开展了”28,29S,27,28P,17Ne激发态双质子发射实验。不稳定核轰击
良好的生态环境是人类赖以生存和发展的基础,保持生态环境的稳定和平衡是经济、社会发展的前提。近年来由于煤炭开采引起的矿区生态环境污染和破环问题不断涌现,针对矿区环境污染的调查和治理己经成为矿区可持续发展亟待解决的重要课题。植被是指示生态环境的重要参数,通过对植被信息的有效提取与监测,从而得到的植被恢复情况可以间接地反映出矿区生态环境状况,为矿区环境污染监测提供技术支持。目前,尚无利用综合遥感数据得到
  高压倍加器实验测量厅本底较高,影响实验测量,故需要对实验测量厅的屏蔽进行改进。我们测量分析了实验 测量厅的本底情况,通过模拟计算给出了墙面和准直器的改进方案,之后在