关于应用主题模型进行地点信息挖掘的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:ai2009ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网的迅猛发展,为人们提供了海量的、动态的Web网页信息。但互联网的信息具有数量庞大、更新速度快、分散无序等特点,使信息检索、聚类及信息挖掘成为重要的研究课题。 大部分的互联网在线活动都与特定的地理位置息息相关。互联网上大量的应用和服务需要对网页的地点信息进行挖掘。对互联网上的数据进行地点信息挖掘,一般包括两方面的任务:1) 正确识别文本数据中出现的地名,属于命名实体识别的范畴;2) 挖掘文本数据中隐含的地点信息,指出文本内容与地点之间的相关性,即地点自动感知。本文结合地名辞典、隐马可夫模型(HMM)及有限状态机等技术,较准确地识别文本数据中的地点;对于隐含的地点信息的挖掘,本文扩展了LDA(Latent Dirichlet Allocation)生成概率主题模型,提出了一个全新的地点自动感知模型。本文认为,地点是依赖于它所涉及的主题,换言之,每个地点信息的产生,是由于有限多个潜在的主题的混合的结果。而每个普通的词汇,也是由多个潜在的主题的混合所产生的。从一个大型数据集中,以潜主题为过渡,揭示出每个词汇(或文本)与地点之间的定量关系。 对中、英文等不同的数据集进行实验,达到满意的效果,能够挖掘出有意义和有实际作用的信息。在此理论的基础上,开发了一个全新的新闻主题及地点浏览器,作为对地理信息挖掘的一个可视化应用。
其他文献
在复杂系统构建的网络模型中,主要有两类模型:一类是以随机方式生成的网络,一类是以确定性方式构造的网络.随机模型固然比较符合现实世界中大部分网络的形成特性,但是它不能很好
“正已正人”是中国传统管理哲学中的实质,陆九渊心学体系方法论中讲究发明本心的修养方法,就是“正已”的修养方法,陆九渊对中国传统管理哲学做出了重大的贡献.本文对陆九渊
双层规划问题是一类递阶优化问题,它包含一个上层优化问题和一个或多个下层优化问题,上层问题和下层问题都有各自的目标函数和约束条件,上层问题的目标函数和约束条件不仅与
本文基于随机占优准则对指数日收益率是否存在显著的“周一效应”进行实证检验.选取中国股票市场的一些大盘指数为样本数据.本文考察周一效应是从经验分布函数出发,利用随机占优
海洋怪波是一种破坏力极强的自然现象,但是人们对它的了解还不彻底.因为海洋平面是一个二维平面,为了更好的研究海洋怪波,这就激励我们依靠(2+1)维方程去了解更多的怪波模型.(2+
实践表明,几乎所有的小学生都喜欢上美术课,喜欢画画.绘画是儿童普遍喜爱的一项美术活动.儿童作画时并未意识到是在为将来打绘画基础,而是在借助绘画这一形式表达自己的内心
本硕士学位论文讨论一维反应扩散方程的自适应有限元算法.首先,给出基于残量的误差估计指示因子,并证明它的有效性和可靠性.其次,基于此自适应指示因子,结合构造贪婪算法(CGS)和bul
近年来,随着计算机网络与通信技术、数字图像处理技术、多媒体技术的快速发展,传统的监控系统也不断向着新的方向发展。B/S模式适应了远程视频监控系统实现的需求和技术特点。
单调的变分不等式在实际中有很多应用,例如在最优控制和凸规划中,有很多解决此类问题的方法.这篇文章中变分不等式是带有不等式约束的,其中映射F是可分离的,且我们只知道F的函数值
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊