关于应用主题模型进行地点信息挖掘的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户：ai2009ni

【摘要】

：

近年来互联网的迅猛发展，为人们提供了海量的、动态的Web网页信息。但互联网的信息具有数量庞大、更新速度快、分散无序等特点，使信息检索、聚类及信息挖掘成为重要的研究课题

【作者】

：

王景刚

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2007年期

【关键词】

：

命名实体识别地点信息主题模型聚类信息挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来互联网的迅猛发展，为人们提供了海量的、动态的Web网页信息。但互联网的信息具有数量庞大、更新速度快、分散无序等特点，使信息检索、聚类及信息挖掘成为重要的研究课题。大部分的互联网在线活动都与特定的地理位置息息相关。互联网上大量的应用和服务需要对网页的地点信息进行挖掘。对互联网上的数据进行地点信息挖掘，一般包括两方面的任务：1) 正确识别文本数据中出现的地名，属于命名实体识别的范畴；2) 挖掘文本数据中隐含的地点信息，指出文本内容与地点之间的相关性，即地点自动感知。本文结合地名辞典、隐马可夫模型(HMM)及有限状态机等技术，较准确地识别文本数据中的地点；对于隐含的地点信息的挖掘，本文扩展了LDA(Latent Dirichlet Allocation)生成概率主题模型，提出了一个全新的地点自动感知模型。本文认为，地点是依赖于它所涉及的主题，换言之，每个地点信息的产生，是由于有限多个潜在的主题的混合的结果。而每个普通的词汇，也是由多个潜在的主题的混合所产生的。从一个大型数据集中，以潜主题为过渡，揭示出每个词汇(或文本)与地点之间的定量关系。对中、英文等不同的数据集进行实验，达到满意的效果，能够挖掘出有意义和有实际作用的信息。在此理论的基础上，开发了一个全新的新闻主题及地点浏览器，作为对地理信息挖掘的一个可视化应用。

其他文献

几类确定性网络模型的特性研究

在复杂系统构建的网络模型中，主要有两类模型:一类是以随机方式生成的网络，一类是以确定性方式构造的网络.随机模型固然比较符合现实世界中大部分网络的形成特性，但是它不能很好

学位

复杂网络确定性模型拓扑性质拉普拉斯谱生成树数目

陆九渊心学管理哲学初探

“正已正人”是中国传统管理哲学中的实质,陆九渊心学体系方法论中讲究发明本心的修养方法,就是“正已”的修养方法,陆九渊对中国传统管理哲学做出了重大的贡献.本文对陆九渊

期刊

发明本心管理哲学

两类分式双层规划问题的遗传算法

双层规划问题是一类递阶优化问题,它包含一个上层优化问题和一个或多个下层优化问题,上层问题和下层问题都有各自的目标函数和约束条件,上层问题的目标函数和约束条件不仅与

学位

分式双层规划遗传算法对偶理论最优解

检验中国股票市场周一效应的Bootstrap方法——随机占优理论应用

本文基于随机占优准则对指数日收益率是否存在显著的“周一效应”进行实证检验．选取中国股票市场的一些大盘指数为样本数据．本文考察周一效应是从经验分布函数出发，利用随机占优

学位

周一效应随机占优Bootstrap股票市场分位数回归

(2+1)维Maccari System的Hirota方法和有理解

海洋怪波是一种破坏力极强的自然现象，但是人们对它的了解还不彻底.因为海洋平面是一个二维平面，为了更好的研究海洋怪波，这就激励我们依靠(2+1)维方程去了解更多的怪波模型.(2+

学位

海洋怪波Hirota方法Maccari系统怪波解极值lump解

小学美术课程中的儿童画教学初探

实践表明,几乎所有的小学生都喜欢上美术课,喜欢画画.绘画是儿童普遍喜爱的一项美术活动.儿童作画时并未意识到是在为将来打绘画基础,而是在借助绘画这一形式表达自己的内心

一维反应扩散方程的最佳自适应方法

本硕士学位论文讨论一维反应扩散方程的自适应有限元算法．首先，给出基于残量的误差估计指示因子，并证明它的有效性和可靠性．其次，基于此自适应指示因子，结合构造贪婪算法(CGS)和bul

学位

一维反应扩散方程后验误差估计自适应有限元方法误差估计指示因子构造贪婪算法bulk准则

B/S模式下的远程视频监控系统的设计与实现

近年来，随着计算机网络与通信技术、数字图像处理技术、多媒体技术的快速发展，传统的监控系统也不断向着新的方向发展。B/S模式适应了远程视频监控系统实现的需求和技术特点。

学位

B/S模式远程监控Java本地调用视频监控

求解带有不等式约束的结构型变分不等式的交替投影方法

单调的变分不等式在实际中有很多应用，例如在最优控制和凸规划中，有很多解决此类问题的方法．这篇文章中变分不等式是带有不等式约束的，其中映射F是可分离的，且我们只知道F的函数值

学位

最优控制结构型变分不等式交替投影法

《听·无声》

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

关于应用主题模型进行地点信息挖掘的研究

与本文相关的学术论文