论文部分内容阅读
近年来互联网的迅猛发展,为人们提供了海量的、动态的Web网页信息。但互联网的信息具有数量庞大、更新速度快、分散无序等特点,使信息检索、聚类及信息挖掘成为重要的研究课题。
大部分的互联网在线活动都与特定的地理位置息息相关。互联网上大量的应用和服务需要对网页的地点信息进行挖掘。对互联网上的数据进行地点信息挖掘,一般包括两方面的任务:1) 正确识别文本数据中出现的地名,属于命名实体识别的范畴;2) 挖掘文本数据中隐含的地点信息,指出文本内容与地点之间的相关性,即地点自动感知。本文结合地名辞典、隐马可夫模型(HMM)及有限状态机等技术,较准确地识别文本数据中的地点;对于隐含的地点信息的挖掘,本文扩展了LDA(Latent Dirichlet Allocation)生成概率主题模型,提出了一个全新的地点自动感知模型。本文认为,地点是依赖于它所涉及的主题,换言之,每个地点信息的产生,是由于有限多个潜在的主题的混合的结果。而每个普通的词汇,也是由多个潜在的主题的混合所产生的。从一个大型数据集中,以潜主题为过渡,揭示出每个词汇(或文本)与地点之间的定量关系。
对中、英文等不同的数据集进行实验,达到满意的效果,能够挖掘出有意义和有实际作用的信息。在此理论的基础上,开发了一个全新的新闻主题及地点浏览器,作为对地理信息挖掘的一个可视化应用。