【摘 要】
:
网页归类是一项很重要的任务,它能够帮助人们便捷的获取互联网的信息。例如,雅虎目录有成百上千的按语义区分的类别,包括人文艺术、商务和经济、教育还有健康等等。但是,随着
论文部分内容阅读
网页归类是一项很重要的任务,它能够帮助人们便捷的获取互联网的信息。例如,雅虎目录有成百上千的按语义区分的类别,包括人文艺术、商务和经济、教育还有健康等等。但是,随着互联网的迅速扩张,我们需要设计一种能够对网页进行自动归类的算法。语义模型能够被用来对网页进行自动归类。语义模型是一种概率生成模型的框架,用以表示文本的内容。之前的语义模型如ProbabilisticLatent Semantic Indexing(PLSI)和Latent Dirichlet Allocation(LDA)都是用以建模普通文本的,并没有考虑文本之间的链接关系。最近,考虑文本链接关系,如网页的语义模型被提出。这些模型同时生成文本内容和链接。在本文中,我们指出,为了更好的表示网页的内容,本质问题是我们更应该假设文本之间的链接已经给出了。然后再通过文本链接结构,描述文本内容是如何产生的。根据这个想法,我们提出了新的针对网页特性的概率模型,称之为Hypertext Topic Model(HTM)。HTM定义文本中词的分布为文本本身及其所引用的文本的语义的混合体。其中语义被定义为词的分布,正如如传统的语义模型那样。对于语义模型来说,参数估计和概率推理是很关键的步骤。在本文中,我们首先综述了相关的算法,然后根据超文本语义模型的特性提出了变种算法。试验结果表示了在三个数据集上,HTM超过了其它的模型,语义的抽取更加精确,并且网页分类的精确度也更加高。
其他文献
网络技术的飞速发展使其在现代社会中的重要性越来越突出。如何将地理上分布、异构的各种存储资源通过网络连接并集成起来,形成庞大的分布虚拟存储空间,提供安全高效的数据存
面向方面的编程(Aspect-Oriented Program,AOP)是一种编程范式,它允许对应用于某种宿主语言的关注点的分离,并且提供一种可以描述那些横切其他组件的关注点的描述机制。这些
随着我国用电需求的迅速增加,电网安全运行日趋重要。输电线路电气可靠性评估模型的统一化是确保电网安全运行的一个重要课题。利用决策支持的方法,综合线路可靠性相关的多种评估方法,构建了基于决策支持技术的统一评估模型。该模型可以方便地完成各种跳闸率的计算。本文还采用专家系统法构建了一个合理的专家建议模型,该模型根据跳闸率、可靠性问题的类型以及现场的具体情况提出合理的线路可靠性改进建议。利用XML Web
本文提出了一种新的网络演化模型,此模型基于进化算法(Evolutionary Algorithm)并且引入了“模块形式变化的演化目标”(Modularly Varying Goals)以及博弈理论(Game Theory)
随着互联网的普及和深入应用,当今Interne/WWW汇聚了极其丰富的信息资源及应用,中国互联网的发展和使用群体在高速增长。同时,随着手机等移动设备及3G等移动技术的普及,大量
当前,人机交互过程中的多通道输出已经获得了普遍的使用,但是输入依旧停留在键盘,鼠标等简单的单通道的输入方式下,交互手段的不平衡成为了制约人机交互效率的主要瓶颈。未来
图像拼接是图像界的热点问题之一,在图像识别,无人飞机,航拍图像分析等各个领域都有广泛的应用。本文对图像拼接及其相关技术进行了研究,主要包括特征的检测和提取、基于点特征的
本文研究了HLA分布式交互仿真中的数据管理问题,数据管理是HLA分布式交互仿真中的核心内容之一。虽然HLA中提供了数据交互分发机制,但它无法完全解决交互数据量大、实体分布
随着多媒体技术的发展及人们日常生活的需要,涌现出了大量的图像,同时伴随着图像处理技术及计算机网络的普及,图像的传播速度也在快速提高。面对庞大的图像信息,如何对其进行
移动计算(Mobile Computing)是在移动通信、互联网、数据库、分布式计算等技术发展的基础上随之产生的新兴的技术。人们通过移动设备,通过无线网络实现信息的访问和事务的处