基于hLDA的图书内部主题层次组织研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:cqxiaoguai1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字出版技术的不断提高和进步,电子图书资源呈现爆炸式的增长。电子图书以它独有的数字化、方便性为人们所接受,并逐渐改变人们传统的阅读习惯。然而,电子图书虽然被数字化了,但由于其长文档性,人们仍然面临着内容太多而时间、精力不够的问题,并没有极大地发挥数字图书可分解、可快速定位的优点。因此,研究如何快速准确地对图书信息资源进行良好的组织和描述一直是研究人员的目标和追求。图书主题分析是文本分析的一个应用分支,它通过抽取图书的主题信息,识别主题之间的语义联系,并将这些主题信息进行有机组织,勾勒出文档的主题结构树,来帮助用户更高效的搜索、定位和分析图书内容,使得用户获取图书知识的过程变得更简洁、方便、高效。现阶段由于文本分析大都从目次、段落甚至全文的角度,对于主题之间的关系、层次信息以及上下文环境少有考虑,并不能为用户提供满意的分析结果。此外,当前的电子图书主题多样、结构复杂,导致现有的文本分析普遍存在低效性和盲目性的问题。因此,如何有效地对图书进行组织分析成为迫切需要解决的问题。本文主要包括以下几部分工作:首先,本文提出了一种基于主题的图书知识组织分析方法,在深入分析现有文档组织理论的基础上,结合图书特点,利用层次主题模型及上下文信息构建图书内部主题层次组织模型,挖掘图书内部潜在的主题信息。其次,在模型建立的基础上,利用计算机技术,根据需求分析设计并实现了图书内部主题分析原型系统。然后,通过实验证明了图书内部主题层次组织系统的可行性和实用性。并与图书目录系统进行对比,对该系统的效果进行评价。实验结果表明,该系统在图书主题分析上具有很高的准确率。最后,本文对研究工作中存在的问题进行了总结,并对后续研究方向进行了展望。
其他文献
<正>包括微信、微博、QQ空间在内的不同形态社交网络的次第崛起进入主流,为业界与创业者提供了巨大的社交红利。每时每刻,海量的用户、流量、注意力乃至收入从一张张庞大的社
体育竞争情报作为竞技体育中的一个新兴领域开始被各个项目的运动团队所接受和重视,因为体育竞争情报的应用具有显著和实用的特点,其在竞技体育领域当中所扮演的角色也越来越
马克思在初建唯物史观时,对黑格尔式的概念辩证法是持批判态度的,这一态度不仅体现在《德意志意识形态》中,也更鲜明地体现在《哲学的贫困》中。在《哲学的贫困》一书里,马克
随着计算机技术、网络技术、控制技术和通信技术的发展,智能化建筑的系统集成正在向网络化、信息化迈进。本文重点围绕地铁设备的系统化集成阐述地铁BAS(BuildingAutomationS
传统水利工程十分注重工程的施工安全及质量,而对工程的观赏性、艺术性较少关注,使得建设完成的水利工程千篇一律,缺乏特色。随着现代社会的不断发展,要求在确保水利工程安全
随着我国经济的快速发展,各项基础设施也得到了完善。同样,建筑行业也取得了喜人的进步,具体表现为建筑规模的增大和建筑总工程量的增加。基于此,在电网基建工程的实施过程中
笔者主要就建筑设计企业的商业秘密的保护现状以及建筑行业商业秘密的表现形式和保护措施等方面进行了详细探析。
当前,中国经济发展进入以“中高速”“优结构”“新动力”“多挑战”为主要特征的新常态,本文分析了经济新常态对高职教育提出的6个新要求,结合株洲高职教育发展实际,提出如何构
家庭暴力犯罪主要指使用暴力杀死、伤害家庭成员或者是与家庭有牵连的亲属以及情人等。由于因家庭矛盾发生的伤害案件大多私了不报官,故无准确的统计资料,本文仅以天津市公安