论文部分内容阅读
随着数字出版技术的不断提高和进步,电子图书资源呈现爆炸式的增长。电子图书以它独有的数字化、方便性为人们所接受,并逐渐改变人们传统的阅读习惯。然而,电子图书虽然被数字化了,但由于其长文档性,人们仍然面临着内容太多而时间、精力不够的问题,并没有极大地发挥数字图书可分解、可快速定位的优点。因此,研究如何快速准确地对图书信息资源进行良好的组织和描述一直是研究人员的目标和追求。图书主题分析是文本分析的一个应用分支,它通过抽取图书的主题信息,识别主题之间的语义联系,并将这些主题信息进行有机组织,勾勒出文档的主题结构树,来帮助用户更高效的搜索、定位和分析图书内容,使得用户获取图书知识的过程变得更简洁、方便、高效。现阶段由于文本分析大都从目次、段落甚至全文的角度,对于主题之间的关系、层次信息以及上下文环境少有考虑,并不能为用户提供满意的分析结果。此外,当前的电子图书主题多样、结构复杂,导致现有的文本分析普遍存在低效性和盲目性的问题。因此,如何有效地对图书进行组织分析成为迫切需要解决的问题。本文主要包括以下几部分工作:首先,本文提出了一种基于主题的图书知识组织分析方法,在深入分析现有文档组织理论的基础上,结合图书特点,利用层次主题模型及上下文信息构建图书内部主题层次组织模型,挖掘图书内部潜在的主题信息。其次,在模型建立的基础上,利用计算机技术,根据需求分析设计并实现了图书内部主题分析原型系统。然后,通过实验证明了图书内部主题层次组织系统的可行性和实用性。并与图书目录系统进行对比,对该系统的效果进行评价。实验结果表明,该系统在图书主题分析上具有很高的准确率。最后,本文对研究工作中存在的问题进行了总结,并对后续研究方向进行了展望。