图书网页的自动识别及书目信息抽取研究

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:wudidewohaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。【方法】在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用规则及共现词和页面分析等技术建立图书网页自动识别及书目信息抽取模型。【结果】实验证明,该模型针对来自一般性网站的图书网页识别率可以达到近80%,而针对各类图书网页书目信息的抽取准确率平均也达到79%左右。【局限】该方法中阈值的设定综合考虑了多种类型图书网页信息特征,但对于部分特征极其特殊的网页存在误判现象,若进一步改进算法,可能效果更好。【结论】此方法对于各种类型图书网页的自动识别和书目信息抽取均能取得比较理想的效果,普适性较强,同时也为图书网页信息组织管理和自动分类研究奠定了基础。 【Objective】 To study the automatic identification of web pages and the method of extracting bibliographic information from related web pages. 【Method】 On the basis of analyzing the usage characteristics, layout structure and bibliographic information characterization of different book web pages, this paper establishes a web page automatic identification and bibliographic information extraction model by defining general rules, co-occurrence words and page analysis. [Results] The experiment proves that this model can achieve a recognition rate of nearly 80% for the web pages from general websites and about 79% for the bibliographic information for all kinds of books. [Limitations] The threshold setting in this method takes into account the information characteristics of many types of book web pages. However, for some web pages with extremely special characteristics, there is a misjudgment phenomenon. If the algorithm is further improved, the effect may be better. 【Conclusion】 This method can achieve ideal effect and universal applicability for automatic identification and bibliographic information extraction of all kinds of book web pages. It also lays the foundation for the study of book web page information organization management and automatic classification.
其他文献
了解间日疟流行区疟疾发病与传疟媒介按蚊的季节分布特征及其两者的关系,为防止输入性疟疾引起二代病例及消除疟疾路径分析和验证工作提供依据.收集湖北省疟疾消除启动前2005-2009年5个疟疾监测点疟疾疫情和蚊媒监测的历史资料,按月统计间日疟发病数和蚊媒密度,采用圆形分布法进行分析.湖北省2005-2009年疟疾发病高峰日、高峰期和流行期分别为7月28日、5月26日至9月28日和3月27日至11月28日
读者了解我们吗张卉最近,我在北京市部分科技图书消费者中做了一次调查,接受调查的对象绝大部分是年龄在20~50岁的院校师生和科研人员,每人每年约购科技图书5.5册,可以说他们是科技图书消
空调(Air cool Chiller,简称Chiller)是空气调节器的简称,是使室内空气温度、湿度、清洁度和气流速度(简称四度)保持在一定范围内的一项环境工程技术,它满足生活舒适和生产工
《中国煤炭》赴美参展和工作访问王道温,李忠民应美国INTERTEC出版公司的邀请,l996年9月煤炭科技信息所所长、《中国煤炭》杂志社社长李锡林率代表团一行3人赴美国访问,主要进行以下工作:(1)参加’
东北师范大学出版社创建于1983年8月,是国家教育委员会所属的大学出版社。 本社设有社会科学、自然科学、中小幼、音像及美术等8个编辑室,出版、发行、财务等7个科室,拥有一
一张照片要有丰富的层次与细节并包含有尽可能广的影调范围,为达到这个目的,摄影师们投入了极大的精力来研究感光材料与摄影技术,这其中最著名的就是安塞尔·亚当斯及其区域
随着我国普法工作的深入开展,公民遵纪守法观念日益强化,家长侵犯子女正当权益的事已受到社会各界的广泛重视。打骂虐待、遗弃子女、包办婚姻等侵权现象日益减少。然而在现
海润是一九八九年由一群靠动脑谋生的人组建的。海润由中国国内贸易部和中华广告(香港)有限公司合资建立。国际广告(IAA)协会会员,中国广告协会会员,中国对外经济贸易广告协
短期游学是目前日本银发族的时尚,他们提出的口号是‘活到老,学到老,玩到老’。住在东京都涉谷区69岁的奥野道治和63岁的玲子夫妇,今年2月至3月,在新西兰体 Short-term tra
《党史文汇》办了100期,这是值得大庆大贺的。多年以来,贵刊坚持向广大党员和人民群众进行党史教育,激发了人们热爱党的感情,坚定了人们对党的信念。贵刊还发表了不少认真总结我