基于XML的网页信息自动抽取

来源 :计算机应用 | 被引量 : 4次 | 上传用户:wangjuekenan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章提出了一种基于XML的网页信息自动抽取的方法和框架 ,通过利用网页中信息的结构相似性和词法相似性 ,自动学习出网页信息的记录模式并归纳出相应的词法模式 ,从而避免了繁重的人为样本收集与标记工作 ,也免去了人工给定模式的工作 ,具备很强的自动性。同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中。
其他文献
本文讨论了在面向对象的系统开发中存在的各开发阶段之间的不平滑过渡问题。通过讨论,建立了一个需求跟踪模型并开发了相应的支持工具。在此基础上,文章讨论了如何通过需求跟踪技术支持面向对象开发中各开发阶段之间的平滑过渡
摘 要:儒家的道德理想是一系列精心设计的道德规范。在儒家文化为主流文化的时代,中国古代文人大都受到儒家文化的影响。他们将儒家的道德理想不自觉的运用到政治实践中,希望建立一种道德政治;而中国古代文人政治上的不得志似乎也因此而来。因此,重新理解儒家的道德理想对于认识中国古代文人的道德理想以及悲剧命运都是至关重要的。本文通过分析儒家的道德理想以及文人的价值世界,进而运用马克思主义悲剧观探究古代文官悲剧命
摘 要:在中国隐逸文化的浩瀚长河中,有不少文人墨客表现出对山林田园的喜爱与独钟,陶渊明的一生也与隐逸结下了难以割舍的因缘。本文立足于陶渊明所处的时代背景与文化氛围和他的人生经历中对于仕与隐的抉择,探讨研究陶渊明的隐逸情结。  关键词:陶渊明;隐逸情结;时代背景;人生经历  文章编号:978-7-5369-4434-3(2011)03-039-02    一、陶渊明所处的时代背景与文化氛围  (一)
摘 要:毛泽东思想发展史上的两个高峰:一是上世纪30年代到40年代中期,探索出了具有中国特色的民主革命道路,形成了关于新民主主义革命的完整理论;一是50年代初期到50年代中期,在探索中国式社会主义建设道路的过程中,形成了社会主义建设理论的雏形,这是毛泽东思想发展史上的又一高峰。深刻认识这两个高峰的形成过程, 分析两个高峰的内容与特点,对于我们今天正确地认识和评价了毛泽东思想,科学地确立了毛泽东思想
280 patients with hyperplasia of mammary gland were treated by Ru He Chong Ji(乳核冲剂 ), a breast nodule granular dissolvable agent. Thirty-one were cured, 117
期刊
62 patients with chronic colitis were randomly divided into two groups.Acupuncture andmoxibustion at acupoints such as Tianshu(St 25),Guanyuan(Ren 4)were applie
绿色化学符合时代背景下化学发展的主要方向,发展趋势良好。通过加强原子经济反应,并极少对环境造成污染,从而实现绿色化学的目标。绿色化学有助于对能源工业的无污染及资源
辛弃疾是南宋最负盛名的词人,他满怀抗金救国、收复失地的伟大理想不能实现,故将其抑郁不平之气一并寄托于词,用词抒发自己复杂愤懑的感情。这就使得他的词中产生了一种浓厚
摘 要:孟子以其睥睨权贵的独立人格而受到人们的称赞。独立人格的实现必须要有着坚定的思想信念做基础,孟子独立人格的思想基础主要包括三个方面:重伦理道德轻权贵的思想;正人心平天下的责任感;进退有道的思想。孟子的独立人格仍然给予今天的我们以很大的启示。  关键词:孟子;独立人格;思想基础;伦理;责任感;道  文章编号:978-7-5369-4434-3(2012)02-053-02     独立人格是指
The cupping therapy has remarkable antipyretic effect in the treatment of fever. In recent years, the author has treated 103 cases of high fever caused by infec