基于JerichoHTMLParser的html信息抽取

来源 :赤峰学院学报(自然科学版) | 被引量 : 0次 | 上传用户:dtmark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在对html页面信息进行直接解析时,可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.
其他文献
市场经济下,寻租行为的存在是客观事实,它不但破坏了市场经济要求的公平竞争秩序,还让人们对市场经济的资源配置产生疑惑,出现了"市场失灵",不仅使国有资产流失,还会滋生贪污
2017年11月6日,财新传媒正式启动全面收费。在我国免费新闻依然为主流的情况下,作为第一家吃螃蟹的媒体,对新闻实行全面收费,财新传媒在新闻界赢得了叫好声,传统媒体也希望财新传
我国是农业大国,农业产业结构的调整优化就是要重新调整和安排农业生产各部门之间的配合,从而使农业产业结构适应新的需求。文章通过深入分析,从中发现农业产业结构调整优化
2011年8月25日,由赤峰市委、市政府主办,内蒙古博物院、内蒙古红山文化学会和赤峰学院承办的第六届红山文化高峰论坛在我院学术报告厅隆重开幕。赤峰市委常委、宣传部长钱荣旭,
简述了电力系统继电保护的必要性,以及继电保护的基本要求和发展趋势.
在封建统治者导演下,清代时期的畲族社会已逐步实现定居并最终完成封建化,造就了畲民政治参与的基本社会条件;畲族封建式家族经济的快速发展与有限的智力投资,奠定了畲民政治参与
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的研究水蒸汽蒸馏法提取枫香脂挥发油对大鼠离体胸主动脉的舒张作用,并探讨其可能机制。方法枫香脂挥发油成分分析在气相-质谱上进行,分离SD大鼠胸主动脉进行离体血管环实
无功补偿装置的应用是保证电力系统稳定运行的关键,实现对电力系统电压的调整,无功补偿装置从始至今在不断革新,装置的运行性能在不断提升,也推动了电力系统的飞速发展。无功
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技