论文部分内容阅读
当数据源的查询和访问能力受到限制时,如何设计与实现自动化的网页包装器是一个值得研究和需要解决的问题.分析了CNKI网页的结构,描述了网页元素的标记与内容特征,给出了一组匹配CNKI网页内容的正则式,并用Visual C^++实现了一个包装器.实际应用结果表明,基于正则式匹配方法的全自动包装器可以精确抽取CNKI网页的全部检索内容.