论文部分内容阅读
在百度、谷歌等现有搜索引擎基础上,利用HtmlParser开源框架,用Java语言开发了一种基于搜索引擎关键字的邮址搜集软件.提取邮址的过程包括页面链接的获取和页面邮址的提取.在获取页面链接阶段,首先拼接初始链接,然后获取分页链接,之后再利用HtmlParser解析深层链接.在页面邮址提取阶段,则利用正则表达式匹配页面源码获取邮箱地址.