论文部分内容阅读
网络能提供有用的信息服务,网页信息是文本形式的。超链接能帮你找到你想找到的网页文件。对搜索引擎来说,超链接是有用的。 搜索引擎是信息检索的十分重要的工具。一个“搜索引擎”有四个部分组成:网络爬行虫,索引器,检索器和查询接口。它通过网络爬行虫收集信息,并且通过收集到的网络信息创建索引数据库。作为搜索引擎的一部分,网络爬行虫也被称作网络蜘蛛或网络机器人。 在这篇论文里,研究了网络数据搜索和网络数据挖掘技术。主要是搜索网络上网站的数据,并且把这些数据下载下来,通过关键词建立的索引,找到关键词与之相关的信息。 在数据搜索过程中,首先通过一个爬虫搜索网络数据(网页),并且把一个或多个网站的网络数据下载下来。把下载的网页文本存入硬盘,网页文本的URL和存储信息存入数据库中。 爬虫程序基于JAVA技术,尤其是论文中应用的部分:JAVA连接网络、JAVA连接数据库,JAVA输入输出和JAVA的多线程技术。论文中使用JAVA的java.net.URL类直接访问网络,JDBC全称JAVA连接数据库技术,他有四种类型的驱动。论文中线程池和线程同步技术在多线程技术应用中则更加显得重要。 在数据挖掘过程中,对下载的网页建立索引。索引是根据制定的关键词建立的。通过查找索引,可以找到关键词对应的URL和网页文本。最后通过索引提取出含有关键词的网页表格信息。