数据搜索和信息挖掘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhengafei1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络能提供有用的信息服务,网页信息是文本形式的。超链接能帮你找到你想找到的网页文件。对搜索引擎来说,超链接是有用的。  搜索引擎是信息检索的十分重要的工具。一个“搜索引擎”有四个部分组成:网络爬行虫,索引器,检索器和查询接口。它通过网络爬行虫收集信息,并且通过收集到的网络信息创建索引数据库。作为搜索引擎的一部分,网络爬行虫也被称作网络蜘蛛或网络机器人。  在这篇论文里,研究了网络数据搜索和网络数据挖掘技术。主要是搜索网络上网站的数据,并且把这些数据下载下来,通过关键词建立的索引,找到关键词与之相关的信息。  在数据搜索过程中,首先通过一个爬虫搜索网络数据(网页),并且把一个或多个网站的网络数据下载下来。把下载的网页文本存入硬盘,网页文本的URL和存储信息存入数据库中。  爬虫程序基于JAVA技术,尤其是论文中应用的部分:JAVA连接网络、JAVA连接数据库,JAVA输入输出和JAVA的多线程技术。论文中使用JAVA的java.net.URL类直接访问网络,JDBC全称JAVA连接数据库技术,他有四种类型的驱动。论文中线程池和线程同步技术在多线程技术应用中则更加显得重要。  在数据挖掘过程中,对下载的网页建立索引。索引是根据制定的关键词建立的。通过查找索引,可以找到关键词对应的URL和网页文本。最后通过索引提取出含有关键词的网页表格信息。
其他文献
安全协议是建立在密码体制基础上的网络通信协议。形式化的分析方法是当前安全协议领域研究的热点。BAN逻辑及类BAN逻辑方法是传统的形式化分析方法,在分析协议过程中有一定的
多年以来,数字音视频处理技术的发展一直是多媒体应用领域的主要推动力之一。其中,音视频压缩编码是数字音视频处理技术的核心,其算法复杂,运算量庞大。高效实时地压缩视频和音频
为了有效地控制、管理和优化网络,需要准确及时地了解各种网络内部性能参数,如:网络拓扑结构、链路丢包率、链路时延等。网络层析成像是一种有效获取网络内部性能参数的方法,该类