【摘 要】
:
随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。
本文
论文部分内容阅读
随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。
本文对Web信息检索和系统实现的相关理论与技术作了介绍,对信息检索在Web全文信息检索中的应用进行了较深入的实践。在第二章,介绍了论文的相关的理论,如搜索引擎的种类,中文分词的方法,倒排索引的理论和本论文之中所用到的Lucene的理论与使用方法,在第三章,根据网页的特点,提出两种网页模板的分析算法,第一种算法基于最长公共子序列模型,利用动态规划的方法求出最优解,对于原文献的算法的进行了优化和扩展,以达到求出网页模板字符串和被插入字符串的目的,第二种算法利用统计学的相关理论与原理,将网页模板抽象成为一个数学模型,提取出网页的常见标识在网页的开始位置与结束位置,根据正文的长度的不同算幽不同的方差,确定正文在原文之中的位置,从而可以从网页之中提取出正文的内容,以达到节省空间和减少建立索引与搜索索引的时间的目的,最后比较了两种算法的优点与缺点。在第四章中,介绍了一个利用Java开发的网络蜘蛛,其中包括异构的数据的处理,例如word,pdf,rtf等文件的内容的提取,另外介绍了一种HTML文件解析方法和多线程的使用。在第五章,实现了一个网页抓取系统,自动地从互联网下载用户所指定的网页的信息,包括内容与下一页,为了提高信息检索的效率,利用Lucene软件包,建立全文检索,加快了搜索的速度,提高了信息的准确性和时效性,节省了大量的存储空间。
本文从理论和实际的角度出发,既有算法的设计与分析,也有具体的程序的实现,使用了Oracle,Tomcat,Jsp,Java,Eclipse,Lucene等软件和语言,独创一个HTML的解析方法,为用户节省时间,提高了工作效率。
其他文献
随着Internet/Intranet的技术和应用的飞速发展,作为教育评价的考试也正经历着无纸化和网络化的飞跃。在线课程考试系统是将计算机和网络通信技术应用到教学领域的产物,利用W
在垃圾邮件与反垃圾邮件的斗争中,邮件过滤技术是主要手段。当前的邮件过滤技术基本上是基于邮件内容的机器学习,包括支持向量机、K-NN、Boosting、Winnow、贝叶斯过滤等。这
社区发现是根据网络的拓扑结构信息识别出网络中社区,传统的社区发现方法主要根据社区内节点链接稠密和社区间链接稀疏的特征,并借助于网络结构的属性来划分社区,这些方法不
近年来,随着计算机性能的提高和数值计算方法的改进,CFD(computational fluid dynamics)技术得到了飞速的发展。很多通用的商业化水流流动计算软件相继问世,并在大坝出闸门段
本文论述了基于DSP的嵌入式系统中智能串口和1553总线扩展的研究与实现。在硬件设计方面,首先研究了TMS320C6713 DSP处理器的芯片架构及应用开发实例,详细地论述了DSP扩展模
随着信息数据存储需求的逐步加大,人们对保护硬盘数据免受侵害的关注程度也越来越高。硬盘数据加密是当前保护硬盘数据的主要趋势和手段。相比软件加密方法,硬件加密方法不依
复杂工业是现代国家工业化的重要支柱产业之一。伴随着当代科技的进步和生产制造业的发展,石油化工等复杂工业生产过程越来越趋于大型化和复杂化,但是也随之带来对如何保障复杂工业的产品生产质量和生产安全的问题。因此通过获取复杂工业生产中的海量的关于能源、物质和操作的生产数据,来监控和指导生产过程,为实现复杂工业的稳定、高效和安全的生产具有非常重要的意义。统计过程控制中的过程能力分析技术是过程质量管理的核心方
在对烧伤患者进行治疗的过程中,对其烧伤程度的准确评估,是十分关键的一步,甚至直接决定了患者的生存质量。烧伤区域体表面积是烧伤程度的主要依据,准确、及时的烧伤区域体表面
近年来,随着信息技术的蓬勃发展,尤其是网络通讯技术、多媒体技术、数据库技术的发展,为企业和单位的电子公文流转提供了更为广阔的发展空间。在涉及到如何处理文档信息、如何管
随着网络的普及,越来越丰富的网络服务如雨后春笋般呈现在人们的视野中。这些服务以方便用户为宗旨,然而随着服务提供给用户的信息以爆炸式的方式呈现给用户,用户很难方便快捷的