面向移动平台的网络信息获取技术的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lianzi0118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着无线应用需求和市场的不断增长,无线应用业务和WAP设备得到了不断的发展,手机上网开始日益流行。然而,由于移动设备使用的通信协议和标记语言与互联网中所使用的并不相同,造成移动终端设备上网可以访问的信息资源不足,严重地制约着移动互联网的发展。本文研究了面向移动平台的网络信息获取和加工技术。主要目标就是如何在移动平台上更好地利用现有的互联网信息资源。这个问题可以分解成3个子问题,它们分别是:1、从互联网上自动获取网页并进行WEB页面到WAP页面的自动转换;2、从获取的网页中抽取有用的信息;3、利用自然语言处理技术对获取的内容信息进行加工。WEB页面到WAP页面的自动转换是在移动平台上进行各种信息加工和处理不可缺少的一部分。本文讨论分析了HTML文档与WML文档的相似与差异之处,设计并实现了一个从WEB页面到WAP页面的自动转换工具。该页面自动转换工具带有网页自动获取的功能,可以对指定网站进行自动更新抓取并进行标记转换和页面重构。网页的内容抽取是指从网页中抽取出有用的内容。常用的网页内容抽取方法是采用包装器的方法,这种方法虽然可以保证较高的准确率,但它需要对不同的网站构造不同的包装器,因而通用性差,且不易维护。本文根据中文网页的特性,实现了一种利用结构树从新闻类网页中提取正文信息的方法,该方法在克服了包装器方法的缺点的同时还保证了较高的准确率,具有实现简单、易于维护的特点。本文最后设计了一个用自然语言处理技术对新闻类自由文本进行加工处理的系统,系统中引入的自然语言处理技术包括自动分词、文本分类等。利用网页内容抽取技术抽取的自由文本经过文本分类加工处理后,用WEB页面到WAP页面的自动转换工具转换,在移动互联网上可为用户提供实时的新闻信息服务,有效地利用了互联网的丰富信息资源。
其他文献
随着 EPA 网络的开放互连和大量 IT 技术的引入,加上 TCP/IP 协议本身的开放性,以及层出不穷的网络病毒和攻击手段,安全已经成为制约 EPA 应用发展的主要瓶颈之一。没有安全就没
随着微电子学科的进步,在单个芯片中集成多个运算和控制核心的多核处理器已经问世。在这种条件下,如何充分利用芯片上的多个核心设计出高效率的算法和程序,是当前产业界和学术界
目前,无线传感器网络已成为通信领域中的研究热点之一。然而,传感器节点的能量有限,一般不能进行补充,而且在无线通信时消耗的能量最多。因此,设计或改进一种更适用于无线传感器网
随着数字化信息技术的进步,对信息存储技术也有了更高的要求。现有的存储设备中,硬盘已成为主要的介质形式。在硬盘的生产过程中,伺服图形发生器非常的重要,因此,对伺服图形
本文讨论了如何在分布式环境下构建一个容易根据需求快速开发的CTM(计算电话管理)系统。CTM系统是一个基于语音板卡的管理系统,它通过调用语音板卡的功能接口来提供语音方面的
为了让网络提供日益扩大的网络需求,满足各种各样的网络服务要求,我们认真研究了TCP/IP的体系结构的特点,发现基于层次体系结构的TCP/IP网络有许多固有的缺陷,而非层次体系结构的
学位
近年来,随着多媒体技术和计算机网络的飞速发展,多媒体数据,特别是图像数据,正在以前所未有的速度呈倍增长。如何有效的管理与检索图像数据已成为目前信息检索领域中的重要课题。
众所周知,VoIP 可谓语音通信的未来。电信运营商宣称 IP 电话在语音通信时间中所占比例正在快速增长,由其带来的大量新兴电话服务已经得到运用。随着数据业务的迅速发展以及网
安全问题是信息化建设过程中不可回避的话题,在现代信息社会中,随着计算机技术的广泛应用,这一问题也就显得更加迫切。目前安全领域的技术门槛高、投入代价大、易用性差、互操作