论文部分内容阅读
近年来,随着无线应用需求和市场的不断增长,无线应用业务和WAP设备得到了不断的发展,手机上网开始日益流行。然而,由于移动设备使用的通信协议和标记语言与互联网中所使用的并不相同,造成移动终端设备上网可以访问的信息资源不足,严重地制约着移动互联网的发展。本文研究了面向移动平台的网络信息获取和加工技术。主要目标就是如何在移动平台上更好地利用现有的互联网信息资源。这个问题可以分解成3个子问题,它们分别是:1、从互联网上自动获取网页并进行WEB页面到WAP页面的自动转换;2、从获取的网页中抽取有用的信息;3、利用自然语言处理技术对获取的内容信息进行加工。WEB页面到WAP页面的自动转换是在移动平台上进行各种信息加工和处理不可缺少的一部分。本文讨论分析了HTML文档与WML文档的相似与差异之处,设计并实现了一个从WEB页面到WAP页面的自动转换工具。该页面自动转换工具带有网页自动获取的功能,可以对指定网站进行自动更新抓取并进行标记转换和页面重构。网页的内容抽取是指从网页中抽取出有用的内容。常用的网页内容抽取方法是采用包装器的方法,这种方法虽然可以保证较高的准确率,但它需要对不同的网站构造不同的包装器,因而通用性差,且不易维护。本文根据中文网页的特性,实现了一种利用结构树从新闻类网页中提取正文信息的方法,该方法在克服了包装器方法的缺点的同时还保证了较高的准确率,具有实现简单、易于维护的特点。本文最后设计了一个用自然语言处理技术对新闻类自由文本进行加工处理的系统,系统中引入的自然语言处理技术包括自动分词、文本分类等。利用网页内容抽取技术抽取的自由文本经过文本分类加工处理后,用WEB页面到WAP页面的自动转换工具转换,在移动互联网上可为用户提供实时的新闻信息服务,有效地利用了互联网的丰富信息资源。