论文部分内容阅读
摘要:在信息技术的不断发展中,人们对信息服务的要求越来越高,特别是信息服务的质量以及个性化受到人们的广泛关注。本文笔者在UCL的基础上,对网页信息的自动分类和标引技术进行了分析和探讨,目的是为提高信息服务的质量和水平提供指导和借鉴,进而有效的提高信息服务的质量,推动信息技术的健康可持续发展,最终实现信息资源的合理整合,满足用户的个性化需求。
关键词:UCL;信息技术;网页信息;自动分类;标引技术;ADO技术
中图分类号:TP393.092文献标识码:A文章编号:1007-9599 (2013) 07-0000-02
近年来,互联网获得了迅猛的发展,为人们提供了越来越多的信息服务,随着信息技术的不断发展和完善,人们对信息服务的要求也随之增长,迫切要求提供信息服务的质量和水平,因此需要借助一定的技术对网页的信息进行自动化的分类和标引,进而实现对信息网络中的网页信息的有效整合,为用户提供快速便捷以及个性化的服务。
1UCL技术概述
UCL作为一种创新型的技术理念,对在网络平台上实现对虚拟性资源的组织和管理起到了积极的促进作用,该技术是以为用户提供个性化的主动服务为宗旨的。在该技术的应用中,UCL数据规范以及智能代理软件是实现网络信息资源优化配置的关键,进而实现对网络信息资源的有效的管理,包括对信息资源的发现、查找、识别以及传输等多个环节的工作。
在信息资源的管理中,通常需要对信息资源进行定位,这是对信息资源进行深一步处理的基础和前提,是UCL技术发挥作用的必要条件。一般而言,对网络信息资源的定位主要分为两种形式:即地址定位和内容定位,其中前者的应用较为普遍,特别是在交互式的网络中得到了广泛的应用,但是不利于实现人网的和谐,这是因为在信息服务的过程中,用户难以根据自身的需要对所需的内容进行指定,而是在获得信息的UCL的基础上,借助远程通讯获得指定的文档,这就大大的降低了信息服务的质量,耗费了获得网络信息服务的时间。相对于地址定位而言,内容定位更加符合用户的个性化需求,这是因为在内容定位的过程中,内容提供者和用户之间可以进行有效的沟通和交流,在UCL技术的指导下,用户可以对信息的内容进行有效的标引,进而显示对信息的需求意向,在语义的帮助下可以直接的获得所需的内容,避免了在众多的信息资源中进行搜索,真正的实现了由人找信息到信息找人的转变。
在信息的空间中,不同的文件由不同的矢量来表示,其大小即矢量的长度,同时对文件进行精细定位的代码是UCL代码,其对矢量的方向起着决定作用,进而可以对文件的各个内容进行多维度的标引。这样用户在提出自身的信息需求时,可以利用矢量将用户的需求以及文件的内容进行有效的结合,并借助UCL矢量的关联以及映射计算,实现对文件的确定。可见,在UCL技术的支持下,不仅可以大大的提高了网络信息服务的质量和效果,缩短了文件检索的时间,并且为用户提供了个性化的服务,满足了不同需求的要求。
2基于UCL的网页信息自动分类技术
鉴于用户对网页信息服务的个性化要求越来越高,需要在UCL技术的基础上,对网页信息进行有效的分类,进而提高信息服务的质量和效率,因此需要借助相应的网页信息自动分类技术,实现对信息的合理分类,进而为高效便捷的信息服务奠定坚实的基础。网页信息的自动分类技术的实现,主要通过以下几个环节:首先需要在UCL技术的基础上建立信息分类库,这是对网页信息进行自动分类的基础的和前提,这就需要结合网络信息分类的特点和传统分类法的优点,构建科学的网页信息分类库,通过对分类代码的研究可以发现,UCL的代码长度要短于国家的标准代码,因此就大大的提高了代码的解析速度,有效的节省了网页信息传输的空间,并且便于对网页信息资源的合理分类和有效管理,实现了网页信息资源的有效交互。其次,要设计合理的网站结构分类器,这对提高网页信息分类的科学性和实用性有着积极的促进作用,这就需要根据网页信息的关键词,对网络自身的结构进行分类,提高分类的准确性,并简化了分类的算法,避免了由复杂程序引起的错误。最后,在分类器的作用下,对网页的信息进行预处理,并有效的提取网页中的正文信息,进而通过文本分词以及向量生成和提取的基础上,根据朴素贝叶斯算法实现对类别的生成。
可见,在网页信息的自动分类技术的应用中,是将网页进行相应的转化,将其转化为文本,进而对文本进行分类,在对文本的分类中,需要借助分类器,主要为网站结构分类器和朴素贝叶斯分类器,通过二者的有效结合,提高了网页信息分类的效率以及准确率,因此在UCL技术支持下的网页信息自动化分类技术符合网络信息技术管理的需求。
3基于UCL的网页信息标引技术
在对网页信息进行自动分类以后,还需要对其进行标引,进而实现信息索引的针对性和便捷性,这就需要借助一定的网页信息标引技术。在对网页信息的标引中,通常需要借助自动标引或者是人工标引,前者是一种填表的方式,操作简单,但是存在着自身的局限性,主要是难以实现对在线的实时数据的有效标引。而后者是借助一定的软件,对网页信息进行自动的标引,提高了信息标引的速度和效率,避免了人为的干预,但是存在着较大的技术难度,因此当前对网页信息的标引的关键是要加强对文本结构的重视,并将网页的自动标引和文本的自动标引进行有效的结合。为了在UCL技术的支持下,实现对网页信息的自动标引,真正的发挥该技术的效果,需要从以下几个方面着手:
3.1建立网页信息的UCL标引框架
建立一个既简单又有足够包容性与扩展性的元数据信息标引构架对信息发布、检索、处理、过滤和存储是极为必要的。在设计标引框架之前,有必要先研究近年来在国际上影响比较大的“都柏林核心元数据”,找出其中在标引现代网络信息资源的缺陷,为进一步的UCL标引框架奠定基础。从都柏林核心元数据及
编码体系不难看出,都柏林十五元的描述方法基本源于图书馆的图书资料描述方式,并没有考虑现代大量的网页信息资源特征。对于网络上日益增加的热点信息缺乏描述方法,如:娱乐、体育、旅游、商业、影视、IT、电子邮件等,这就需要根据其缺陷进行有效的设计,建立起符合现代用户需求的高效的标引框架,用户支持对网页信息的自动标引。
3.2建立网页信息的UCL标引库
首先建立一个mdb库,命名为Info sunny.mdb,根据网页信息的UCL标引构架,确定信息标引元素,在库里建立存储网页标引信息的表T—UCLINFO
3.3对网页信息进行分析和提取
网页信息特征分析及提取网页信息资源的表示是有一定结构的,分析网页
信息特征并提取出来是标引技术的关键。依据基于UCL的网页信息标引框架,主要提取的特征信息有:标题、作者、日期、简介、语言、分类及分类代码。提取的主要依据就是HTML标签,在网页信息有效分析和提取的基础上,实现对网页信息的标引。
4结束语
随着信息技术的不断发展和改进,对网页信息资源的管理将会更加科学和高效,基于UCL技术的网页信息自动分类和标引技术对提高信息资源的管理效率,为做出了突出的贡献,并为用户提供了个性化的信息服务。
参考文献:
[1]李幼平.双结构互补网络的研究[J].西南科技大学学报,2011(01).
[2]高杨,李幼平.UCL理念及其系统设计[J].有线电视与网络,2011(04).
[3]高杨.互补结构的信息共享系统[D].北京:北京理工大学,2010(05).
[4]马卫东.信息系统共享结构与主动服务技术研究[D].成都:电子科技大学,2012(04).
[5]张静.自动标引技术的回顾与展望[J].现代情报,2009,29(04).
关键词:UCL;信息技术;网页信息;自动分类;标引技术;ADO技术
中图分类号:TP393.092文献标识码:A文章编号:1007-9599 (2013) 07-0000-02
近年来,互联网获得了迅猛的发展,为人们提供了越来越多的信息服务,随着信息技术的不断发展和完善,人们对信息服务的要求也随之增长,迫切要求提供信息服务的质量和水平,因此需要借助一定的技术对网页的信息进行自动化的分类和标引,进而实现对信息网络中的网页信息的有效整合,为用户提供快速便捷以及个性化的服务。
1UCL技术概述
UCL作为一种创新型的技术理念,对在网络平台上实现对虚拟性资源的组织和管理起到了积极的促进作用,该技术是以为用户提供个性化的主动服务为宗旨的。在该技术的应用中,UCL数据规范以及智能代理软件是实现网络信息资源优化配置的关键,进而实现对网络信息资源的有效的管理,包括对信息资源的发现、查找、识别以及传输等多个环节的工作。
在信息资源的管理中,通常需要对信息资源进行定位,这是对信息资源进行深一步处理的基础和前提,是UCL技术发挥作用的必要条件。一般而言,对网络信息资源的定位主要分为两种形式:即地址定位和内容定位,其中前者的应用较为普遍,特别是在交互式的网络中得到了广泛的应用,但是不利于实现人网的和谐,这是因为在信息服务的过程中,用户难以根据自身的需要对所需的内容进行指定,而是在获得信息的UCL的基础上,借助远程通讯获得指定的文档,这就大大的降低了信息服务的质量,耗费了获得网络信息服务的时间。相对于地址定位而言,内容定位更加符合用户的个性化需求,这是因为在内容定位的过程中,内容提供者和用户之间可以进行有效的沟通和交流,在UCL技术的指导下,用户可以对信息的内容进行有效的标引,进而显示对信息的需求意向,在语义的帮助下可以直接的获得所需的内容,避免了在众多的信息资源中进行搜索,真正的实现了由人找信息到信息找人的转变。
在信息的空间中,不同的文件由不同的矢量来表示,其大小即矢量的长度,同时对文件进行精细定位的代码是UCL代码,其对矢量的方向起着决定作用,进而可以对文件的各个内容进行多维度的标引。这样用户在提出自身的信息需求时,可以利用矢量将用户的需求以及文件的内容进行有效的结合,并借助UCL矢量的关联以及映射计算,实现对文件的确定。可见,在UCL技术的支持下,不仅可以大大的提高了网络信息服务的质量和效果,缩短了文件检索的时间,并且为用户提供了个性化的服务,满足了不同需求的要求。
2基于UCL的网页信息自动分类技术
鉴于用户对网页信息服务的个性化要求越来越高,需要在UCL技术的基础上,对网页信息进行有效的分类,进而提高信息服务的质量和效率,因此需要借助相应的网页信息自动分类技术,实现对信息的合理分类,进而为高效便捷的信息服务奠定坚实的基础。网页信息的自动分类技术的实现,主要通过以下几个环节:首先需要在UCL技术的基础上建立信息分类库,这是对网页信息进行自动分类的基础的和前提,这就需要结合网络信息分类的特点和传统分类法的优点,构建科学的网页信息分类库,通过对分类代码的研究可以发现,UCL的代码长度要短于国家的标准代码,因此就大大的提高了代码的解析速度,有效的节省了网页信息传输的空间,并且便于对网页信息资源的合理分类和有效管理,实现了网页信息资源的有效交互。其次,要设计合理的网站结构分类器,这对提高网页信息分类的科学性和实用性有着积极的促进作用,这就需要根据网页信息的关键词,对网络自身的结构进行分类,提高分类的准确性,并简化了分类的算法,避免了由复杂程序引起的错误。最后,在分类器的作用下,对网页的信息进行预处理,并有效的提取网页中的正文信息,进而通过文本分词以及向量生成和提取的基础上,根据朴素贝叶斯算法实现对类别的生成。
可见,在网页信息的自动分类技术的应用中,是将网页进行相应的转化,将其转化为文本,进而对文本进行分类,在对文本的分类中,需要借助分类器,主要为网站结构分类器和朴素贝叶斯分类器,通过二者的有效结合,提高了网页信息分类的效率以及准确率,因此在UCL技术支持下的网页信息自动化分类技术符合网络信息技术管理的需求。
3基于UCL的网页信息标引技术
在对网页信息进行自动分类以后,还需要对其进行标引,进而实现信息索引的针对性和便捷性,这就需要借助一定的网页信息标引技术。在对网页信息的标引中,通常需要借助自动标引或者是人工标引,前者是一种填表的方式,操作简单,但是存在着自身的局限性,主要是难以实现对在线的实时数据的有效标引。而后者是借助一定的软件,对网页信息进行自动的标引,提高了信息标引的速度和效率,避免了人为的干预,但是存在着较大的技术难度,因此当前对网页信息的标引的关键是要加强对文本结构的重视,并将网页的自动标引和文本的自动标引进行有效的结合。为了在UCL技术的支持下,实现对网页信息的自动标引,真正的发挥该技术的效果,需要从以下几个方面着手:
3.1建立网页信息的UCL标引框架
建立一个既简单又有足够包容性与扩展性的元数据信息标引构架对信息发布、检索、处理、过滤和存储是极为必要的。在设计标引框架之前,有必要先研究近年来在国际上影响比较大的“都柏林核心元数据”,找出其中在标引现代网络信息资源的缺陷,为进一步的UCL标引框架奠定基础。从都柏林核心元数据及
编码体系不难看出,都柏林十五元的描述方法基本源于图书馆的图书资料描述方式,并没有考虑现代大量的网页信息资源特征。对于网络上日益增加的热点信息缺乏描述方法,如:娱乐、体育、旅游、商业、影视、IT、电子邮件等,这就需要根据其缺陷进行有效的设计,建立起符合现代用户需求的高效的标引框架,用户支持对网页信息的自动标引。
3.2建立网页信息的UCL标引库
首先建立一个mdb库,命名为Info sunny.mdb,根据网页信息的UCL标引构架,确定信息标引元素,在库里建立存储网页标引信息的表T—UCLINFO
3.3对网页信息进行分析和提取
网页信息特征分析及提取网页信息资源的表示是有一定结构的,分析网页
信息特征并提取出来是标引技术的关键。依据基于UCL的网页信息标引框架,主要提取的特征信息有:标题、作者、日期、简介、语言、分类及分类代码。提取的主要依据就是HTML标签,在网页信息有效分析和提取的基础上,实现对网页信息的标引。
4结束语
随着信息技术的不断发展和改进,对网页信息资源的管理将会更加科学和高效,基于UCL技术的网页信息自动分类和标引技术对提高信息资源的管理效率,为做出了突出的贡献,并为用户提供了个性化的信息服务。
参考文献:
[1]李幼平.双结构互补网络的研究[J].西南科技大学学报,2011(01).
[2]高杨,李幼平.UCL理念及其系统设计[J].有线电视与网络,2011(04).
[3]高杨.互补结构的信息共享系统[D].北京:北京理工大学,2010(05).
[4]马卫东.信息系统共享结构与主动服务技术研究[D].成都:电子科技大学,2012(04).
[5]张静.自动标引技术的回顾与展望[J].现代情报,2009,29(04).