软件资源信息收集整理工具的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zenme123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件复用能够有效的减少软件开发中的重复劳动,是提高软件生产率和质量的有效途径。存在大量可复用的软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展,Internet上出现了大量可以被复用的软件资源,如Web服务、JAR包等。收集、整理这些软件资源极大的丰富了软件资源库中的资源种类和数量,能够有力的推动软件复用的进一步发展。北京大学软件资源库系统从Internet上自动收集了大量可复用的软件资源,其中包括三千多个Web服务和六千多个JAR包等。   对软件资源准确的把握和理解是开发人员成功复用软件资源的前提。把握和理解软件资源需要有全面的描述信息以及合理的分类方式。对于从Internet上收集到的软件资源,只包含软件资源的实体,缺少软件资源的描述信息和标签,这给用户复用软件资源造成了障碍。另一方面,Internet上存在着与软件资源相关的网页,其中包含了与软件资源有关的信息。因此,收集软件资源的相关网页,从中提取出软件资源的描述信息并生成资源的标签,将其发布到软件资源库中,可以帮助用户理解和使用这些软件资源,提高这些资源的复用程度。   本文针对上述问题给出相应的解决方案,主要内容包括:   1)软件资源相关网页的收集:对Web服务和JAR包资源,通过解析资源实体提取资源特征。对两种类型的资源分别利用资源特征构造通用搜索引擎的查询以获得相关网页。本文设计并实现了多线程的抓取系统,用以快速收集资源相关网页。   2)软件资源描述信息的提取:本文将开发人员需要的描述信息分为三类一一定义型、摘要型和全面型。全面型描述包含资源功能、目标、使用、用户评价等多方面内容;摘要型描述概括资源主要的功能、目标等信息;定义型描述界定软件资源的界限。本文从相关网页中提取主要内容,并对内容进行去重,将去重后的网页内容作为全面型描述;将资源全面型描述进行分段,选取出与资源实体最相似的若干段作为摘要型描述;利用规则方法,提取主语是资源名称的若干语句作为资源的定义型描述。   3)软件资源标签的生成:本文提出两种标签生成方式--提取式和分类式。提取式标签生成方法主要提取资源名称、版本、License等隶属于资源属性特征的词作为标签。分类式标签生成方法利用资源库中含有标签的资源作为训练数据,对标签构造标签类别,将资源自动分到标签类别中以生成相应的标签。   基于上述解决方案,本文在北京大学软件资源库系统的基础上设计并实现了软件资源信息收集整理工具--Assetlnfo Engine。本文对工具的设计和实现进行了详细的论述,并对工具进行了实验验证,通过实验可以发现1)Internet上存在大量与软件资源相关的网页;2)AssetlnfoEngine能够有效的从资源相关网页中提取出资源的描述信息。3)AssetlnfoEngine能够有效的为资源生成标签。
其他文献
开发者在开发过程中常常会使用一些API(Application ProgrammingInterface)来实现手边的任务。现有API数量巨大,且在不断更新和增加,即使再有经验的开发者也不可能掌握所有API
随着科技的发展和信息技术的进步,运动目标检测和跟踪作为智能视频监控的基础和核心在计算机视觉领域里成为了人们研究的热点问题之一,它的效果好坏,直接影响着整个系统工作
随着移动互联网的发展,智能手机的普及,信息的获取和分享变得越来越便捷。为了便于人们在手机等资源受限设备上快速获取感兴趣的图像数据,研发在资源受限环境下的图像检索系统尤
激励合约优化模型包括道德风险、逆向选择和信号传递问题三个优化模型。近十年来,激励合约优化模型的研究和应用基本上依赖解析分析的理论推导,其应用也仅停留在定性分析层面
中文分词是中文信息处理的基础。在自然语言理解、语言文字研究、中文文本自动标引、信息检索、机器翻译等领域中,中文分词具有不可替代的作用。因此,中文分词的研究至关重要
网络管理系统是通信网进行监控管理的重要手段。随着3G技术及短信发送技术的发展,如何采用GSM无线技术手段,实现异地实时信息报警对网络的监控系统尤为重要。基于GSM技术网管
在电子商务和电子政务日益发展的今天,各种应用日益复杂,需要访问电子政务系统人员的身份也多种多样。如何保证用户数据的安全性,系统的可信任性是我们面临的重大挑战。视频
移动通信网络中的信令数据主要用于控制通信网络的正常运行,支撑用户进行无线通信。信令数据量大,覆盖面广,依托已有的移动通信基础设施,可以以较小的代价获取。随着移动通信技术
随着移动通信、计算机以及电子技术的高速发展,越来越多的终端设备具备接入多个不同性质接入网络的能力,而不同性质的接入网络也融合在一起共同为终端用户提供多种多样的服务
论文研究并改进梯度向量流主动轮廓模型。论文简要的介绍了国内外对主动轮廓模型的发展动态以及传统的图像分割若干方法:如基于阈值的图像分割方法、基于边缘检测的图像分割