论文部分内容阅读
AI模型训练和开放服务平台是面向企业的、易用的一站式AI应用开发工具,通过简化AI应用开发流程,屏蔽技术实现细节,提供数据管理、模型管理和服务管理等功能,帮助企业可以快速、高效、低成本地进行AI产品的开发与应用。但是由于AI应用开发存在着训练数据来源及格式复杂、训练依赖于多类型资源、开发流程繁琐等特性,现今公开的AI解决方案和相关平台仍然存在模型训练数据管理不规范、多类型训练资源调度不公平和没有形成AI应用开发的完整闭环等问题与挑战:1)当前模型训练数据管理存在数据格式混乱、不同数据整合利用繁琐和数据重复利用率低等问题,影响了数据质量和训练效率;2)目前多类型训练资源调度存在分配不公平、资源浪费和作业饥饿等问题,降低了任务执行效率和资源利用率;3)数据侧和服务侧的功能仍存在不足,缺乏数据标注和服务监控等功能,没有形成AI应用开发的完整闭环,降低了开发效率。针对以上问题与挑战,本文重点围绕模型训练数据管理、多种异构资源公平调度策略和AI应用开发解决方案进行研究与分析,完成了 AI模型训练和开放服务平台的研究与实现,主要研究内容包括以下三个部分:1)提出并实现了一种基于JSON的模型训练数据管理方案,用于统一不同模型训练数据格式规范,整合不同的模型训练数据,进行数据的全生命周期管理和版本管理,提高了数据利用率和模型训练效率;2)提出并实现了一种分配均衡的多资源调度策略,该策略整合了所有资源,分别均衡了主资源和非主资源的分配,保证了资源的公平分配和充分利用,提高了任务执行效率和资源利用率;3)研究并实现了 AI模型训练和开放服务平台,该平台集数据上传与标注、模型训练、模型评估、模型测试和服务发布于一体,形成了 AI应用开发的完整闭环,提高了 AI应用开发效率。基于上述研究内容,本文设计并实现了一站式的端到端的AI模型训练和开放服务平台,覆盖全工作流程,帮助企业加速智能化转型。并将其应用于重点研发课题“科技咨询数据资源体系研究与资源建设”中,对平台的功能完整性进行了验证,确保了平台的有效性、可用性和可靠性。