论文部分内容阅读
科技项目评审工作是一项复杂的工作,不仅需要很广阔的基础知识,而且还需要非常专业的领域知识,这些都会对评审专家及职能部门人员的工作量以及评估的准确性提出了很大的挑战。因此可以以科技项目评审为重心,以互联网搜索技术、智能化信息处理以及自然语言处理等技术为基础,构建科技项目评审辅助决策系统,为评审专家及政府部门提供决策依据,从而起到辅助决策者的目的。本文主要基于以上目标,为科技项目评审工作设计了辅助决策系统,重点对系统各模块中所用到的算法进行了优化改进,具体的研究内容如下:1.针对互联网上海量的网页内容,研究主题过滤策略保证网络爬虫仅抓取科技类的网页,而忽略掉其它主题的网页。在抓取网页的同时,系统需要完成URL去重和文本去重的工作。本文中着重研究了大规模网页环境下的文本去重技术,避免重复抓取和处理相似的网页,进而实现快速高效无重复的获取互联网上的内容。2.针对已获取的科技类网页文档,研究语义分析技术及将非结构化数据或半结构化数据转化为结构化数据的方法,以便对网页内容进行抽取分析获得有用的信息,同时剥离掉无用不相关的信息。3.对抽取到的有用网页内容数据,首先进行语言层面上的处理。研究数据组织方法,建立并优化倒排索引等支持快速查询的数据结构,实现对网页数据内容的结构化存储。4.研究影响排名的因素及各个因素的权重分配方法,对科技项目申报单位,如企业、高校、科研院所等,与科研领域做出相互排名,同时构建出针对科技项目评审的辅助决策模型。根据上述研究成果开发了科技项目评审辅助决策系统,初步应用表明可以大大减少评审人员与职能部门人员的工作量,同时能够有效的提升科技决策和管理水平。