论文部分内容阅读
特定领域知识库的构建与简报生成研究工作,是在人们由互联网获取知识相对比较困难的背景下提出来的,主要研究目标是从大量网页中提取知识,并组织成综合报告提供给用户。本文的研究工作是对由互联网获取到的信息进行加工,从这些信息中提取知识,以特定的知识表示方式构建成知识库,根据用户提问生成综合报告反馈给用户。通过本文的工作,可以节省用户由互联网上搜索知识的时间,并且帮助用户对知识进行了自动综合。特定领域知识库的构建与简报生成研究工作主要包括三方面的研究内容:原始数据获取与处理工作,知识库构建工作,简报生成工作。本文在这三方面的工作中主要有以下三点贡献:第一,在原始数据处理工作中,对于网页数据的去噪工作,进行了启发式与统计相结合的网页去噪方法。该方法可以通过调节阈值来改变网页去噪的力度,使最终得到的网页正文内容完整,结构简单,不包含任何噪音。这种网页去噪方法在效率上也明显高于传统的基于启发式规则的去噪方法。第二,在构建领域知识库的研究中,对适合本课题研究领域的知识表示方式进行了研究。根据不同的知识类型设计对应的知识表示形式,最终设计了实体元知识和事件元知识两种形式,构建了两类知识的知识库,分别为包含234条知识的实体元知识库和包含3158条知识的事件元知识库。两个知识库结构简单,有层次性,方便自动存储知识和读取知识。第三,在设计自动生成简报的研究中,根据本课题研究的领域特点,设计实现了一个在用户受限提问方式下为用户自动生成云计算公司综合报告的系统。应用简报自动生成系统最终可以实现234个云计算公司的云计算活动综合简报,通过验证实现的综合简报,说明本文设计的从互联网获取知识到组织为综合报告反馈给用户的研究方案是可行的。