基于事实抽取的Web文档内容数据质量评估

来源 :计算机科学 | 被引量 : 0次 | 上传用户:ilovemn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文档内容数据质量评估决定获取数据的有用性。基于词法或用户交互进行质量评估的方法缺乏通用性,也不能获取内容的事实内涵。因此提出基于事实的质量评估方法(Fact-based Quality Assessment,FQA)。首先在Web上构建目标文档上下文,并抽取Web文档内容的事实;然后分别采用投票和图迭代策略,构建准确性和完整性维度的参照;最后,比对目标文档和维度参照的事实,量化准确性和完整性。该方法不依赖特定特征,基于事实内涵量化数据质量维度,可取得高的评估精度。实验结果证明了FQA方法的优越性。
其他文献
纵观我国商事登记制度历史的发展轨迹,它以服从国家管理和强化行政权力为主导,商事登记的功能始终呈现出单一的管理功能。要重构我国商事登记制度,首要的是对商事登记的功能
<正>核电工程前期文件指工程开工以前在立项、审批、招投标、勘察、设计以及工程施工准备过程中形成的文件,它们是核电工程立项、开工建设必备的基础性文件。本文以方家山核
上个世纪九十年代末我国电视节目借鉴海外电视节目取得成功,继而掀起了各大电视台克隆潮,由此模仿便成为了电视娱乐节目的主要创作方法。本文针对这一现象进行分析和研究,将
<正>广东天龙油墨集团股份有限公司(简称:天龙集团)—自成立以来一直专注于环保型水性油墨的研发、生产和销售,依托于其在国内领先的水性油墨研究技术和自主研发的合成树脂技
粮食企业(包括粮食储运和加工)是粮食产后最重要的经营主体,其网上交易情况是我国粮食网上交易最主要表现,而这又取决于其使用互联网的意愿。本文从粮食加工企业管理者视角出
  产生式规则推理系统因其可理解性,易增删,易修改等特点被广泛用于各种智能领域,但其规则匹配效率极其低下,不适合大规模推理.Rete 算法通过规则条件共享和保存临时匹配结
秦始皇自幼患有生理疾病,亲政后长期操劳,纵欲过度,心理处于非正常状态。晚年积劳成疾,身患多种疾病,是其死亡的内因。第五次出巡,巡途劳顿,又难以适应环境、气候的多变,病情
从湖州供电公司年初时配电网物资库存量大、周转效率低的现状出发,经过研究、分析和测算,形成配电网物资的储备定额标准和长效管理机制,通过精简物资规格型号,统计物资历史需
现有的一些信任评价模型采用线性加权的手段进行信任测度,可能出现一个维度指标信息很高而另一个维度指标信息较低的情况,于是存在信息的淹没,严重影响了模型计算节点信任评
随着我国经济体制的不断改革和发展,近些年来,我国中小企业发展迅猛,已经成为我国国民经济发展的主体,但随着发展,企业内部德尔一些问题也逐渐突显出来,会计失真,造成了企业