数据挖掘中Web文档转换算法的设计与实现

来源 :巢湖学院学报 | 被引量 : 0次 | 上传用户：shan12

【摘要】

：

Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用。如何将web文档转换成数据挖掘所要求的格式，即web文档预处理是一项很重要的研究课题．本文的方法是：从Internet网上

【作者】

：

赵小龙佘东

【机构】

：

安徽工业经济学院

【出处】

：

巢湖学院学报

【发表日期】

：

2011年6期

【关键词】

：

WEB文档数据挖掘预处理 web documents data mining preprocessing

【基金项目】

：

安徽省高校优秀人才基金项目（项目编号：2009SQRZ136）,巢湖学院一般项目（项目编号：XLY-200910）,安徽工业经济学院《学院科研管理信息系统开发研究》自然科学基金项目支持

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用。如何将web文档转换成数据挖掘所要求的格式，即web文档预处理是一项很重要的研究课题．本文的方法是：从Internet网上下载了大量的网页文件，将网页文件转换成文本文件，然后通过算法对这些文本文件中的数据进行词频统计，删除非用词，去掉高频词，对单词进行词根处理，建立用词词表，从而抽取用词，按字母排序生成词频索引，和字典文件进行对照，获取单词的ID，最后生成Reuters一21578的Database数据格式．这样就将web文档数据转换成标准的数据

其他文献

天下五谷复混肥料

功能特点1．营养全面均衡，搭配合理，肥效持久。2．植物弹力蛋白和腐殖酸能改善土壤结构，增加土壤中团粒结构，防止土壤板结，保肥、保水、抗旱、抗涝，提高作物环境适应能力。

期刊

复混肥料环境适应能力土壤结构团粒结构土壤板结腐殖酸营养保肥

花在水上开鱼在花下游

“文心兰，也叫跳舞兰，神仙草，还魂草，它实际上是一种兰花，学名叫石斛兰。卡特兰，生长在我国云南地区，它的茎节有点像竹子，发紫，叫紫竹卡特。在山东省内别处没有，如果有也是我送给他的。

期刊

云南地区卡特兰水鱼文心兰兰花石斛兰山东省

新亿丰绿化专用肥

新亿丰绿化专用肥是淄博精飒生物工程有限公司与山东大学、山东省有机国艺研究所联合研制生产的优质专用有机肥。该产品专门针对山东省土壤状况和主栽树木花草，

期刊

专用肥绿化山东大学生物工程优质专用土壤状况山东省有机肥

明确目标，进一步深化应用型人才培养模式改革——巢湖学院第三次本科教学工作会议纪实

2012年9月17日上午8时30分，巢湖学院第三次教学工作会议在致知楼报告厅隆重举行。学院党政班子全体成员出席，处级干部、博士与副高以上人员、各院（系、部）教研室主任和教学秘书20

期刊

教学工作人才培养模式会议纪实学院巢湖应用型本科改革

关于内部审计在企业风险管理中作用的分析

内部审计处在企业内部控制环境中,对企业管理风格、企业文化、会计核算、控制程序等各方面因素非常熟悉,清楚各项业务的工作流程及关键控制点,其相对独立并且在企业内部有较

期刊

内部审计风险管理风险评估

我国教育研究聚焦何处——从《教育研究》看我国教育研究热点问题的演变

采用教育层次-类别的分类标准,运用文献计量学的方法,对《教育研究》杂志1979-2008年间刊发的3090篇论文进行了统计分析,探讨了我国教育研究热点问题的演变与发展。概括而言,

期刊

教育研究热点问题主题领域演变

CFG桩复合地基桩周冻土试验分析

冻土在我国东北部及西部地区广泛存在。近些年来,冻土地区交通事业迅猛发展,有必要对冻土的物理性质及强度特性进行试验研究。本文用黑龙江铁力地区工程现场所取多年岛状冻土

期刊

岛状冻土密度总含水率直剪试验

浅议内部控制环境的作用和构建

内部控制环境在内部控制体系中起着非常重要的作用,只有构建了良好的内部控制环境,内部控制各要素才能发挥作用。现代企业如果没有构建良好的内部控制环境,内部控制就会形同

期刊

企业管理内部环境构建

数据挖掘中Web文档转换算法的设计与实现

其他学术论文