基于链接的分类算法的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:passiionlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从挖掘单一关系到挖掘多关系,数据挖掘技术实现了研究方法的巨大飞跃。同样,对于数据集合来说,数据容量更加庞大,存储结构更加复杂,数据种类也不再单一。如何挖掘结构复杂的数据集合成为当下的研究难点和重点。结构化的数据集合的显著特点是,集合中的对象之间存在着相关性,这种相关性被称为链接关系。同时,对象间的链接关系并不是杂乱无章的,总是以某种模式存在着。链接挖掘是多关系数据挖掘领域里新兴的学科,意在挖掘数据集合中对象间的链接关系。本文的研究集中在链接挖掘中的分类问题,即基于链接的分类研究。首先,提出一种合并链接信息和内容信息的分类方法。该方法利用数据集合中对象间的链接关系,将链接关系提供的链接信息与数据集合中对象本身的内容信息相结合。用概率的方法把两部分信息结合,核心思想与贝叶斯方法相似。其次,提出一种预处理方法。通常,认为基于链接的数据集合本质上是一个有向图,其中节点表示数据集合中的对象,边表示对象间的链接关系。针对网页分类的特点,将网页PR值与链接频率的乘机作为权值参数,根据权值的大小取舍边。针对上面提出的方法,在实际数据集合上进行实验验证。实现预期的研究目标。
其他文献
随着对软件系统的连续运行性要求的提高,构件的动态演化逐渐成为研究热点,而保证构件系统的行为一致性是构件动态演化的首要问题和根本目标。不受约束的系统行为改变可能导致
随着互联网的迅速发展,各个网络服务提供商都需要为越来越多的用户提供服务,用户对应用服务器也提出了更高的要求:7×24小时全天候服务、响应速度快、I/O吞吐量高、容错性好、
近年来,实时Linux系统已逐渐被人们用作嵌入式应用软件的支撑平台。RTAI作为一种优秀的实时Linux系统,实时性、开源性、多平台支持以及可定制性为其广泛的应用奠定了一个良好的
随着信息时代的到来,计算机的普及和应用给各行各业带来了极其深远的影响。在工业控制领域,现代工业技术的快速发展为工业检测提供了众多的检测技术与手段,比起传统的测量技术具
近年来,我国高等职业教育迎来了蓬勃发展的新局面,各院校招生规模不断扩大,学校的教学管理负担越来越重。采用传统的学生信息管理模式(如直接手工管理或者开放性程度不高的管
无线传感器网络(Wireless Sensor Network,简称WSN)是计算机科学与技术学科一个新的研究领域。它涉及到拓扑控制、路由协议、节点定位、时间同步和数据融合等相关技术,其中以
图计算作为一类重要的大数据计算,应用十分广泛。伴随着图数据规模的迅速增长,人们试图使用二级存储设备对图计算系统进行扩展,以期设计更高性价比的图计算系统。但因为二级存储
随着人们对客观世界认识的不断深入,计算机应用中普遍存在的数据不确定性逐渐得到业界的关注。尽管在传统数据库领域中作为多目标决策重要手段的轮廓查询得到了广泛深入的研究
事件流作为数据库领域的新兴热点问题,近年来获得了日益广泛的关注。很多应用在本质上都是事件驱动的,例如,RFID采集到的元数据可以看做是一种简单事件,商业事务处理中每次交
随着信息技术的发展以及应用领域的不断扩大,地理信息系统(GIS)技术得到了飞速的发展。由于其应用越来越广泛,包含海量复杂的数据,对查询效率的要求也越来越高。因此在庞大的