【摘 要】
:
随着Internet的迅速发展,以Web形式呈现的电子文本的数据量成几何速度增长。如何高效的组织和管理这些数据,并全面、准确、快速地推送给用户所需要的信息,是目前信息技术研究的
论文部分内容阅读
随着Internet的迅速发展,以Web形式呈现的电子文本的数据量成几何速度增长。如何高效的组织和管理这些数据,并全面、准确、快速地推送给用户所需要的信息,是目前信息技术研究的一个重要挑战。自动文本分类是组织和处理海量文本信息的重要技术,可以较好的解决Web数据异构杂乱的问题,有利于准确而快速的获取信息。早期的文本分类仅仅是基于纯文本的,随着互联网的逐渐普及以及Web技术的快速发展,越来越多的信息是以Web页面的形式呈现的。如何快速的从分布式的、异构的、半结构化的Web环境中找到有用的信息,并提取知识成为当前数据挖掘和知识管理领域的核心问题。本文讨论了一个基于Web的文本分类系统的实现方法,包括从网络采集网页文本信息到对文本信息进行文本分类两个模块。首先介绍了国内外对于文本自动分类技术的最新研究进展,其次对文本获取和文本分类分别进行了较为深入的探讨,分别提出了文本采集和文本分类的重要步骤的解决方法。针对爬虫给出了页面分析处理和URL去重的实现方法,针对文本抽取提出了基于网页模板的Web文本抽取方法。同时给出了实现文本分类的分词、特征提取、分类方法等关键技术的方法。本文的研究成果是TCViewer(Text Categorization Viewer)系统原型,论文最后进行了两组实验分别对文本采集和文本分类两个子系统进行了测试,验证了系统的有效性。
其他文献
随着多媒体技术、计算机技术以及网络技术的飞速发展,视觉信息飞速膨胀,基于内容的图像检索由此得到关注。和基于文本的检索技术不同,它主要根据图像的颜色、纹理、形状等底
语音是人们最重要的交流方式之一。由于日常生活环境中噪声的存在,以及信道传输损失等等因素,语音质量往往会受到影响,我们所接收到的语音中所包含的信息也会大打折扣,因此如
无线射频识别(Radio Frequency Identification,RFID)技术,是一种利用射频通信实现的非接触式自动识别技术。RFID通过射频信号自动识别目标对象,获取相关的数据,无需人工接触即可
在图像处理和分析中,边缘检测是一种重要的手段。图像边缘特性的检测与提取方法,一直是图像处理与分析技术中的研究热点。论文通过将车辆识别与边缘检测结合起来研究,可以让
非视距紫外光通信是一项新兴的无线光通信技术。对于非视距紫外通信而言,发送端的光信号经由大气的散射效应,通过非视距路径到达接收端被接收。这种非视距传输的方式,无疑大
纳米网络是纳米级尺度设备之间进行信息交互的一项前沿技术。为了适配严重受限的尺度尺寸、物理结构和功耗的条件,研究人员提出了在物理层通过分子通信实现纳米尺度设备之间
基于大规模可见光遥感图像的全自动建筑物提取技术已经被研究了数十年了。该技术在遥感图像分析领域扮演了重要的角色,它被广泛应用于数字城市,军事侦察,灾害评估等。但是,真实城市场景中建筑物的尺寸范围很宽、颜色纹理十分复杂、日照原因产生的阴影遮挡等难题为屋顶提取带来了巨大地挑战。在本文中,我们提出了一个完整的建筑物区域识别和轮廓估计系统,相比之前的方法,本文的系统既显著地提高了识别准确率,也降低了轮廓估计