中文网页自动分类新算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:bloodsteven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率 In order to effectively organize extremely rich information resources on the Internet, this paper proposes a new automatic classification algorithm for Chinese web pages by analyzing the characteristics of Chinese and Chinese web pages. This algorithm mainly uses the inter-word correlation information, word frequency and page marking information to extract the web page features and calculate the adjustable word frequency weighting parameters, and then build an expert database through this and non-class training. Experiments show that the algorithm can get more than 80% web page classification accuracy
其他文献
合成了烷氧基磷酸盐,并与硫化异丁烯对比,考察了其作为500SN添加剂的极压抗磨性和热稳定性.结果表明,其极压抗磨性和热稳定性优于硫化异丁烯;以烷氧基磷酸盐为主剂配制的齿轮
模糊推理方法和非模糊化策略是模糊逻辑系统的两个最重要的组成部分 ,在很大程度上影响模糊系统的性能和效果。根据“t范式”和“t协范式”不同的操作组合方式 ,提出了几种改
使用1L搅拌釜,在温度80~160℃,压力0.5~5.0MPa范围内,实测了H2和CO在间二甲苯中的溶解度和体积传质系数。结果表明,两者均随温度和压力的升高而增大。实验结果与基于正规溶液理论Pr
采用溶胶-凝胶法制备了玻璃表面上掺杂镧的TiO2薄膜.利用高压液相色谱仪、可见紫外分光光度计和扫描电镜研究了不同镧掺杂量及不同热处理温度对玻璃表面TiO2薄膜光催化降解油
在分析了影响STL模型分层处理速度因素的基础上,提出了基于STL 模型几何特征分类的加快分层处理速度的算法,进一步提出了自适应分类算法和轮廓快速生成算法,并由此开发了快速分层软件.
本文提出了具有高分辨率的微位移测量方法.该方法采用频谱分析技术对干涉条纹进行快速傅里叶变换(FFT)和滤波处理,消除了噪声和干扰,获得了清晰的干涉条纹.检测处理后的干涉
采用二维多流体网格法,对有防护挡墙的爆炸形成的空气冲击波作了计算分析,考虑了防护挡墙距爆心不同距离时,爆炸冲击波对远场的作用及其影响,给出了一些可供工程实际参考的计
使用压力修正算法及kε湍流模式求解Reynolds时均的NS方程,数值分析了离心式压气机叶轮内部湍流流动及叶轮出口“射流尾迹”结构的形成过程,计算与实验结果的比较表明,二次流
研究了聚氯乙烯在有氧存在时 ,受热过程中的脱 HCl分解与氧化降解反应 ,利用 FT- IR- 1 0 DX红外光谱仪 ,在高温、高压下 ,用原位红外 ,跟踪扫描的技术 ,证实了棉酚衍生物 AG
介绍了流体壁面摩擦力的直接测量方法--阻力平衡测量法.针对滑轮摩擦力是阻力天平仪校准误差的主要来源,提出误差挤消校准法.该校准方法利用计算机编程控制,先通过缓慢加载使