一种文本数据集成方法的研究与实现

来源 :东北师大学报:自然科学版 | 被引量 : 0次 | 上传用户:shenth_1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据预处理中文本数据集成涉及文本比较和查找耗时问题,提出一种基于hash技术的方法.通过hash运算,将查找过程中文本比较转化为整数比较,并同时使用2种hash函数,解决hash冲突问题.建立hash表或者B-树索引,加快了查找速度.实验结果表明:hash算法与hash表的结合使用,相对于常规集成方法,极大地提高了数据预处理的速度,数据量较大时,优势尤其显著;而相对于B-树方法,hash表方法实现简单,并且比B-树处理速度快.
其他文献
福建省经济信息中心与中国电信福建公司在福州签约,就福建省电子政务外网建设项目进行合作,合作目标是:年底实现福建电子政务外网公共信息化服务纵向到乡,信息共享横向到所有省直
通过建立降解动力学模型,对水溶液中2种硝基芘(nitropyrenes,NPs)——1-硝基芘和1,8-二硝基芘光降解过程进行了研究,考察了NPs浓度、光敏剂(H 2O 2、NO-2、NO-3)、pH值及甲醇
测试,在科学实验中占有重要的地位,在教学过程中亦应仔细地予以安排.随着计算机技术的发展,科学实验研究在手段和方法上都发生了巨大的变化,同时也提出了有待探索的内容。如
根据教育部立项的"电工、电子系列课程改革"项目,结合我校"发电厂及电力系统专业教学改革"的要求,对"电工测量"课程的理论和实践教学方法进行改革,激发学生对工程问题的探索
本文就我们近年来在数字电路教学中开发应用GAL的一些做法和体会与同行交流探讨。
根据电路课程的特点,从电路课程理论教学的思想脉络,实践教学实验内容和方式的设置,作业布置和作业内容的设置以及课堂教学中充分调动学生思维活动四个方面贯穿素质教育,探讨在专
为进一步了解长春市城市绿地土壤质量状况,揭示绿地土壤存在的主要问题,以高新北区为例,按照绿地划分方法,根据其地理位置和利用类型,对高新北区公园绿地和交通绿地土壤质量进行了分析.结果表明:公园绿地和交通绿地土壤容重均偏高,多数土壤有碱化趋势,土壤有机质和水解氮含量处于偏低水平,土壤速效磷含量处于中等偏低水平,土壤速效钾含量处于中等水平.土壤有机质对水解氮、速效磷的含量影响较大,对速效钾的影响较小.在
近年来如何创新主题宣传,成为了每一个媒体人共同面对的与思考的问题。作为同时包含广播与音乐双重属性的音乐广播,伴随着当下网络信息化社会的快速变迁,以及新媒体的大幅冲击,在
设p,q是两个奇素数,且p〉q,n是正整数,G是Sylow q-子群循环的p^3q^n阶群,对G进行了同构分类,并确定了Sylow q-子群循环的p^3q^n阶群的全部构造.
为推进电子实验教学改革,我们采取了电子实验多元化考核方式,并介绍了我们的做法.