改进的SNM中文语义重复记录检测算法

来源 :吉林大学学报:信息科学版 | 被引量 : 0次 | 上传用户:fantasy1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很
其他文献
针对语音信号特征提取在处理含噪语音信号时识别率低,抗干扰性差等问题,提出了一种基于改进的经验模态分解算法对含噪语音信号进行特征提取。该方法通过对含噪声语音信号分解
海洋环境复杂多变,单一水下传感器目标识别精度不能满足系统性能要求,并且水下数据噪声大、维度高,直接进行数据融合并不能得到较好的结果。为此,针对多场景水下多源试验数据,使用去噪自编码和多种降维方法进行多角度特征级融合。首先,使用去噪自编码器去除噪声、降低数据维度并且抽取出深层特征;然后,对深层特征使用数据层叠方法进行多源数据融合。融合方法包括主成分分析、独立分量分析和等度量映射。不同场景下对比试验表
畜牧养殖是农业的重要组成部分,是农民致富的重要路径,也是区域经济发展的保障。在科技辅助下,我国畜牧养殖向规模化和集约化转变,虽然养殖效益提升,但对环境产生了一定污染
为解决脊型波导相位调制的有效折射率测量问题,提出一种3端口MZI(Mach-Zehnder Interferometer)结构,能定量测量并分析PN结(Positive-Negative junction)脊型硅光波导中,有效
集约化养殖满足了人类对肉蛋奶类产品日益增长的需求,但在追求效率的同时,农场动物的生存状况被严重忽视,致使动物产品出现药残多、产品质量差等问题,动物福利养殖正是解决这
《兽医药理学》是动物医学和动物药学专业的专业必修课,但在当前课程教学中还存在诸多问题,如“教”与“学”不能相互融合,课堂教学难以应用于临床实践,致使学生在选择就业时
为实现红外图像与可见光图像的融合,设计了以响尾蛇的视觉成像机制为基础的红外图像与可见光图像融合神经网络结构。首先根据双模式细胞的6种响应模式,得到红外和可见光图像的6种响应结果,然后以视觉感受野数学模型为基础,将6种双模式细胞响应输入到由ON对抗系统和OFF对抗系统组成的双层网络结构中,最后输出R、G和B 3个通道的映射值及伪彩色图像增强结果。分别对4组经过配准的红外和可见光图像进行融合,将该方法
新型冠状病毒肺炎席卷而来,作为病毒潜在宿主之一的野生动物再次成为人们关注的热点。回想当年非典疫情,寄宿在果子狸身上的SARS病毒所带来的破坏性危害至今历历在目。短短17
通过分析全区畜禽粪污资源化利用取得的成绩、存在的问题,提出相应建议,以达到推进江阳区畜禽粪污资源化利用工作,实现加快种养结合、绿色发展目的。
为提高利用表面肌电信号(s EMG:Surface Electromyography)进行手势识别的准确率并解决其受不同提取特征影响的问题,提出了一种基于多路卷积神经网络(MB-CNN:Multi-Branch Convolutional Neural Networks)的手势识别方法。首先,使用MYO手环采集8种不同手势的s EMG信号;然后,利用滑动窗口法对s EMG信号进行活动段提取,生成大