ES_SSE:一种文本重复检测方法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:xie_e
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-bit进行了模型介绍,并详细描述了ES_SSE的构造原理;分析了Jaccard similarity估计所利用的理论模型基础,并建立了估计量模型;通过实验验证了ES_SSE的高效性能,当J值大于80%时,ES_SSE比b-bit
其他文献
为解决光照变化、叶片自身表观变化和复杂背景对植物叶片图像准确分割所造成的困扰,提出一种组合式分割方法。该方法在多个尺度上采用滑动窗口扫描方式检测图像中的叶片;对检测到的叶片区域中心区域像素为初始前景,而叶片窗口之外的区域为初始背景,用高斯混合模型(GMM)分别对前景和背景建立初始概率模型;采用迭代法完成叶片分割,在每一轮迭代中,用标准的图割算法和上一轮GMM模型分割前景和背景,根据新的分割结果重新
陕西中医学院骨伤学科是陕西省教育厅1997年确定的省级重点学科,此后又被确定为陕西省中医管理局重点专科,经多年的建设和发展,造就了一批具有爱岗敬业、专业素质高的专业人员,在
沙眼衣原体(chlamydia trachomatis CT)是一种常见的性传播性疾病,我国人群中CT感染率呈上升趋势.孕妇感染CT,多通过宫内感染等方式,直接损害发育中的胎儿,导致自然流产、早
针对债券市场上芜杂的行情数据,提出将DBSCAN聚类算法应用于构造债券收益率曲线样条函数。通过运用DBSCAN算法对用于构造债券收益率曲线的行情数据进行聚类分析,能够有效地剔除
通过临床症状、体征,hcGβ、孕酮的测定以及超声检查,后穹隆空刺等,可有助对异位妊娠的早期诊断,并及时进行中西医结合治疗,降低了手术率,减轻了患者的痛苦。
<正> 随着人类社会进步,人口老龄化程度愈来愈明显,与老龄有密切关系的老年期痴呆的发病率愈来愈高,国际上几乎每一个老年研究单位都把老年期痴呆作为研究重点。近几年来,运
儿科急症下法举隅陕西省府谷县老干部门诊部(719400)谢焕荣关键词儿科急症,下法一、高热鸱张刘&#215;女4岁1986年5月诊。家长代诉:发热已三日,体温39~40℃,经肌注抗生素,口服中药无效。证见面色红赤,高
对43你支气管肺炎的临床对照观察表明,肺炎冲剂对支气管肺炎患者在止咳、平湍及消除肺部体征等方面有较显著的疗效。
目的研究益肾化浊注射液对糖尿病肾病的防治作用.方法采用链脲佐菌素(STZ)腹腔注射制备糖尿病大鼠模型,给药6周后,观察益肾化浊注射液对血糖、血肌酐、尿素氮、尿蛋白排泄率
采用电迷路、跳台法观察了益肾通窍液对东莨菪碱所致老年性痴呆大鼠学习记忆的影响,以海德琴为阳性对照药,并从大脑脑皮质胆碱酯酶活性,全脑组织过氧化脂质、B型单胺氧化酶的