【摘 要】
:
本文针对现有数据定价算法未考虑隐私因素的影响,尚没有基于交易数据集的隐私度量方法,现有数据元组定价方法耗时较长等问题,提出了两种针对交易数据集的隐私度量方法,并以隐私度量为核心提出了一种基于元组的数据定价方法,最后通过实验证明本文提出理论的合理性。本文的具体工作及获得的成果如下:(1)提出了“隐私级别”和“数据集描述对象”两个隐私度量参数和一种基于信息熵的隐私度量方法。根据交易数据集描述内容的不同
论文部分内容阅读
本文针对现有数据定价算法未考虑隐私因素的影响,尚没有基于交易数据集的隐私度量方法,现有数据元组定价方法耗时较长等问题,提出了两种针对交易数据集的隐私度量方法,并以隐私度量为核心提出了一种基于元组的数据定价方法,最后通过实验证明本文提出理论的合理性。本文的具体工作及获得的成果如下:(1)提出了“隐私级别”和“数据集描述对象”两个隐私度量参数和一种基于信息熵的隐私度量方法。根据交易数据集描述内容的不同,对交易数据集的属性进行隐私分级,并确定数据集的描述对象,结合Shannon信息论知识,提出了一种基于信息熵的隐私度量度量方法,其可计算出交易数据集和各元组的隐私含量。(2)提出了一种基于集对分析的隐私度量方法。前文提出的基于信息熵的隐私度量方法,虽然能够准确衡量交易数据集中的隐私含量。但是,数据交易平台在进行数据买卖的过程中往往会对数据进行部分脱敏处理。因此,本文利用集对分析理论,首先对数据集进行隐私保护,去除交易数据集中的部分敏感信息;再通过将各属性信息进行联结,对计算出的元组相对信息泄露集对势熵和相对信息泄露集对记分函数熵进行转化,即可求得元组的隐私含量。(3)提出一种以隐私度量为核心的元组定价方法。基于本文提出的隐私度量方法计算出的隐私度量值,结合数据引用指数,构建一个二元组作为影响元组价格的因素,并为每个因素分配权重。计算各个元组中各因素占交易数据集因素的比率,再与权重进行结合,以交易数据集的价格为基准,即可算出数据集中各元组的价格。(4)定价机制的实验验证。编写数据定价仿真系统,利用网络爬虫获取的交易数据集进行实验。实验结果表明,本论文提出的隐私度量方法能够较好地计算出数据集中各元组的隐私含量,而且本文提出的元组定价方法相较于传统的元组定价方法具有更高的定价准确率和更低的时间复杂度。
其他文献
上世纪30年代上海已是世界第五大都市,夹杂在帝国与资本主义的双重冲撞中,快速地改变着原有的都市面貌。茅盾的小说以描写上海资本社会而闻名,资本家的行动与经济变迁是其关
以S7-200 PLC采集耀华称重显示器的重量数据为例,介绍S7-200 PLC和称重显示器之间如何实现基于自由口的串口通信,并在实训教学过程中得到良好的应用,该应用对于S7-200 PLC与
巴黎和会期间,英、法、美等战胜国就战后处理德国裁军问题达成了共识,拟定了一系列裁军条款。一战后,由英、法两国把持的“协约国军控委员会”为落实《凡尔赛和约》的裁军条
土匪,通常指地方上以抢劫为业、坐地分赃、残害人民、危害社会的个人或集团。史书上亦称作“山贼”、“山寇”、“草寇”、“强人”等。 湘西土匪由来已久。明朝末年的澧水
目的探讨经丝裂霉素(MMC)处理后Hepa1-6肝癌细胞survivin表达的变化。方法体外培养Hepa1-6经1.0、3.0和9.0μg/ml浓度的MMC处理后1和3d,MTT法测定Hepa1-6生长抑制率,RT-PCR法检
摩擦片打滑时,摩擦偶的实际接触是在摩擦表面的微凸体之间进行的,摩擦热的产生具有微区瞬间的特点,从而引起摩擦面局部温度过高.根据摩擦片打滑的特点和导热理论,建立了接触
随着煤炭开采产量和原煤入洗率的增加,煤泥的产量在逐年增加。煤矿洗煤厂的洗选废弃物-煤泥,年产量达7000多万吨,不仅浪费了大量煤炭资源,而且也污染了环境,占用土地。煤泥的
汉语和朝鲜语接触从古至今都非常密切,而学界对朝汉语言接触与语言演变的关注与研究则远远滞后于朝汉语言接触发展的现实。从现有的文献资料来看,其研究主要集中在汉语对朝鲜
山东大学位于美丽的青岛海滨,如诗如画的校园浸沉在浓郁的学术氛围中,令每一个步入山大的学子感到由衷的骄傲和自豪。1955年9月初,我考入青岛山东大学中文系,当时正值山东大学第
本文介绍了以新鲜水牛奶、鸡蛋、蔗糖等为主要原料,生产鸡蛋酸奶的生产工艺,工艺中所采用的全蛋液酶解,再与水牛奶混合消毒、均质的方法,使得消毒温度可提高到95℃,保证了产品的卫