在之前关于差分隐私的Tutorial中,我们简单介绍了欧盟隐私保护条例,即个人对数据具有知情权,拒绝权,修正与遗忘权,以及对于自动决策过程的选择权。差分隐私对于数据分析过程提出了严格的隐私保护定义,即对于数据库数据的任何分析,以及根据分析结果与其他信息进行的进一步的合并加工,都不会泄露个人隐私。通俗而言,就是对于任何数据分析员,要求分析员在对数据库进行分析后,对数据库中每一个个体的了解不会超过其在分析开始之前的了解。差分隐私的基本原理是控制单个数据对于整个分析结果的影响,对于简单的数据处理过程(如计算平均工资,统计性别比例),通过在数据分析结果中增加高斯噪声,可以令数据分析的机制满足差分隐私的约束。但是,对于需要多轮训练的复杂深度学习系统,构建差分隐私保护则更为困难。本文主要介绍基于高斯机制的差分隐私深度学习系统:通过在训练过程中施加高斯噪声,构建满足差分隐私要求的深度学习训练系统,并对所得深度模型计算隐私开销。此外,我们也将以Opacus这一基于pytorch的差分隐私训练库为例进行代码讲解。
深度神经网络中的持续学习 [ICML2021 Tutorial]
人类具有从经验中不断复用拓展知识的能力,即我们不仅可以将先前学到的知识和技能应用到新的环境中,还可以将它们作为以后学习的基础。这种持续学习,泛化知识的能力是强人工智能的重要特征,而以深度学习为代表的人工智能则难以具备。人工智能的重要研究目标是构建具备持续学习能力的智能体,该智能体可以根据自身经验构建对世界的复杂理解,从而利用更复杂的知识进行自主的渐进式的训练与改进。实验证明,已训练好的 AI 模型在新数据上训练或在新环境部署时会受到很大影响(如灾难性遗忘),即使新数据与它们的训练环境十分相似。此外,深度学习模型的学习过程通常是局部或孤立任务中的固定数据集,这令模型难以产生更复杂和自主的智能行为。持续学习(Continual Learning),也称终身学习(Life-long learning)是解决此类问题的研究方向,它的目标是扩展模型适应能力,令模型能够在不同时刻学习不同任务的知识,同时不会遗忘先前任务的特征。在ICML2021上,加拿大蒙特利尔大学的Irina Rish研究员对深度学习中的持续学习(Continual Learning)做了一个Tutorial,我们对此进行解读。
深度学习中的隐私 [ICML2021 Tutorial]
数据是人工智能的燃料,优秀的深度学习模型需要依靠大量高质量数据集进行训练。然而,随着模型精度的不断提升,对于个人隐私的泄露现象也变得越发严重。此外,随着互联网企业的扩展,用户数据开始担任重要生产资料的角色,成为各大垄断企业的护城河。欧盟,作为反对互联网垄断的桥头堡,同时也作为隐私保护的急先锋,在2018年正式施行法案《通用数据保护条例》(General Data protection Regulation, GDPR)。GDPR主张个人对数据的四项权利,请求权,拒绝权,修正权和删除、遗忘权。请求权,即个人有权了解其个人数据是否被处理,哪些个人数据以怎样的方式被处理以及进行了哪些数据处理操作;拒绝权,即个人有令人信服的合法理由,可禁止进行某些数据处理操作,比如个人可拒绝以营销为目的的个人数据处理。遗忘权,即个人有权寻求删除其个人数据的影响,比如用个人的微博,抖音数据训练的推荐算法,能够把个人的影响给忘掉。此外,GDPR还对数据的传输有明确的要求,比如欧盟境内的数据不得在境外被使用。
Match系列半监督图像分类方法
深度学习(deep learning)通过监督学习(supervised learning)在大量的机器学习任务上取得了瞩目的成就,如ImageNet上超过 90% 的分类准确率,Cityscapes 上超过 85% 的分割准确率。然而,实现高精度的分类、分割等任务需要大规模有标签的训练数据,如ImageNet的百万张图像或是Cityscapes上数千张1080p分辨率图像的像素级标注,都需要耗费大量的人力物力,同时在这些数据上训练的模型往往在跨域的数据泛化上仍然具有挑战性(如医学图像)。虽然数据标注难以获取,但从多种渠道收集无标注数据是相对容易的, 因此研究者逐渐把目光转向如何利用少部分有标注数据和大规模的无标注数据来训练模型 (比如, 有标签数据占整体的 1-10%)。这种同时利用少量有标注数据和大量无标注数据训练模型的方法称为半监督学习(semi-supervised learning, SSL)。
An Introduction to the Differential Privacy
数据是人工智能的燃料,优秀的深度学习模型需要依靠大量高质量数据集进行训练。然而,随着模型精度的不断提升,对于个人隐私的泄露现象也变得越发严重。此外,随着互联网企业的扩展,用户数据开始担任重要生产资料的角色,成为各大垄断企业的护城河。欧盟,作为反对互联网垄断的桥头堡,同时也作为隐私保护的急先锋,在2018年正式施行法案《通用数据保护条例》(General Data protection Regulation, GDPR)。GDPR主张个人对数据的四项权利,请求权,拒绝权,修正权和删除、遗忘权。请求权,即个人有权了解其个人数据是否被处理,哪些个人数据以怎样的方式被处理以及进行了哪些数据处理操作;拒绝权,即个人有令人信服的合法理由,可禁止进行某些数据处理操作,比如个人可拒绝以营销为目的的个人数据处理。遗忘权,即个人有权寻求删除其个人数据的影响,比如用个人的微博,抖音数据训练的推荐算法,能够把个人的影响给忘掉。此外,GDPR还对数据的传输有明确的要求,比如欧盟境内的数据不得在境外被使用。