Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

用全局视角微观智能化风险,这场沙龙发现了什么?

如果把智能化时代比作一辆高速前进的列车,数据、算法及其承载系统(服务器、硬件算力、软件框架、通讯协议等),是构成这辆列车的主要部件。其中,数据是燃料,算法是列车的引擎,工程师是列车的驾驶员,而列车运行的车身,则对应着各大软件运行系统,列车每一个组件潜藏的安全隐患都有可能酿成现实悲剧,智能化时代的风险发现与防御自然也需要着眼全局。

近日,由专业技术学会 IEEE 与前沿科技探索社区 ATEC 联合主办的技术沙龙 IEEE x ATEC 科技思享会上,五位高校研究人员从不同角度就智能化时代的安全风险识别与防御手段展开了深入探讨。

图片

一、全局视角,烧脑有道

科技思享会的出品人西安交通大学教授沈超的分享,也恰如其分地呼应了这辆 “列车” 的各个组件,并提点应关注每个环节的安全风险与防御手段,构建起 “全局微观” 的问题视角 。

就数据层面而言,在模型训练过程中,如果训练数据集受到恶意篡改,模型性能就会被影响,这一阶段的攻击主要包括数据投毒和后门攻击。

以后门攻击为例,沈超团队利用自己开发的工具对其下载的某领域最受欢迎的前 500 个模型进行后门检测,结果发现大量公开模型存在许多后门点。后门植入比较简单,将这些后门找出来却非常困难,很多比较前沿的后门植入方式会让后门变得更加自然、不突兀。

例如,武汉大学教授王骞在思享会上分享了他们团队精心设计的一个基于注意力机制的后门触发器模具选择算法,他们在后门触发器生成的损失函数中引入了体验质量 (QoE) 项,并仔细调整了后门触发器的透明度,从而达到规避人眼视觉检查的作用。

沈超老师分享道,目前,学术领域及工业界关注的后门检测环节主要三类:摄动输入聚类分析、隐层输出轨迹分析、智能模型参数分析,它们分别对应模型部署、集成和模型推断。后门检测方法也因此分为三类:白盒、灰盒以及纯黑盒。

不过,不同检测方法都有其适用条件和局限性。例如,白盒方法意味着要知道模型所有细节。纯黑盒检测意味着输入阶段需要有大量后门样本,前期样本收集和评价非常关键。

除了数据投毒、后门等主流攻击风险,不少嘉宾还在会上强调了训练过程中的数据隐私问题。

Clearview 30 亿人脸数据泄露事件曾震惊世界。针对人脸等生物特征数据泄露隐患,生物特征识别领域提及较多的是联邦学习。“在生物识别当中,我们只需要最终得到一个训练好的模型,至于他用到什么样的数据进行训练,我们不去过多关注,避免数据泄漏风险。” 北京邮电大学人工智能学院研究员张曼在思享会上介绍到。

不过,在某些特定条件下,联邦学习场景也存在隐私数据被窃取的可能性。王骞团队探索了当服务器可能为恶意时的隐私泄露风险问题,并提出了一种基于 GAN 的用户训练数据重建攻击。在训练过程中,服务器在与参与者共同完成模型训练任务的同时,额外训练一个 GAN,其中的生成器用于仿造用户数据集中的样本,判别器则帮助改进仿造的结果。在每一轮训练中,服务器根据受害者上传的参数,构建出能与其获得相似结果的数据表征,并连同更新参数一同用于训练 GAN 中的判别器,以此不断改进生成器重建出的样本与原始训练数据的相似程度。实验结果显示,对比其他同类攻击,该方案重建出的图像与训练数据更为相似。

就算法层面而言,风险更突出地表现在模型推理过程中。如果对输入的测试样本进行恶意篡改,则有可能欺骗模型使其做出错误决策,这一阶段的攻击主要为对抗样本攻击。

与传统机器学习攻防研究关注手工特征、聚焦浅层模型应用不同,对抗性样本的攻防侧重对原始数据做扰动,多集中在深度学习最擅长智能语音、视频、NLP 等领域,强调的是模型高度敏感但人类难以察觉的对抗扰动。

思享会上,王骞分享了他们特别针对知名智能语音系统进行安全测试,成功实现了对抗样本攻击。其团队提出的两种黑盒语音对抗攻击方案——Occam 和 NI-Occam。前者,在只依赖识别结果的情况下,生成具有 100% 攻击成功率的语音对抗样本。后者则是针对物理域的语音控制设备提出的一种非交互式的黑盒攻击,其攻击成功率达到了 52%。

为了一定程度上缓解、遏制对抗攻击对于部分场景的影响,沈超团队的主要思路是利用模型可解释性,获取样本关键区域,并对这种可解释性关键区域提出基于模型的可解释性感知图的对抗攻击。另外,针对对抗环境中算法的多样性和信息获取的完整性,可利用平移空间的对抗样本的通用性和可转接性进行激励,设计相关敏感频带定位方法。

沈超在会上介绍到,他们会利用多层级领域分布探索机制,并基于自蒸馏的动态软标签预测机制,和自监督的动态软标签对抗防御方法来防御统计噪声和对抗扰动造成的负面影响。

值得注意的是,与对抗性样本密切相关的社会热点——深度伪造,也得到了思享会的热烈讨论。

沈超指出,现有的深度伪造检测方法各异,缺乏在统一数据集上进行公平的对比,检测能力评测指标单一且不完善,缺乏对性能指标的评价。

除了构建深度伪造基准数据集,沈超团队也在探索更加高效、高精度的伪造检测方法。例如,采用关键帧的检测、多帧输入的模型检测设计,来对多类的深度伪造检测方法进行比对,在检测精度不下降的前提下,效率可以提升 10% 以上。

由于在自动提取特征时将白雪背景作为了识别狼的标志,有的深度学习系统会将西伯利亚哈士奇识别为狼。一旦有敌手从旁干扰,系统就崩溃。深度网络似乎什么都知道,但其实什么都不知道。

工业界、学术界都意识到了深度学习可解释性的重要性,既要追求模型预测精度又要求模型具有可解释性也成为模型算法层面挥之不去的尖锐挑战。

沙龙活动上,在分享针对在线交易欺诈风险应对之策时,北京航空航天大学人工智能研究院学院研究员庄福振分享了一个兼顾神经网络识别准确性和可解释性的案例。

当一个电商平台在新的地域开展业务时,可能因数据量少而不能建立一个较好的欺诈交易检测模型。庄福振团队和蚂蚁集团联合研究,提出了一个迁移学习框架,旨在从具有足够成熟数据的源领域迁移知识,以提高目标领域的性能。由于不同地域的相同字段对应的取值可能不同,例如中国跟越南的消费字段、消费额不同,同样的商品在中国可能是 0 到 100 块钱,而在越南可能就不是。所以,不同地域的用户行为习惯可能不同,相同的行为序列提取器可能无法同时对两个地域有效。于是,他们将行为序列提取器也分为 Domain-Specific 和 Domain-Shared,即把一些特定的或者是领域不变的一些特征迁移过来,保持自身领域特有的一些东西,使用注意力机制来自动学习两者权重感知哪个领域的特征对预测的帮助更大,从而使得预测结果具有更好的可解释性。

同样围绕可解释性目标,沈超提出了一种度量模型可解释性的方法——从输出到输入的特征归因。“观察每个输出决策部分,对应样本的输入特征是什么?这样一个对应映射关系,在一定程度上可以作为模型可解释性的度量方法。”他解释到。

在万物互联趋势下,当模型落地到复杂现实场景时,系统及硬件层面的风险同样不容忽视。

思享会上,张曼分享了物联网系统带来的鲁棒性问题。在生物特征识别场景下,摄像头厂家有许多不同型号、参数的产品,成像效果差异也大。一旦到了复杂的非受控场景,光照、噪声等变化都会影响到识别系统的效果。如何在多元化的数据中快速准确进行身份认证就是一个新的挑战。

除了算法落地过程中的不稳定“外因”,人也成为系统层面的不稳定“内因”。正如沈超在会上分享的,不管国内还是国外的,底层的依赖库、代码框架都是由程序员编写,海量代码一定存在安全隐患。沈超提醒了这些可能导致机器学习系统崩溃的人为漏洞的存在,并强调了开发相应工具对软件框架(如 TensorFlow) 进行脆弱性检测和安全隐患定位的必要性。

先进技术的风险并非孤立存在,而是 “牵一发,动全局”-—在这趟“高速前进的列车” 上,外部环境对数据的扰动会影响算法决策引擎,而决策本身又深度依赖列车系统的正常运转。随着这样的技术与现实世界深度交融,智能化时代生存法则需要产学研各界人士协力探索。

二、科技思享会:倾听 “技术应用” 的复杂性

作为沙龙活动的发起方,IEEE 是全球最大专业技术组织,前沿科技探索社区 ATEC 本身蕴含深厚的行业影响力,发起者产学研结合的背景,也在与会嘉宾的共通背景中得到了微妙呼应。

与传统观念中的学者刻板印象不同,这些网络安全领域的教授、博导们有着丰富的企业横向课题经验甚至初创企业经验,一部分科研成果已经在产业落地并对实践产生积极影响,因此,也更有能力游刃于产业落地、社会热点与科技前沿话题。

例如,沈超团队的相关研究成果已广泛用于多场景、多终端的人机行为身份认证系统,不仅能提升数据安全保护性能,还降低了客户接入成本以及系统运营成本;

庄福振团队的在线支付欺诈研究工作直接将真实工业场景里关注的低用户打扰率时的召回率作为工作评价指标,要求模型既能做到欺诈交易识别的高度覆盖,又不能打扰正常的交易。

沈超认为,在未来的研究工作之中,数据和机理融合很重要。现在的模型都是通过数据驱动来形成的,模型本身一定要与当前的业务场景相结合,需要对应用场景的机理进行理解,形成对网络欺诈的智能识别防御,这也是一个比较好的研究方向。

王亦洲教授曾撰文写道:做 AI 研究,“复杂度”是一个关键词。环境复杂度、任务复杂度、系统复杂度决定了 AI 的水平。对它的研究可以揭示 AI 产生原理,也可以回答 AI 的终极问题,即对人类命运的最终影响。未来可信 AI 研究,也要从复杂度分析来看 AI 为人类带来的价值,更需要学界和产业界共同努力来推动。

作为冲在一线的产业界,往往能更直观地感受到智能化时代全局风险和微观痛点,对产学研结合的领先技术需求也更为迫切。

例如,工业界从 2015 年起,便在一些业务场景中采用 AI 安全技术,来保护用户隐私;微软、谷歌、IBM蚂蚁集团等科技巨头纷纷重投可信 AI,设立相关部门或项目,开始为 AI“刹车”。

为了实现数据的可用不可见,蚂蚁集团构建了多方安全计算平台、与可信的计算环境,采用了同态加密、差分隐私、零知识证明等技术。

隐私计算效率在提高,但还处在起步阶段,产品成熟度与工程化水平如何获得更好提升?性能与安全如何兼得?如何获取用户对技术信任?要获得好的解决方案,企业不能与世隔绝,而是要把更多的 “零部件” 都放到产学研交流的桌面上。

与此同时,也应该看到当金融、医疗保健领域高管们被错误认知误导时,也会大大拖延人工智能在这些高风险领域的落地。例如,关于模型的预测精度 VS 可解释性的非此即彼的二分思维。

借助大家都理解的方式,科技思享会可以帮助从业者摆脱行为和思考模式“单向化”,甚至激发他们从这些外部环境引入新想法,应用到新问题中。

今天的青年技术人,是未来的重要技术力量。

王亦洲教授指出,在学生现在的学习和生活中,就应了解学术的前沿,以及业界最新技术趋势,思考哪些技术可以应用到哪些问题上,主动观察了解所处的世界以及业界需求痛点和技术瓶颈。

这意味着除了创新思路、扎实的功底,青年技术人还要有实际的落地应用能力,既看得到远方又不脱离实际。

比起传统象牙塔内的授课或演讲,网络无疑具有更快的传播速度与更低的传播成本,科技思享会赋予青年技术人一个更具社交辐射能力的空间,不仅帮助他们了解学术前沿和最新的业界技术趋势,思考学以致用的路径,还可以从碰撞中摸索更有兴趣的职业道路。

三、拓展对未知的认知

人类对智能化的探索并非一条简单的直线。在增强人类现有技能,获得更多实惠的同时,也在周而复始、螺旋循环中经历各种意外与试错。

“人类的错误史也许比那些发明更有价值,更有趣。” 发明家本杰明 · 富兰克林曾言。因此,创造一个类似社会学家 Ray Oldenburg 所说的“第三空间”(third place)——一种有别于封闭的家庭或办公室连接环境的赛博空间变体(18 世纪曾是咖啡馆、20 世纪曾是 Homebrew Computer Club ),将有助于不同思想的有效碰撞与重组,让那些试错与意外化为新技术扎根的沃土。

IEEE x ATEC 科技思享会将定期举办,每月一场。在这个赛博空间会客厅,无论是科技公司高管、计算机科学家还是青年学子,这些志同道合者或为研究辩护、自省,或谈论产业落地方法和细节,分享研究与实践趣味,促进彼此改善思维甚至实践方式。当有一天这些对话汇总在一起时,希望能拓宽我们对 “数字世界” 的认知边界。

图片

如需了解演讲详情,请前往IEEE电气电子工程师、ATEC 公众号查阅。
理论数据安全数据隐私
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

对抗防御技术

生成对抗网络中应对对抗样本攻击的防御机制。常用方法有:移除训练数据集的对抗样本噪音,对训练过程的下降法进行调整等。

推荐文章
暂无评论
暂无评论~