跟着辩论机硬件、云辩论和转移互联等领域的首要冲突绫 丝袜, 东说念主工智能(artificial intelligence, AI)被逐步应用于包括癌细胞识别、农业泥土监测、告白精确投放、金融诓骗识别、信用评价以及自动驾驶汽车等[1]安全重要或任务重要系统中. 本文将这类模拟东说念主的某些念念维过程进行学习、推理、打算、念念考等智能行径的系透顶称为东说念主工智能软件系统. 东说念主工智能软件系统具有较为复杂的结构, 如数字图片识别系统中一个浮浅的4层卷积神经收集就具有卓越13000个参数, 一些东说念主类无法发现的细小扰动就有可能导致神经收集出现违抗的判断. 不稳重的是, 由于缺少对东说念主工智能软件系统的全面意志和评估圭臬, 导致在高风险应用中往往发生一些首要荒唐, 引起了东说念主们对于东说念主工智能软件系统质料保险问题的爱护和料到.
料到者从东说念主工智能软件系统的分析、测试、考证等方濒临东说念主工智能软件系统的质料保险进行了探索[2]. 依据测试、考证的成果, 料到东说念主员不错有依据、有所在地建议保险念念路. 刻下, 针对东说念主工智能软件系统比拟传统软件存在的互异问题, 料到东说念主员对传统软件测试次序进行校正和改革, 产生了各种各样的测试次序. 如Pei等东说念主建议了一种深度学习系统白盒测试次序——DeepXplore[3], 该次序通过使用生成的测试用例对模子进行再行测验来援救模子的准确率, Pei等东说念主在实验中初度使用神经元袒护率手脚对抗性样本生成的度量目的, 同期他们以荒唐行径发现次数和测验数据轻侮造反智商手脚模子度量目的; Cisse等东说念主引入一种名为Houdini的对抗性示例生成次序[4], 该次序可基于语音识别、当然谈话不停等应用模子的测试评估目的生成对抗性示例, 何况在实验中使用PCKh(percentage of correctly detected keypoints)、结构相同性指数(structural similarity index, SSIM)和可感知性(perceptibility)手脚模子次序的度量目的; Kurakin等东说念主哄骗快速梯度标识法(fast gradient sign method, FGSM)、基础迭代法(basic iterative method, BIM)、最相同迭代法(iterative least-likely class method, ILCM)等算法生成对抗性样本[5], Kurakin等东说念主还将所生成的对抗性样本打印并通过模拟实在宇宙中的主见分类场景进行测试, 并在实验中使用重构率(destruction rate)手脚模子性能的度量目的.
测试、考证等次序千般化的同期也产生了系统评估圭臬不调和的问题, 为此料到东说念主员在基于传统软件评估目的基础上逐步酿成了东说念主工智能软件系统的属性目的. 该目的的建议一方面加强了从业东说念主员对东说念主工智能软件系统的瓦解, 另一方面援救了东说念主工智能软件系统的质料保险力度. 东说念主工智能软件系统的软件属性是指其为匡助用户完了主见或不停问题所需要的要求, 亦然东说念主工智能软件系统过甚组件要知足圭臬和程序所要具备的要求. 这些属性目的对东说念主工智能软件系统的性能爱护和质料保险起到指向性的要紧作用, 具体可分为功能属性(functional attributes, FAs)和非功能属性(non-functional attributes, NFAs). 其中功能属性边幅系统功能, 它是指东说念主工智能软件系统为完了用户需乞降业务需求所必须具备的智商. 而非功能属性反应系统质料、特质和敛迹. 手脚功能属性的补充, 非功能属性是依赖于功能属性而存在的属性, 它们密致敛迹和截至着东说念主工智能软件系统, 对系统的质料保险具有终点要紧的作用.
对东说念主工智能软件系统使用非功能属性目的进行评估能指出系统存在的不及; 即东说念主工智能软件系统需要在什么方面校正才智保险系统模子的质料. 刻下料到中, 包括文件[6,7]在内的一些使命对东说念主工智能软件系统的功能属性已进行一定进度的空洞, 但尚且缺少对非功能属性进行系统料到的关连使命. 为了填补这个空缺, 本文将以东说念主工智能软件系统非功能属性手脚料到对象, 如图1所示, 提神地回归包含鲁棒性、安全性、数据躲避性、公说念性、可证明注解性和可用性在内的非功能属性.
Fig. 1 Common non-functional attributes in the field of artificial intelligence 图 1 东说念主工智能领域常见非功能属性现在王赞等东说念主[1]、Zhang等东说念主[6]和Vinayagasundaram等东说念主[7]在针对东说念主工智能领域的测试使命进行系统回归的同期, 对东说念主工智能软件系统的非功能属性也进行了一定进度的参议. 王赞等东说念主从包括测试度量目的在内的多个角度来系统梳理深度神经收集测试的关连使命; Zhang等东说念主从范围更广的机器学习测试方面进行回归, 对机器学习测试经过、测试组件、测试属性和应用场景等部分作出回归; Vinayagasundaram等东说念主则从总共这个词东说念主工智能软件系统的体系缚构角度对度量圭臬进行界说, 以量度系统软件质料. 此外还有Gilpin等东说念主[8]和Mehrabi等东说念主[9]对东说念主工智能软件系统的单个非功能属性进行系统地梳理和证明. 令东说念主缺憾的是, 这几项关连使命的实验主要呈文东说念主工智能料到领域的测试和东说念主工智能的体系缚构, 对东说念主工智能非功能属性的料到并未酿成系统、灵验的袒护性回归. 本文将爱护东说念主工智能软件系统的非功能属性. 如图2所示, 将隶属性界说、属性必要性、非功能属性的示例以及常见质料保险次序几个方面系统地梳理东说念主工智能软件系统中常见的非功能属性. 其中, 属性界说以翰墨边幅和公式暗意两种体式给出非功能属性的界说; 属性必要性呈文非功能属性在东说念主工智能软件系统开荒中的要紧性; 属性示例中以汽车自动驾驶系统等例子来呈现非功能属性; 常见质料保险次序部分回归现存的东说念主工智能软件系统非功能属性的质料保险次序和料到念念路. 本文还将对非功能属性之间的关系进行界说和回归分析, 并预测东说念主工智能软件系统非功能属性的改日料到所在和挑战, 以期为该领域的料到东说念主员提供参考.
Fig. 2 Research category of non-functional attributes 图 2 非功能属性料到鸿沟为了对该料到问题进行系统的梳理和分析, 本文领先将“Non-Functional Attributes/Properties for Artificial Intelligence”“Robustness/Security/Data Privacy/Fairness/Interpretability/Usability of Artificial Intelligence”等设为搜索重要词, 在国表里要紧的学术搜索引擎(举例Google学术搜索、Springer、DBLP、CiteSeerX、CNKI等)中检索出关连论文; 随后, 咱们筛选并移除了与该综述问题无关的论文. 有3名熟练东说念主工智能软件系统的料到东说念主员参与了这一过程, 并通过参议来遗弃不对; 接着, 通过查阅论文中的关连使命和料到东说念主员的已发表的论文列表, 以及通过已搜索到的文件的援用和被援用取得更多关连论文; 本文最终笃定并援用了联系论文138篇. 论文的发表技艺概况如图3所示, 最终所选中的论文有75篇发表在CCF评级为A, B的各领域顶级期刊融会议上, 其中东说念主工智能领域(38篇)、软件工程及系统和时势设想谈话领域(15篇)、辩论机科学表面领域(1篇)、收集与信息安全领域(18篇)、辩论机体系缚构及平行踱步辩论和存储系统率域(1篇)、数据库及数据挖掘和实验检索领域(1篇)、东说念主机交互与普适辩论领域(1篇). 除此以外, 本文援用的文件还包括arXiv (17篇)、CCF评级为C类会议期刊论文(7篇)、软件学报(2篇)、其他CCF未收录的会议和期刊论文(32篇)和关连册本(5本). 图4展示了不同非功能属性的论文踱步情况.
sss视频 Fig. 3 Overview of papers’ publication time 图 3 论文发表技艺概况 Fig. 4 Proportion of papers with different non-functional attributes 图 4 不同非功能属性料到使命占比本文第1节隶属性界说、属性必要性、示例和常见质料保险次序几个方濒临东说念主工智能软件系统的非功能属性进行提神的回归梳理; 第2节对东说念主工智能软件系统非功能属性进行归纳, 并对它们之间存在的关系进行筹商; 第3节对本文所列举的东说念主工智能软件系统非功能属性的现存器具或开源形势进行回归; 第4节回归全文, 并预测非功能属性的改日料到所在和挑战.
1 东说念主工智能软件系统非功能属性在东说念主工智能软件系统发展前期, 东说念主们过于爱护东说念主工智能软件系统的功能属性, 从而对于非功能属性的瓦解远远低于功能属性, 这不利于对东说念主工智能软件系统的瓦解和保险使命. 频年来, 东说念主们越来越爱护非功能属性的料到, 将其手脚东说念主工智能软件发展的新冲突.
常见的东说念主工智能软件系统功能属性有正确性(correctness)和过拟合进度(overfitting). 正确性是系统大致正确不停各种输入并产生正确输出的智商(概率)[6]. 正确性的料到主要聚拢于数据[10]、模子[11]和统计次序[12,13]这3个方面. 过拟合进度是量度模子算法由于过度的拟合刻下可用数据而导致无法很好地拟合改日数据或者可靠地预测改日成果的进度目的[14]. 对于过拟合的料到主要聚拢于产生过拟合的原因(复杂的模子[15]、疏淡的样本[16-18])以及模子过拟合考证[19,20]两个所在.
功能属性边幅了东说念主工智能软件系统所具有的完了各种需求的智商. 而非功能属性依赖于功能属性, 是系统特质和敛迹的表征. 东说念主工智能软件系统常见的非功能属性有鲁棒性、安全性、数据躲避性、公说念性、可证明注解性和可用性等. 本节将以属性界说、属性必要性、属性示例和常见质料保险次序4个方濒临以上非功能属性进行提神的阐发.
1.1 鲁棒性 1.1.1 鲁棒性界说刻下, 不同的料到对鲁棒性(robustness)有不同的界说.
(1) 鲁棒性在IEEE软件工程圭臬术语中界说为[21,22]: “在无效输入或者压力环境下, 系统或者系统组件不错正确启动的进度.” 模仿这一界说, 用公式(1)给出鲁棒性在东说念主工智能软件系统中的界说; 假定S为东说念主工智能软件系统; E(S)是S的正确性; $\vartheta (S)$ 是对东说念主工智能软件系统S的纵情组件(举例数据、学习时势或者框架)经过抑制后的系统, 则东说念主工智能软件系统S的鲁棒性r便是E(S)和 $E(\vartheta (S))$ 之差的度量, 即:
$ r = E(S) - E(\vartheta (S)) $ (1)因此, 鲁棒性量度了东说念主工智能软件系统对抑制的造反智商.
(2) Huber从统计学的角度系统地给出了鲁棒性3个层面的成见[23]:
① 对于东说念主工智能软件系统中总共学习模子的基本要求; 模子具有较高的精度或灵验性;
② 对于模子所出现的较小偏差, 只可对算法性能产生较小的影响(主如果噪声, noise);
③ 对于模子所出现的较大偏差, 不能对算法性能产生“毁掉性”的影响(主如果离群点, outlier).
(3) 对抗鲁棒性是鲁棒性的常见类别, 其主要哄骗对抗性输入来增强系统的鲁棒性. 参照Katz等东说念主[24]的使命可将对抗鲁棒性分为局部对抗鲁棒性和全局对抗鲁棒性如公式(2), 公式(3)所示.
领先是局部对抗鲁棒性绫 丝袜, 假定: x是东说念主工智能学习模子h的一个测试输入; x'是通过对x进行对抗扰动而生成的另一个测试输入; h(x)和h(x')是x、x'在模子h上的输出. 对于纵情x'如果知足公式(2), 则称模子h在输入x处是 $\delta $ -局部鲁棒性的.
$ \forall x':