为什么这些照片连强大的视觉AI也无法准确识别？

▲ 桌子上面的到底是井盖还是蜻蜓?(图片提供：Dan Hendrycks)

▲ 照片中的是一只绿鬣蜥，还是一只松鼠?(图片提供：Dan Hendrycks)

▲这是独轮车，还是一只穿越马路的鳄鱼?(图片提供：Dan Hendrycks)

对人类而言，这些答案显而易见。然而，世界上最强大的图像识别人工智能却还无法解决上述难题。

之所以会这样，是因为每一张照片都经过精心挑选，专门用来“欺骗”图像识别技术。这些照片来自一套专门的数据集，其中的7000张照片由加州大学伯克利分校、华盛顿大学以及芝加哥大学的研究人员们共同整理完成。

加州大学伯克利分校计算机科学博士生、论文作者Dan Hendrycks表示：“目前的(机器学习)模型还不够完善。虽然已经有不少研究尝试利用人工数据提升模型的能力，但我们发现，这些模型在面对某些真实数据(来自真实照片)时往往会出现严重且高度一致的错误判断。

为了解释这个问题的重要意义，我们首先对图像识别技术的发展做一下回顾。

过去几年以来，图像识别工具已经变得越来越好，识别速度也越来越快。这在很大程度上要归功于斯坦福大学创建的，并且其规模仍在持续拓展的开放数据集ImageNet。该数据集目前已经包含超过1400万张照片，每张照片都配有“树”、“天空”之类的标记。这个庞大的数据库成为人工智能重要的训练素材集合，也可以作为新AI系统的参考基准，用于训练系统进行图像识别。打个比方，它就像是一本专供幼儿学习新单词的看图学话绘本。目前，利用ImageNet训练出的人工智能拥有极高的准确率，其物体识别精度可达95%，这一水平已经优于人类的图像内容分辨效果。

然而，解决这最后5%的准确度缺口是个巨大的挑战。自2017年以来，计算机在识别图像的准确度方面一直比较羸弱。正因为如此，研究人员们才尝试探索其中的原因——即计算机为什么无法解析某些特定图像。

通过这套新的图像集合，研究人员们以手工方式搜索Flickr(雅虎旗下的图片分享网站)，寻找可能会令AI软件陷入混乱的照片。然后，他们利用由ImageNet数据集训练而成的AI模型进行测试，如果模型确实无法识别照片内容，则将其添加到这套名为ImageNet-A的新数据集内(很明显，这个名称代表的就是反ImageNet之意)。在识别这7000张照片时，AI的准确度从90%迅速降低至2%。是的，您没有看错，世界上最先进的视觉AI模型确实无法正确识别其中98%的照片。

至于AI系统为什么无法理解这些图像，则是个相当复杂的问题。

目前的AI训练基本上就是把大量数据投入“黑匣子”当中——换句话说，我们只能根据最终结果来判断其准确性。比如，如果“黑匣子”见过足够多样的树木图像，它就会开始在新照片中认出树木对象，而我们就认为训练获得成功(这类重复任务被称为机器学习)。但问题是，我们并不知道AI是依靠哪些指标识别树木的——是形状?颜色?背景?质地?还是说树木具有某种人类从未意识到的统一核心几何样式?对于这个问题，目前科学家们也回答不了。

总而言之，AI能力的判断由结果实现，而非通过推理过程实现。这意味着我们可能会从AI当中发现种种令人意想不到的偏见，而这又进一步影响到AI系统在无人驾驶汽车或者刑事司法领域的实际应用。除此之外，这也意味着图像识别系统并不算是真正实现的智能化，而更像是一种强大的匹配工具。

构建ImageNet-A数据集，正是为了“欺骗”AI，从而总结为什么这些图像会让系统找不到正确答案。举例来说，当AI错把一张松鼠的图片误认为是海狮时，其缺少深层智慧与推理能力的问题就会被直接暴露出来。该系统可能仅依赖于这些动物的纹理——而非对象的相对大小或形状——进行识别。Hendrycks表示：“那些需要根据物体形状才能做出正确判断的照片，似乎最有可能骗过AI模型。”

利用ImageNet-A，研究人员们成功从视觉AI当中找到7000个盲点。但是，这是否意味着可以将这些图像构建成新的训练集，从而修复AI模型的这个大毛病?答案恐怕是否定的。Hendrycks指出，“由于现实世界中存在着大量多样性与复杂性因素，因此利用这些图像进行训练可能无法教会模型如何真正可靠地管理全方位的视觉输入信息。比方说，也许收集并标记1万亿张图像足以解决一部分模型盲点，但当出现新的场景或者环境发生变化时，以往修复的各个盲点可能会再次暴露出来。”

换言之，简单将更多照片添加到机器学习数据集当中，无法解决AI模型在逻辑层面的核心缺陷，毕竟总会出现计算机之前从未见过的图像。那么，研究人员们该如何解决这最后5%的准确性空白?Hendrycks解释称，他们需要在现代机器学习范围之外开发出新的方法，从而创建起更加复杂的AI系统。而在他们实现这一目标之前，人类仍然可以继续保持一点小小的优越感——截至当下，AI在某些方面仍无法与人类相匹敌。