人工智能的得分可靠吗?终结人工智能评价体系与科普误区

在过去的60年里,人工智能有起有落。 在过去的十年里,在信息技术巨头的巨大投资下,我们终于看到了未来的开花结果。 在5月高通人工智能创新论坛上,高通中国董事长孟普表示,他预计人工智能的商业价值到2021年将达到3.3万亿美元。 这是什么概念?如果人工智能衍生产业被视为一个国家,这3.3万亿英镑已经超过英国(3.2万亿英镑)成为世界第五大经济体。 普华永道(PricewaterhouseCoopers)甚至估计,到2030年,人工智能将带来16万亿美元的国内生产总值增长,比2017年中国国内生产总值多2万亿美元。 智能手机将是最受欢迎的人工智能平台,并将直接影响人类生活的方方面面。 除了很早就开始布局的高通公司之外,近年来,苹果、华为和联华等移动SoC制造商都开始在移动终端方面探索人工智能。 最近,甚至像传统的中央处理器/图形处理器一样,出现了移动端人工智能的基准运行测试 然而,公众不仅对人工智能本身知之甚少,而且对人工智能和人工智能测试也有很多误解,所以这次我们将从高到低整理一些流行科学和对人工智能的误解。 人工智能与深度学习的关系始于人工智能、机器学习和深度学习的进步概念 人工智能的目的是使计算机具有类似人类的推理、知识、计划、学习、交流、感知和其他能力。主要有“模式识别、机器学习、数据挖掘、智能算法”四个技术分支。其中,机器学习对普通用户的影响最大。 顾名思义,机器学习就是让计算机学会自己创建模型和算法。 近年来,在计算机视觉和自然语言处理领域取得显著成果的深度学习是计算机创建模型的方法之一。 它在高层次上模拟神经元和抽象数据,以完成核心训练和推理过程 “训练”是将大量数据输入到现有的算法模型中,并让计算机从数据中调整各种参数来优化算法模型 “推理”是使用训练有素的模型来判断和预测未知数据 我们偶尔听到的“深度神经网络、卷积神经网络、深度置信度、递归神经网络、前馈神经网络、决策树、特征工程和装配线模型”都是深度学习的模型和框架。 我能做什么来看高大的人工智能?深度学习能做什么?例如,在算法模型被“喂”了一堆食物照片之后,经过调整和训练的模型可以识别食物照片。 我们给“阿尔法狗”的算法模型输入了一堆象棋分数,然后我们看到了以前的人机象棋比赛。 当那一年深入学习突破时,人类突然发现了一个新世界。 严格来说,这是通往新世界的捷径 近年来,技术巨头的巨额投资、模型框架的改进和计算能力的飙升使得人工智能在图像、人脸识别、语义分析等强人工智能领域取得阶段性成果。并已广泛应用于日常网络和移动产品中。 基本上,云服务和旗舰手机,以及安全设备上常见的强和弱人工智能应用,都是结合深度学习技术的产品。 每日公开的人脸提取、人脸支付、机器牌照识别和运动跟踪将不被提及。 从相机自动场景识别、对象识别/分类、照片增强、相册人脸搜索和分类、缩略图的超级分析,到条形码识别和手写转换等图像领域,再到Siri/谷歌助手/微软小娜、语音分析和翻译软件等自然语言处理应用,这些都是以前无法想象但现在非常实用的人工智能功能。 回顾最后激烈的人工智能竞争形势,手机等移动设备已经成为当地深入学习的非常重要的载体。 与自动驾驶类似,终端侧使用条件复杂,组网质量无法保证,实时性要求很高,不适合所有云处理。 此外,如果终端侧能够“就地”处理原始数据,可以大大减轻传输、存储和云的压力,并能有效保护隐私。 因此,云负责训练和优化未来能够满足的模型,然后云或终端方以“云+终端”的形式执行和堆积模型,这是人工智能最受关注的形式之一。 但是首先要做的深入学习是基于云的高性能服务器或强大的图形处理器,而没有移动终端这样的东西。 一是大量的数据训练需要大量的计算力,二是神经网络算法模型本质上不同于传统软件所需的软硬件要求。 在高通公司推出第一款人工智能产品小龙820之前,还没有能够在民用移动终端上运行神经网络的产品。 当然,许多第三方深度学习程序不能直接与移动产品一起运行,或者它们的效率非常低。 目前,像Avida、谷歌和脸谱这样的巨头正与云人工智能展开一场激烈的战斗。 在终端方面,有传统的数字信号处理器知识产权工厂,如CEVA和斯皮克斯,以及定制处理器,如凯登丝。ARM在新架构中也有相关的支持。去年苹果A11仿生处理器和华为麒麟与NPU都专注于终端人工智能 然而,高通目前是跑得最远的。它在过去三代旗舰小龙平台产品中对人工智能的重视和投资,加上它在移动平台中所占的压倒性份额,使它成为人工智能的最后一道高墙。 人工智能在运行什么?人工智能和深度学习发展迅速,前景广阔。他们涌入了大量的研究机构和公司。竞争产品层出不穷。这自然需要积极甚至跨平台的比较。 正如CPU和GPU经历了相同的道路,为了衡量不同产品的性能,基准测试,也称为“运行点”,近年来开始出现在人工智能领域。 除了由国外明星等众多人士组成的MLPerf外,中国人工智能产业发展联盟(AIIA)于2017年10月正式启动了人工智能芯片基准项目。 在移动方面,最新的是苏黎世联邦理工学院推出的人工智能基准测试,它运行在安卓系统上。 基准测试类似于给学生提问。试卷需要由跨越最常用应用领域的试题组成,不同的试题被赋予不同的分数权重以获得最终总分,从而产生最公平和最具代表性的结果来衡量各种处理器的性能。 基准测试的核心是测试项目的选择和测试权重的确定。 像相机领域的DxOMark一样,好的基准测试不仅可以避免冗余的设计和测试,还需要设置者对行业的未来有足够的洞察力,这可以帮助设计者探索边界和极端情况,并在正确的方向上反映和引导行业的发展。 然而,人工智能深度学习涉及许多复杂的步骤,如模型训练和数据推理,以及深度学习本身的“捷径”性质。这个领域是理论严重落后于实践的黑匣子。人工智能基准测试仍处于行业讨论的早期阶段,目前人工智能基准测试存在许多不足和争议。 深度学习核心的训练和推理有不同的评价体系。 好消息是,在模型训练方面,虽然MLPerf的总得分仍然相对难以确定,但它已经是一个相对可信和统一的测试基准,其余主要是细节的优化。 然而,坏消息是,对于主要负责推理过程的终端人工智能来说,仍然很难建立基准测试。 首先,如何确定指数和权重?即使抛开优化程度和硬件架构等问题,也应考虑延迟、带宽和能耗。不同的神经网络模型有不同的参数,不同的设备在不同的参数下有不同的输出曲线。 如何在不同级别的设备中进行水平参考?(就像移动终端和个人电脑终端的中央处理器和图形处理器运行点还没有统一比较一样)?云和终端应用程序可以分为不同的类别,并有自己的特点 对于不同的应用,您是否需要不同的基准测试?这些分项如何分配它们的权重,它们能否统一到一个相对公平、客观和有代表性的价值?这些是由应用领域的差异和实施选择的多样性直接造成的困难。 人工智能基准测试的工作量如此之大,以至于许多运营商觉得很难在短期内进行统一的基准测试。 人工智能测试和人工智能优化中的错误回看早期的移动人工智能测试——人工智能基准测试(AI Benchmark),它的结构仍然与移动CPU测试——极客基准测试(Geekbench 4)非常相似。 在人工智能基准测试中,使用了9种神经网络模型进行测试,包括移动网络-V1、因切选项3、雷斯网络-V1。 具体项目包括2个目标识别类别,2个超分辨率,其余为人脸识别、图像去模糊、语义图像分割、图像增强和记忆极限测试。 首先,最明显的是测试项目很少,只有9个子项目。 相比之下,极客工作台有13个子项目测试,即使是只占45%的整数测试。其次,所选试验模型的参数、压力和精度要求也过于单一。 这些测试的覆盖面和准确性,更不用说人工智能测试,在覆盖面和复杂性方面不如中央处理器测试。 毕竟,现阶段人工智能的研究和应用是如此广泛,以至于即使是云中的大CPU、GPU和TPU的不同架构也无法相互区分。 高通大赦国际恩138彩票网络北京体育场工程是一个硬件和软件组件的集合,以加速实现终端侧大赦国际用户体验在小龙移动平台 关键部件包括硬件:六边形矢量处理器、肾上腺素图形处理器和氪星处理器人工智能的优化组合;以及一套软件工具和库:小龙神经处理软件开发工具包、安卓神经网络和六角形神经网络;;所有这些都旨在支持开发者和原始设备制造商在小龙内核上轻松实现和加速人工智能处理。 目前,许多领先的全球原始设备制造商、开发商、云提供商和其他生态系统供应商已经采用或宣布支持高通人工智能引擎(Qualcomm AI Engine),以优化和加速人工智能应用。 因此,在移动方面,仅仅通过现有的简单测试来测试高通公司的“中央处理器+图形处理器+数字信号处理器异步架构”与麒麟处理器(麒麟NPU)等后续产品之间的实际人工智能性能差距有点太严重了。 虽然在项目和比例上还没有达成共识,但判断人工智能性能的标准早已达成一致。 在移动方面,它涉及“性能、功耗、芯片面积和精度”这四个核心 它们分别对应于实际响应速度、功耗控制、成本控制和用户体验 当放在四维评价系统中时,不仅人工智能考试成绩有许多问题和改进空 甚至一些具有独立NPU的产品也有许多实际改进空 这里最明显的矛盾是许多人工智能场景仍然不成熟,使用率有限。如果像某些产品一样直接使用独立的NPU,除了巨大的芯片面积之外,还会导致成本增加,以及对功耗和加热的影响。投入和产出完全不成比例。 在性能、功耗、芯片面积和精度这四个基准下,最好的平衡仍然是高通公司特别优化的异构路由。 第二个误解是测试中对深入学习结果的准确性要求。 在人工智能基准测试中,两种图像识别测试的精度要求分别只有60-80%。然而,对于靠近用户端的应用,无论是手写识别还是高频图像识别和分类,无论是测试的一部分还是实际产品,这样的准确性显然不能满足使用要求。 在准确性问题上,高通在5月举行的上一届人工智能创新论坛上,展示了其与主要用于图像识别模型的ResNet50和Inception-V3竞争对手之间罕见的准确性和速度对比。 高通公司的高端小龙660/710,其精度和性能都高于竞争对手,这在优化和设置方向上明显存在差异。 在面向终端用户的人工智能中,除了速度之外,识别手写或人脸/物体识别结果的成功率将直接影响用户体验和后续使用率。 最后一个误解源于人工智能基准测试根本无法测量人工智能生态的事实。 人工智能芯片不同于通用处理器。人工智能软件的运行效率直接关系到开发人员的优化和支持,人工智能的登陆最终由开发人员完成。 市场份额低或周边生态不完整的人工智能平台在发展后期的经验差距会越来越明显。 移动终端侧人工智能平台硬件竞争的最后一个主要部分将是应用生态和协调程度的比较,这也是高通公司如此积极地与各个领域的开发者合作的原因。 众所周知的高通合作伙伴,除了上游深入学习语言和框架的脸谱咖啡(Facebook Caffe2)、谷歌天梭流(Google TensorFlow)和微软天青(Microsoft Azure)之外,腾讯的高能舞蹈室、师旷科技Face++、尚唐科技、百度杜罗斯(Baidu DuerOS)等众多应用厂商也在5月高通人工智能日活动中亮相。 具有独立NPU的SoC产品在一些人工智能基准测试中取得了极高的分数 然而,这是移动终端忽略功耗、准确率、成本和人工智能基准测试设计不完善的普遍结果,对实际使用价值意义不大。 相反,看看非常低调的高通,通过第三代小龙布局的异构人工智能路线,功耗和精度要平衡得多。高通小龙845移动平台是高通第三代小龙布局的重要组成部分。 对其在运输量、技术储备和生态建设过程中作用的界定继续强化其地位。 最终人工智能,高通仍然领先,这就是我们需要解决的现状。

发表评论