2019里人工智能领域会出现怎样的演变呢?相比之前几年会有什么样的变化呢?
人工智能正主导着全球企业的创新——无论是大型企业集团还是年轻的初创企业。据市场研究报告《从技术和垂直行业看人工智能市场——全球机会分析和行业预测》称,2018年至2025年,全球人工智能市场规模预计将从2016年的40.65亿美元增长至1694.11亿美元,复合年增长率达到55.6%。该报告按技术、行业垂直和地区来划分人工智能市场。人工智能技术被细分为机器学习、自然语言处理、图像处理和语音识别。2016年,在营收方面,机器学习领域主导了人工智能市场,得益于人工智能行业解决方案的需求增加,预计未来几年这一趋势将会延续下去。根据Statista的数据,最大的营收部分来自面向企业应用程序市场的人工智能。
以下是对2019年人工智能领域的预测:
IBM、谷歌、微软、亚马逊以及机器学习API提供商将发布更具包容性的数据集,以应对人工智能内嵌的歧视和偏见问题
机器学习是人工智能的主要形式,已被成功应用到多个不同的领域,比如亚马逊智能助手Alexa上的语音识别,Facebook自动标记照片功能的人脸识别,无人驾驶汽车当中的行人检测,甚至基于你访问电子商务网站的记录决定向你展示鞋子广告等。在机器学习中,决策是从人类决策和标签的现有数据记录中学习的。因此,为了让计算机区分狗和猫,我们向它展示了许多带标记的狗的图像和许多带标记的猫的图像,让它学习了解二者之间的区别。这种看似无害的方法本身带来了一个严重的问题——偏见。如果我们盲目地把人类的标记和决策输入电脑,电脑可能会完全复制我们的偏见。臭名昭著的微软Tay机器人便是前车之鉴。
更糟糕但更微妙的是,来自数据本身的偏见并不能代表我们想要了解的广大群体。例如,今年早些时候,乔伊·布洛沃米(Joy Buolawumi)和蒂尼特·格布鲁(Timnit Gebru)的研究表明,在对一个人的性别进行分类的任务中,主流的商用计算机视觉产品在被灌输浅肤色男性的图像时表现最佳,在被灌输深肤色女性的图像时表现最差。如果我们训练这些分类器所用的数据集没有包含足够多的正确标记的有色人种,也没有捕捉到更广泛的文化差异(不管来自哪里),这会是一个巨大的问题。
在这些非包容性数据集上训练的机器学习模型所做的关于样本不足的人的决策显然是有缺陷的。2019年,我们将会看到拥有主流计算机视觉产品的大公司公开发布更具包容性的数据集。这些数据集将在地理、种族、性别、文化概念以及其他维度上变得更加均衡,它们的公开发布也将驱动研究者展开研究将人工智能的偏见最小化。
随着让人工智能的决策变得更容易解释的产品逐渐成为主流,医疗和金融服务领域将会更多地采用人工智能
当人工智能基于算法作出可轻易解释的决策时,生活要简单得多。例如,算法首先了解你是否头痛,然后看看你是否发烧,然后得出你患了流感的结论,这个过程是可以解释的。只要算法如何作出决定是可以解释的,无论它的预测是对是错,它都具有巨大的价值。
在像医学这样我们可能会用机器做出生死攸关的决定的领域,能够追溯理解为什么机器会给出特定的行动建议显然非常重要。在金融等领域,这一点也至关重要。如果人工智能算法拒绝向某人提供贷款,我们很有必要理解其中的原因——尤其重要的是要确保它不存在毫无缘由的歧视。随着人工智能变得越来越成功,它更依赖于一种被称为“深度学习”的技术,这种技术利用了许多的神经网络层(因此其名称带有“深度”一词)。在这些系统中,没有明确的方法来解释发生了什么,以及机器的决策原因。这个系统就像一个极其精确的黑匣子,可以接收一系列症状、测量数据、图像以及病人的状态和病史数据,并能输出高度准确的诊断结果。
例如,谷歌AI可以通过检查你的眼睛来预测你是否有患心脏病的风险!你的眼睛到底有什么毛病?没有人会轻易认为自己的眼睛有毛病!2019年,随着初创企业和大公司寻求推动金融和医疗等行业采用人工智能,将会有专门针对这些行业的商业支持系统,帮助我们反思深层神经网络,并让我们更好地解释人工智能的预测。企业将会尝试将这些预测的解释流程完全自动化,但成功的做法将会是,使得人类能够调查探究“黑盒子”,更好地理解它的决策,这样机器背后的人类可以提出自己的解释。
算法VS算法。除了“假新闻”,还会有其它领域的人工智能系统受到基于人工智能的攻击
随着生成逼真的虚假图像和视频的技术不断进步,以及欺骗机器学习算法的新方法的出现(例如假新闻)——自动驾驶汽车和其他关键任务系统将面临新的安全问题。到目前为止,公众的关注主要集中在图像、视频和音频上面——泛泛地说,就是“假媒体”和“假新闻”泛滥成灾——但在2019年,我们将看到某种攻击示范:产生令人信服但虚假的结构化和非结构化文本数据,导致机器在一些问题的自动化决策上出错,比如信用评分和从文件中提取数据。
迁移学习和模拟成为主流,帮助企业克服冷启动问题和避免高企的培训数据积累成本
大多数人工智能项目的成功在很大程度上取决于是否拥有高质量的、带标记的数据。大多数项目都死在这个问题上,因为它们通常都没有关于手头问题的现成数据,又或者很难手工标记所有现有的数据。
例如,即使是像预测客户是否会购买产品这样简单的事情,在起初没有客户的时候也会遇到冷启动问题。如果你的生意一直都没能做大,那么你就永远不会得到在利用最强大技术上可能必不可少的“大数据”。更糟糕的是,在需要专业知识的情况中(例如,给肿瘤贴标签),获得数千个数据标记的成本极其高昂。
人工智能研究的一个活跃领域是如何应对这种挑战。在只有少量数据的情况下,我们如何能用上强大的深度学习技术呢?2019年,有两种方法将在企业内得到更多的采用。第一个有效的方法是迁移学习——从一个有大量数据的领域中学习的模型被用来重新训练机器在另一个数据少得多的领域中学习。例如,Landing AI?能够通过仅仅使用少数有缺陷的产品的例子来检测生产线上目标对象的缺陷。现在任何人都可以先从从像ImageNet这样的大型数据集学习了大量关于图像的知识的模型着手,训练专门的物体分类器(比如区分损坏的汽车或房屋,自动处理保险)。这些领域也不必基于相同的数据类型。研究人员使用从图像数据库学习的模型来训练分类器,获取传感器数据。
第二种方法是合成数据生成和模拟。生成式对抗网络可让我们创造非常逼真的数据。众所周知,英伟达公司使用生成式对抗网络生成了虚拟但非常引人注目的名人面孔。自动驾驶汽车公司们还创建了虚拟的模拟场景,在这些场景中,它们能够在比现实生活中更大的距离上训练自己的驾驶算法。例如,Waymo无人驾驶汽车在模拟中行驶了50亿英里,在现实世界的道路上则仅仅行驶了8英里。2019年,企业将利用模拟、虚拟现实和合成数据来在机器学习上取得巨大的进展。而在以前,由于数据方面的局限性,这是不可能实现的。
越来越多的隐私要求将推动更多的人工智能发生在边缘设备上,大型互联网巨头将纷纷投资于边缘人工智能,以获得竞争优势
随着消费者对于将自己所有的数据都交给大型互联网公司变得越来越警觉,可提供不需要将数据上传到云端的服务的企业将享有竞争优势。业界普遍认为,产品服务必须要使用云端才能进行像面部识别和语音识别这样的昂贵的机器学习运算,但是硬件的进步和人们隐私保护意识的增强,将会推动更多的机器学习运算直接发生在手机和更小的边缘设备上,进而减少将潜在的敏感数据发送到中央服务器的需要。这一趋势还处于早期阶段,苹果等公司在移动设备上进行智能处理(运行机器学习模型),而不是在云上(例如,使用CoreML和它专用的神经引擎芯片,谷歌也已宣布推出TPU边缘产品)。2019年,这一趋势将会加速发展,移动化、智能家居和物联网生态系统将会推动机器学习发生在边缘设备上。