人工智能领域的成就很容易被误读和高估。这一点在人类语言处理领域表现得最为明显,在人类语言领域中,表象可能会错误地暗示出深层次的能力。
在过去的一年里,很多公司给人的印象是他们的聊天机器人、机器人和其他应用程序可以像人类一样进行有意义的对话。只需要看看谷歌的Duplex、Hanson Robotics的Sophia及其他许多故事,就会相信我们已经到了一个人工智能可以展示人类行为的阶段。
但是掌握人类的语言需要的不仅仅是模仿人类的声音或者创造出完整的句子。它需要常识和对环境、创造力的理解,而目前的人工智能趋势并不具备这些。
事实上,深度学习和其他人工智能技术已经在让人类和电脑更接近彼此方面取得了长足的进展。但是在电路和二进制数据的世界以及人类大脑的奥秘之间仍然存在着巨大的鸿沟。除非我们不理解和承认人工智能和人类智能之间的差异,否则我们将会对未实现的期望感到失望,并错失人工智能发展提供的真正机会。
为了理解人工智能与人类语言关系的真正深度,我们将场分解为几个子域来看看。
语音文字转换
语音转录是人工智能算法取得最大进展的领域之一。平心而论,这甚至不应该被认为是人工智能,但人工智能的定义是有点模糊的,而且由于许多人可能会错误地将自动转录解释为智能的表现,我们决定在这里研究它。
较早的技术迭代要求程序员经历冗长乏味的过程,即发现并编纂语音样本分类和转换为文本的规则。由于深度学习和深层神经网络的进步,语音到文本的转换发生了巨大的飞跃,变得更加简单和精确。使用神经网络,您可以提供大量的语音样本和相应的文本,而不是编码规则。神经网络发现单词发音的共同模式,然后“学习”将新的语音记录映射到相应的文本。
这些进步使许多服务能够向用户提供实时转录服务。
人工智能的语音到文本有很多用途。谷歌最近推出了Call Screen,这是Pixel手机上的一项功能,可以处理诈骗电话,并实时显示通话的文本。YouTube使用深度学习提供自动的近距字幕。
但是,人工智能算法可以将语音转换为文本,这并不意味着它明白自己在处理什么。
语音合成
语音到文本的另一面是语音合成。同样,这不是智力,因为它与理解人类语言的意义和语境无关。但它仍然是许多应用程序中不可或缺的一部分,这些应用程序以自己的语言与人类交互。
和语音到文本一样,语音合成也已经存在很长时间。我记得90年代在实验室里第一次看到计算机语音合成。失去声音的渐冻症患者数十年来一直在使用这种技术,他们通过输入句子并让电脑为他们读出来,从而与人进行交流。盲人还使用这项技术来阅读他们看不见的文字。
然而,在过去,计算机产生的声音听起来不像人类,而语音模型的创建需要数百小时的编码和调整。现在,在神经网络的帮助下,合成人类声音变得不那么麻烦了。
这个过程包括使用生成对抗网络(GAN),这是一种人工智能技术,将神经网络相互对立以创建新的数据。首先,神经网络会摄取一个人声音的大量样本,直到它能分辨出一个新的声音样本是否属于同一个人。然后,第二个神经网络生成音频数据并在第一个网络中运行,以查看是否验证它属于主题。如果没有,生成器将纠正其示例并通过分类器重新运行它。这两个网络重复这个过程,直到它们能够生成听起来很自然的样本。
有几个网站可以让您用神经网络合成自己的声音。这个过程很简单,只要您提供足够的声音样本就可以了,这远远低于老一代的技术要求。
这种技术有很多好的用途。例如,公司正在使用人工智能的语音合成技术来提高他们的客户体验,让他们的品牌拥有自己独特的声音。在医学领域,人工智能正在帮助渐冻症患者恢复他们的真实声音,而不是使用计算机化的声音。当然,谷歌也在使用这项技术,它的Duplex功能能代表用户用自己的声音打电话。
人工智能语音合成也有其邪恶的用途,它可以被用来伪造,用目标人物的声音打电话,或者通过模仿国家元首或知名政治家的声音来传播假新闻。
我想我不需要提醒您,如果一台电脑说话听起来像个人,那并不意味着它能理解它所说的。
处理人类语言命令
这就是我们突破表面并深入人工智能与人类语言关系的地方。近年来,我们看到了自然语言处理领域(NLP)的巨大进步,这也是得益于深度学习的进步。
NLP是人工智能的一个子集,它使计算机能够识别书面文字的含义,无论是将语音转换为文本,通过聊天机器人等文本界面接收它们,还是从文件中读取它们。然后,他们可以使用这些词语背后的含义来执行特定的动作。
但NLP是一个非常广泛的领域,可能涉及许多不同的技能。NLP最简单的形式是帮助计算机通过文本命令执行给它们的命令。
智能语音和智能手机AI助手使用NLP处理用户的命令。基本上,这意味着用户不必严格遵守命令的顺序,并且可以使用相同句子的不同变体。
在其他地方,NLP是谷歌搜索引擎用来理解用户查询的更广泛含义并返回与查询相关的结果的技术之一。
NLP在分析工具(如谷歌Analytics和IBM Watson)中非常有用,在这些工具中,用户可以使用自然语言语句来查询数据,而不是编写复杂的查询语句。
NLP的一个有趣用法是Gmail的智能回复特性。谷歌审查了电子邮件的内容,并提出了回答建议。该功能的范围有限,只适用于简短回答有意义的电子邮件,比如当谷歌的人工智能算法检测到预定的会议,或者发件人希望听到一句简单的“谢谢”或“我看看”。但有时,它会给出相当简洁的答案,可以节省几秒钟的打字时间,尤其是在移动设备上。
但仅仅因为一个智能语音或AI助手能够对询问天气的不同方式做出反应,并不意味着它完全理解人类的语言。目前的NLP只擅长理解意义非常明确的句子。人工智能助手越来越擅长执行基本命令,但如果您认为您可以与他们进行有意义的对话,并与他们讨论抽象话题,您就会大失所望。
用人类语言说话
NLP的另一面是自然语言生成(NLG),这是一门让计算机生成对人类有意义的文本的人工智能学科。这一领域同样得益于人工智能的进步,尤其是在深度学习方面。NLG算法的输出可以像聊天机器人一样以文本形式显示,也可以像智能语音和AI助手一样,通过语音合成转换为语音并为用户播放。
在许多情况下,NLG与NLP关系密切,与NLP一样,NLG是一个非常广阔的领域,可能涉及不同程度的复杂性。NLG的基本水平有一些非常有趣的用途。例如,NLG可以将图表和电子表格转换成文本描述。Siri和Alexa等AI助手也使用NLG来生成对查询的响应。
Gmail的自动完成功能以一种非常有趣的方式使用NLG。当您输入一个句子时,Gmail会为您提供一个完成句子的建议,您可以按tab键或轻敲它来选择。这个建议考虑了您的邮件的主题,也就是说也涉及到NLP。
一些出版物正在使用人工智能来编写基本的新闻报道。尽管一些记者编造了人工智能将如何很快取代人类作家的故事,但他们的观点与事实相去甚远。这些新闻写作机器人背后的技术是NLG,它通过分析人类记者撰写报道的方式,基本上把事实和数据变成故事。它不能提出新的想法,不能写出讲述个人经历的故事,不能写出介绍和阐述观点的专栏文章。
另一个有趣的案例研究是谷歌的Duplex。谷歌的AI助手将人工智能对人类语言的掌握能力和局限性结合起来。Duplex以非常出色的方式结合了语音到文本、NLP、 NLG和语音合成,使许多人相信它可以像打电话的人那样进行交互。但谷歌Duplex是狭义的人工智能,这意味着它将擅长执行公司演示的任务类型,比如预订餐厅或安排沙龙聚会。这些领域的问题空间是有限的和可预测的。当您讨论在餐厅预订餐桌时,您要说的话很有限。
但是Duplex并不理解对话的上下文。它只是将人类语言转换为计算机命令,将计算机输出转换为人类语言。它无法就抽象话题进行有意义的对话,而这些话题可能会带来不可预测的方向。
一些夸大了人工智能语言处理和生成能力的公司最终雇佣人类员工来弥补不足。
机器翻译
2016年,《纽约时报》杂志刊登了一篇长篇特写,解释了人工智能(更具体地说,是深度学习)是如何让谷歌广受欢迎的翻译引擎的准确性突飞猛进的。诚然,谷歌翻译已经大大改善。
但人工智能翻译也有其自身的局限性,我也经常遇到这种情况。神经网络使用一种机械的、统计的过程来翻译不同的语言。他们举例说明在目标语言中单词和短语出现的不同模式,并尝试在翻译时选择最方便的模式。换句话说,它们是基于数学值的映射,而不是翻译单词的意思。
相比之下,当人们进行翻译时,他们会考虑语言的文化和语境,词汇和谚语背后的历史。他们在做决定之前会先对话题的背景进行研究。这是一个非常复杂的过程,涉及到很多常识和抽象的理解,而这些是人工智能所不具备的。
印第安纳大学认知科学和比较文学教授道格拉斯·霍夫斯塔特(Douglas Hofstadter)在《大西洋月刊》上发表的文章中,揭示了人工智能翻译的局限性。
需要明确的是,人工智能翻译有很多非常实用的用途。当我将法语翻译成英语时,我经常使用它来加快我的工作速度。翻译简单、真实的句子几乎是完美的。例如,如果您在和不懂您的语言的人交流,而且您对理解一个句子的意思比对翻译的质量更感兴趣,像谷歌这样的人工智能应用程序可能是一个非常有用的工具。
但不要指望人工智能能在短时间内取代专业译者。
我们需要了解AI对人类语言的理解
首先,我们需要认识到深度学习的局限性,它目前是人工智能的前沿。目前,深度学习还无法理解人类语言。当有人破解代码,创造出能够像人类思维那样理解世界的人工智能时,情况可能会发生变化。但这不会很快实现。
正如大多数例子所显示的那样,人工智能是一种增强人类能力的技术,可以帮助提高或减轻使用人类语言的任务的速度。但是仍然缺乏常识和抽象地解决问题的能力,使它能够完全自动化需要掌握人类语言的学科。
所以,当您面对一种听起来、看起来和行为都很像人类的人工智能技术时,不妨看看它对人类语言的掌握有多深。您将能够更好地理解它的功能和限制。外表有时会骗人。
人工智能领域的成就很容易被误读和高估。这一点在人类语言处理领域表现得最为明显,在人类语言领域中,表象可能会错误地暗示出深层次的能力。人工智能领域的成就很容易被误读和高估。这一点在人类语言处理领域表现得最为明显,在人类语言领域中,表象可能会错误地暗示出深层次的能力。
在过去的一年里,很多公司给人的印象是他们的聊天机器人、机器人和其他应用程序可以像人类一样进行有意义的对话。只需要看看谷歌的Duplex、Hanson Robotics的Sophia及其他许多故事,就会相信我们已经到了一个人工智能可以展示人类行为的阶段。
但是掌握人类的语言需要的不仅仅是模仿人类的声音或者创造出完整的句子。它需要常识和对环境、创造力的理解,而目前的人工智能趋势并不具备这些。
事实上,深度学习和其他人工智能技术已经在让人类和电脑更接近彼此方面取得了长足的进展。但是在电路和二进制数据的世界以及人类大脑的奥秘之间仍然存在着巨大的鸿沟。除非我们不理解和承认人工智能和人类智能之间的差异,否则我们将会对未实现的期望感到失望,并错失人工智能发展提供的真正机会。
为了理解人工智能与人类语言关系的真正深度,我们将场分解为几个子域来看看。