# 这篇文是我2015年写的那篇文章的升级版,如果你已经读过那一篇,还是建议读一下这篇喔 #
我们可以想象一下,如果机器能够像人类一样思考,将是多么可怕的一件事?
首先,细胞的工作速度远远没有芯片快,因此计算机的思考速度会是人类的千万、甚至上亿倍。这样的系统可以在几秒钟内读完整个图书馆中的书,可以在几小时内读完世界上所有的科学著作和学术论文。在解决一个实际问题时,它在一秒钟内想到的解决方案,你可能要花一年。例如在哈佛大学的实验室里,科学家让一个拥有四条腿的机器人自己去学习如何奔跑 —— 从站起来,到会走路,最后到奔跑。机器的方法很简单:将四条腿所能够组成的运动方式全部尝试一遍。仅仅过了几个小时,它就学会了奔跑。其次,它的脑容量远远超过人类。人类大脑中所能够存储的东西是有限的,所以大脑必须进行仔细的筛选。在人的一生中,我们忘掉的东西远远多于我们记住的东西。很显然,机器人没有这个烦恼,它可以同时是数学家、物理学家、语言专家、博物学家、哲学家、生物学家等等。
2016年3月,我在电脑前像看世界杯决赛一样激动的看完了李世石和 AlphaGo 的五回合大战,最终人类以 1:4 惨败于人工智能。更有趣的是,当时的围棋世界第一人柯洁曾发微博说 “AlphaGo 可以赢李世石,但是赢不了我。” 然而仅仅半年之后,柯洁也败于 AlphaGo 的屠刀之下,并在当晚发了微博说自己 “一夜未眠,感觉整个世界都变了”。其实柯洁发第一条微博的时候 AlphaGo 的工程师就曾这样回答:“就算 AlphaGo 还不是柯洁的对手,但这只是个时间问题”。 原因很简单,AlphaGo 可以在几个月里自己跟自己对弈 3000 万盘, 而柯洁一辈子可以下多少盘棋?AlphaGo 棋艺进步的速度是柯洁无法想象的。
这就是人工智能的可怕之处。也许它现在看上去还比较笨拙,但是它进步的速度是非常快的。因此几乎在所有的领域,人工智能代替大部分人类的工作恐怕只是时间问题。曾任 Google 全球副总裁的李开复博士在清华大学的演讲中就这样说到:
“今天很多的工作以后大部分都会消失,比如说翻译,虽然现在还不是做的那么完美,但是每年进步的都很快,再过几年人工的翻译可能就会非常难找到工作了。记者也同样如此,如今90%美联社的文章都是用机器来写的。几乎所有思考模式可以被理性推算的工作岗位,在有足够数据支撑的时候,都会被取代。有人说十年之内一半的工作会消失,有人说十五年之内一半的工作会消失,我觉得这些都是合理的揣测。”
其实人工智能现在已经非常强大了。大家可以在 youtube 上搜索一下 Tesla 的无人驾驶汽车在忙碌的街道上行使的视频。Otto 的无人驾驶卡车和 Google 的无人驾驶汽车更是在公路上测试了数百万英里而只出过几起事故,并且事故的原因都是被别人撞到。更让我感到惊奇的,是大家可以去 youtube 上搜索一下 Jukedeck Music。它一家用人工智能来创作音乐的公司,创作出来的音乐不仅非常好听,而且不像人类作曲家,有的曲子好听有的不好听,它创作出来的曲子都一样好听,只是风格不一样,所以我都是从第一首听到最后一首中间根本不用去切换。如果你想感受一下人工智能已经有多厉害的话,一定要去听一下。最后,就算你没有被这些曲子惊艳到,别担心,它们会越来越好听的,因为人工智能永远在24小时不间断的以你无法想象的速度学习着。
这篇文章的目的就是想跟大家一起探寻什么是人工智能。不过要想搞清楚什么是人工智能,首先要搞清楚什么是人类智能。因此我们会一起进入我们的大脑,首先探寻大脑运行的方式,一起讨论一个很有意思的话题 —— 到底什么才是我们通常所说的 “意识”、“想象力”、“创造力”,进而去破解 “灵魂” 的奥秘。
假设我们面前有一个大脑,它呈粉灰色,上面布满了沟壑,凸起的地方被称为“脑回”,凹下去的地方被称为“脑沟”。外面有一层薄薄的神经组织,它就是著名的“大脑皮层”,一般被简称为 “Cortex”。几乎所有被我们视为智能的能力,如意识、语言、想象力、数学、音乐、艺术等,都发生在这里。此刻,正是你的大脑皮层在阅读这篇文章。(让我的大脑皮层和你的大脑皮层握个爪吧)
大脑皮层中包含了大约140亿个神经细胞,也被称为“神经元”。它们排列的极为紧密,在每一立方毫米的区域内,都包含约十万个神经元。 现在,如果可以的话,请拿出 6 张扑克牌,将它们叠在一起,我们便完成了一个简易的大脑皮层模型 —— 约2毫米厚(真的很薄),一共分为 6 层。如果将这 6 层组织完全展开,其面积大约跟一张晚餐的餐巾差不多大。其它哺乳动物的皮层则要小的多,如老鼠的仅为一张邮票那么大,而猴子的则相当于一个小号的信封(只有哺乳动物才拥有大脑皮层)。
在很久以前,我们就知道了大脑中存在着分界。如果中风损伤了一个人大脑的“布洛卡区”,就会影响他运用语法规则的能力,而他的词汇量和理解词义含义的能力不会改变。如果中风发生在一个被称为“梭状回”的区域,则会影响他/她识别面孔的能力,发生米拉姐的电影《人群中的脸》中的惨剧 ~
为了完成我们的终极目标 —— 探究什么是智能,什么是意识 —— 我们必须了解一些更为复杂的内容。不过请相信我,对于我们如此强大的大脑来说,理解它们一点也不难。前文说过,大脑皮层分为6层,但并不是每一种功能都需要这么多层级。例如我们的视觉功能,就只需要四个层级,它们分别是 V1、V2、V4 和 IT(不需要记住它们的名字)。它们各自拥有不同的功能,例如V1只负责记录基本的色彩、对比度、小幅度的运动以及双眼视差(立体视觉)等。位于顶端的 IT 则负责记忆和辨认人脸、动物、工具等。这些也不用大家记下来,后面我们还会详细讲到。
在大脑中,每一个分区的每一个层级都与其它很多个分区的很多个层级之间有直接的联系。当然这也很容易理解,比如我们在走路的时候,我们的运动功能和视觉功能就必须时刻保持联系,不然不就撞墙上了吗?(当然即便如此,也总会有人撞到墙上)
大名鼎鼎的神经元就是长这个样子了(种类有很多,这是比较有名的一种):
除了细胞体之外,它还有很多线状的分支结构,称为“轴突”和“树突”。当一个神经元的轴突连接到另一个神经元的树突时,就会形成一个连接,称为“突触”。两个神经元之间的突触既可以被加强、也可以被抑制;既可以形成新的突触、也可以被断开。生物学上的知识还记得吧?这就是记忆得以储存和被忘记的原因。当一个神经细胞接收到信号后,它将会选择将这种信号(动作电位)传递(利用突触)给与它相连的哪一些细胞,让它们也产生动作电位。
还记得大脑中的功能是分区的吧?那么这是否意味着,大脑中不同功能活动区的组织结构也不同呢?因为从直觉上我们会认为,视觉和听觉在功能上有着非常大的区别。
1978年,Johns Hopkins大学的神经学家 Vernon Mountcastle 发表了他那篇著名的论文 ——《大脑功能的组织原则》。在论文中 Mountcastle 指出,大脑皮层的不同区域,不仅在外表上有着惊人的相似性,在其内部的结构上,依然非常相似。处理听觉的皮层区域和处理触觉的区域相似,控制语言的区域和控制肌肉的区域也没什么分别。那么,既然这些区域在结构上看起来都一样,那么它们在工作时所采取的模式就很可能也是相同的。因此他提出,大脑皮层是在使用相同的计算方法来完成它所需要完成的一切功能!
这无疑会让我们联想到当年达尔文在研究软体动物时所发出的著名感叹:为何所有的物种竟会如此的相似!? 是呀。真正令人惊讶的,并非物种之间的差别,而是它们的相似性!
Mountcastle 继续论述到:视觉区域之所以会看,运动区域之所以可以控制肌肉,并非因为它们的基本功能不同,而是它们的连接对象不同。也就是说,所有的大脑皮层都遵循着同一个算法。
后来,神经学家们开始动手做实验。他们发现,如果通过手术将新生雪貂的大脑进行重新连线,就可以让它的眼睛将信号传递到本该发展听觉的脑区,让耳朵将信号传递给本该发展视觉的脑区。而且手术后这只雪貂在听觉和视觉上也不会受到任何影响。由此可见,神经元在初生的时候,并没有专门负责视觉、听觉和触觉的区分。它们所采用的算法都是一样的,区别只是输入信号的不同。
为此,Wisconsin 大学的生物医学家 Paul Bach - Rita 发明了一种在人的舌头上显示视觉的装置。戴上这种装置的盲人能够通过舌头上的感觉来学会 “看”。它的原理是这样的:在被试者的前额上戴一个小型摄像机,并在舌头上放置一块电极板。这一装置能够将摄像机中图像的像素点 —— 转化为舌头上的压力点。如此一来,一个由数百像素构成的粗糙视觉场景,就可以被转换为舌头上由数百个压力点所形成的模式传递给大脑,大脑很快就会学会正确的辨认这些模式,拥有“看”的能力。2003年,曾登上珠峰的著名盲人运动员 Erik Weihenmayer 成为第一个利用这种装置“重见光明”的人。
这件事再一次证明了:通过耳朵、眼睛、鼻子、皮肤等进入大脑的输入信息,被一一转化成了同一种模式的不同序列,然后接受同一种算法的处理!
是不是让你想起了 0 和 1 呢!?
因为我们知道,无论是压力、声音、还是图像,计算机都有能力将它们转换成 0 和 1 的序列。那么,我们的大脑是如何处理这些 “信息” 的呢?也就是,那个神奇的算法,到底是什么呢?
我们知道,与计算机中的晶体管相比,神经元传递信号的速度要慢得多。神经元从突触中收集信息,然后向其它神经元传递电脉冲的速度是5毫秒一次,也就是每秒钟200次。而现在最快的计算机已经可以达到每秒钟千万亿次计算!那么问题来了!既然计算机这么强大,为什么到目前为止,在很多方面,人脑的反应却远比电脑更快呢?
原因只有一个 —— 大脑并不“计算”问题的答案,而是从记忆中“提取”答案。这些答案实际上是很久以前就被储存在记忆中的,大脑只需要简单的几个步骤,就可以将记忆提取出来。“行动缓慢”的小神经元们不仅足以胜任这项工作,并且本身就构成记忆。整个大脑皮层就是一个“记忆系统”,根本不是什么“计算机”。
这是一个非常有意思的结论,让我们多举几个例子来解释它。首先,假设我向你仍过去一个棒球,在不到1秒钟的时间里,你就会轻而易举的把它接住。但如果你想让一个机器人手臂完成同样的任务,就要复杂的多的多。
首先,它必须测算球的速度和角度,然后计算球飞行的路径,这个计算需要求解一些我们高中时学过的方程。接下来,机器人手臂上的所有关节必须协调一致的工作,让手臂移动到正确的位置。这一步骤则需要求解更多、更复杂的方程。最后,这个步骤必须重复多次,因为随着球越飞越近,机器人才能更加精确的获知它所处的位置和飞行轨迹(因为球在飞行的过程中会受到空气阻力、自身旋转和风力的影响,不可能沿着公式计算出的完美抛物线飞过来。除非机器人在此之前已经精确的知道了风力、空气阻力、球的重量以及旋转的速度与角度等信息)。所以,要接住一个棒球,一台计算机需要运行几百万次计算,以求解大量的数学方程。当然了,一秒钟内几百万次计算对机器人来说还是可以做到的,因此我们已经可以生产出这种机器人了。
但是对人脑来说,一秒钟内进行百万次的计算显然是不可能的。那么你是如何凭借记忆接住棒球的呢?当球被抛出的一瞬间,你的大脑中会发生三件事:首先,球的影像会唤起相关的记忆(这肯定不是你第一次接球吧?);其次,这个记忆会引发一个肌肉指令的时间序列(也是你之前接球时储存过的);最后,被提取的记忆会依据当时的特定情况,不断进行调整(原理我们后面会讲到)。如何接球的记忆并不是被编入大脑的程序,而是通过多年的反复练习学到的 —— 它就储存在你的神经元中,而不是基于神经元的计算。
这样,一些很有意思的现象就可以得到解释。例如,如果你将一个篮球“传球”给一个男生,他会毫不犹豫的把它接住(如果是樱木花道的话,可能只需要一只手就够了)。但如果你是将它传球给一个女生,她则很可能会躲开 ~ 原因很简单,她的大脑中没有存储过如何接篮球的记忆啊!
我曾经在耐克公司为C罗制作的纪录片中看到了一个“惊为天人”的测试:由一位球员发任意球,在球发出的一瞬间全场关灯,然后看被测试的球员能否在黑暗中将足球射进球网。结果不难猜到,普通的职业球员根本连球都碰不到,而C罗不仅可以踢到球,还能够把球踢进球门!也就是说,由于经过了大量的练习,C罗在足球离开队友脚的一瞬间,就已经可以精准的做出反应了!这显然不可能归功于计算,而只能归功于记忆。
既然整个大脑皮层就是一个 “记忆系统”,接下来,就让我们来聊聊大脑皮层的记忆模式,它们主要分为四类:
一、大脑皮层存储的是序列模式;
二、大脑皮层是以自 - 联想的方式提取模式记忆;
三、大脑皮层以恒定的形式存储模式;
四、大脑皮层将模式存储在层级结构中。
你肯定很熟悉英文字母表吧?
a、b、c、d、e、f、g ……
那么,请你试着倒着背诵它?
z、y、x,然后呢 ……?
你会发现这太难了!因为你并不经常从后往前读它。我们经常使用 “倒背如流” 来形容我们对一篇文章或一首诗的熟悉程度。不过事实上,无论你正着背了多少遍,都不可能倒着把它背出来。我们都知道,在警察审问犯人的时候,经常会要求犯人将他们讲的故事倒着再复述一遍。因为如果它是真实发生过的,犯人就可以利用其它细节回想起这些事。而如果犯人说谎的话,他就没办法将死记硬背下来的故事倒着讲一遍了。
在进入第二个特征之前,再来看一个有趣的例子:
下一次洗澡时,请留意自己是以什么顺序清洗身体的。我自己是 —— 先洗脸、然后脖子、然后上半身、然后胳膊、然后后背、然后下半身、然后脚底、最后头发。为什么我记得这么清楚,是因为我几乎每次都是按照完全相同的顺序来完成 “洗澡” 这个任务的。你是否也一样呢?如果你也是如此的话,那么请试着改变它。你会发现,虽然可以要求自己改变,但你需要时刻保持专注。因为稍一分神,就会回到你习惯的模式上去。这就是“潜意识”和“显意识”的区别啦。我们会在记忆的第四个模式中详细讨论它。
现在,我们来看看人脑记忆的第二个特征:自 - 联想。
自 - 联想是一个非常强大的系统!它会根据一些不完整的输入信息,来提取出完整的序列。
现在假设你刚刚回到自己温馨的家中。门是被锁上的,所以你推测家里没有人。这时你突然发现,窗帘下面露出了一只脚!但是你不会惊慌,因为它正是你的 TA 的右脚。此时,仅仅根据这一只脚丫,你马上就能联想起 TA 的整个样子。然后你迅速的冲到厨房,撕开两包番茄酱,将它们不均匀的涂抹在脸、衣服和一把水果刀上,然后拿着这把水果刀悄悄的走出来,站在离窗帘两米远的地方,等 TA 跳出来吓唬你吧!
以上这个有趣的例子,阐述了我们的大脑可以自动填补 “空间” 模式 —— 由一只脚丫联想到 TA 的整体。当然,它还可以填补 “时间” 模式。如果你因为某样东西,例如 A Blossom Pages Pressed —— 夹在一本书中的花瓣,想起了某个人。那么整件事的前因后果(记忆序列),包括当初把这些花瓣夹在书里的原因就会像潮水一样涌入你的大脑。
A Blossom Pages Pressed
无论何时,一个记忆片段都会激活全部的记忆序列。不论在空间上、还是时间上。这就是大脑的自 - 联想功能!因此,当我们在思考问题的时候,一个朋友的出现会让你的思绪瞬间切换到 TA 身上。你并没有主动选择这一切换,但大脑的 “自 - 联想” 模式还是会迫使你开始回忆与 TA 相关的记忆。
被这个干扰中断了思路的我们经常会问自己:“我刚才在想什么来着?” 懂得了这一点,我们便应该记住不要轻易打断别人的讲话喔!因为 TA 不是机器人,被你打断后 TA 可能就没办法继续啦!
由于我们的大脑是自 - 联想的,所以我们的思想和记忆,每时每刻都是相互关联的!也就是说,“随机” 的想法是不可能发生的。这一点可能会出乎很多人的意料,因为它与我们平常所说的 “顿悟”、或 “灵光一现” 的表述发生了冲突。其实这并不冲突,后面我们再详细讨论什么是所谓的 “顿悟”~
大脑皮层的第三个特征 —— 恒定表征,就更厉害了。
让我们举一个简单的例子。假设你现在正捧着一本书。当你移动它、或是改变光线、调整坐姿、注视页面的上方或下方时,投射在你视网膜上的光就会完全改变。你接收到的视觉输入每时每刻都在变化,而且绝不会重复。事实上,即使你盯着这本书一百年,投射到你视网膜上的模式以及之后进入你大脑的模式都不会出现两次完全相同的情况。然而,在这一百年当中,你都丝毫不会怀疑你正捧着一本书,而且是同一本。尽管接受到的信息在不断变化,但你大脑中表征这本书的模式却不会改变。
请再回想一位好友的脸。每次当你看见这张脸,都能在1秒钟之内认出她来,无论她距离你1米、还是10米。当她离你很近时,她的影像会占据你大部分的视网膜;当她离你很远时,她的影像只会占据你视网膜很小的一部分。她可以正面朝向你、侧面朝向你;或者面带微笑、或者打个哈欠;她可以在明亮的光线里,也可以在阴影中。总之,她的面孔可以以无数种方式出现在你视网膜的无数个位置上,但每一次你都能立刻知道,自己注视的是她的脸。
Most Beautiful Faces of 2014
让我们来看看,在执行这一惊人的功能时,我们的大脑中到底发生着什么。如果监测大脑皮层视觉输入区 V1(最底层,依次是 V1、V2、V4、IT)的神经元活动,实验会显示,每一张带有你朋友脸的不同影像映入你眼帘时,所引发的V1区神经元的活动都不一样。随着你眼睛的每一次注视,V1中的活动模式都会发生变化。然而,当监测你的面孔识别区时(最高层 IT),我们发现其中的细胞活动非常的稳定。也就是说,只要你朋友的脸出现在你视野中的某处(甚至是在想象中或梦中),不论其大小、位置、朝向、比例、表情、光线如何,面孔识别区的一些细胞就会稳定的保持活跃状态。
这就是 “恒定表征”。它可不仅仅局限于“视觉”。例如当你伸手在自己的包包中寻找太阳眼镜时,只要你的手指稍一触碰,就会立刻知道是不是找到了。无论接触的部位是你的指尖、还是手掌;也无论你摸到的是镜片还是镜腿。你手的任何部位只要在太阳眼镜的任何部位上滑过1秒钟,就足以让你的大脑识别出它是不是太阳镜。运动也一样。当你每次签名的时候,你所使用的笔画、角度和节奏的序列都是相同的。无论你是用铅笔还是钢笔、是用手指还是脚趾。
最后,让我们再以音乐为例。音乐中的恒定表征体现为,你能够认出以任何调式、乐器、声音演奏的同一段旋律,不论是升A调、还是D调;是钢琴、还是吉他;是女声、还是童声。这就表明,你对一首曲子的记忆,一定是与以上这些无关的。而是以音符的相对音高,或者叫 “音程” 来记忆的。也就是说,一首曲子可能是以一个高八度开始、接着降了半调、然后以一个降大三度 ……
同样,你对于朋友面孔的记忆,也一定是以一种独立于任何特定影像的形式来储存的。你凭借的是脸的相对大小、五官的位置以及皮肤的颜色等信息来记住它的,而不可能是某个周二午餐时某一个瞬间她的样子。
到这里,我们已经离 “意识” 和 “智能” 的真相非常接近了。让我们一起来推开这最后一扇门吧。
现在想象你的 TA 会在一个月之后坐火车来到你的城市和你共同生活。你当然想去车站接 TA,可是你发现那里并没有固定的列车时刻表。要怎么办呢?你没有放弃,于是每天都去火车站,想从中发现些什么模式。几天之后你发现,原来火车站每天早晨都会有一辆火车停在站台上,然后在下午的某个不确定的时间开走。过一段时间之后,一天中唯一一辆进站的火车就会到来。又过了几天,你发现了规律:每天下午的某个时刻,停在车站里的那辆火车会开走,四小时后,那辆将会载着你男友的火车就会进站。因此,虽然你不清楚每列火车出站和进站的精确时间,但你只需要在看到停在车站的火车开走之后的四小时内回到站台,就可以接到男友了。
我们的大脑,正是这样工作的。
首先,我们会在不断变化的输入流中寻找模式(Pattern),然后将已经这些模式存储为记忆。然而,只拥有这种记忆,也不足以让你做出具体的预测。也就是说,只知道列车在上一趟列车离站后四小时到达这一信息,并足以让你准时出现在站台上。为了做出准确的预测,大脑必须将对于恒定结构的了解(记忆)同最新的细节信息结合在一起 —— 只有你记录下了上一班列车的出发时间,才能够准确的预测下一班列车的到站时间。
让我们带着这个逻辑来看一下大脑的运作方式。当你看到朋友脸的第一个瞬间,你的大脑皮层会立刻从记忆序列中调用她脸部的特征序列(还记得自 - 联想模式吧?),并对接下来你将要看到的诸如嘴巴、鼻子、嘴唇、头发等细节做出预测。然后它将通过所得到的视觉信息来检验这些信息是否对的上。
也就是说,大脑是通过 “储存在记忆中的模式” 和 “当前输入信息” 来作出详细预测的。这一过程发生在大脑的每一个区域,无处不在。
有一点理解了吗?事实上,这就是 “智能” 的本质 —— 在记忆的基础上预测未来!
现在的你可能正坐在自己书房的电脑前看这篇文章,那么请你环顾一下四周,你会看到熟悉的音响、椅子、窗户、植物等。你可以在几秒、甚至一秒钟之内完成这一动作,因为你对自己的屋子很 “了解”,或者说 “理解”。
假设此时,你突然发现墙角站着一个披头散发的女人!
会发生什么?
我敢肯定你再次环顾了房间的四周,确定任何地方都没有站着一个女人之后才能继续读这篇文章 …… 事实上,哪怕只是台灯的位置发生了变化、或者桌子上多了一只钢笔,也会立刻引起你的注意。
为什么呢?
原因很简单,因为当我们在环顾四周的时候,我们的大脑事实上正在不断的利用我们的记忆(储存的模式)对我们将要看到的、听到的、和感受到的事物做出预测!绝大多数预测都是在你意识不到的情况下发生的,就好像大脑在快速的自问自答:电脑还在桌子中间吗?是的;地板还是木头的吗?是的;沙发还是蓝色的吗?是的;窗户还是长方形的吗?是的;墙还是垂直的吗?是的。当然,此时,你的大脑可能还会非常紧张的问自己:墙角还站着一个女人吗?是的 ……
如果预测和所看到的情形不符,那么我们的注意力马上就会被吸引。这种下意识的预测无时无刻不在发生着。因此如果我们突然发现窗户上印着一张人脸的话,一定会被吓得跳起来。因为它超出了我们大脑的预测。
再举个非常常见的例子。当我们在下楼梯的时候,偶尔会遇到最后一步踩空了的情况。因为我们的大脑预测接下来会是一个台阶,所以调用的肌肉运动序列是下台阶的序列,大脑的触觉预测也会是踩在台阶上的触觉序列。当预测落空时,我们就会有明显的“感觉”。
现在,再让我们回到“理解”这个词儿上。何为理解呢?不正是我们可以对其作出正确的预测吗?
当我看到一本书的一角,我就可以预测它是一本书,我还可以预测到我读了这本书能够得到什么东西。还有许许多多的关于这本书的预测 —— 对其的每一个特征,我们都能够作出正确的预测。所以我们说,我们“理解”了“什么是一本书”。当我们不能作出预测时,例如对站在墙角的女鬼和印在窗户上的人脸,我们就必须承认我们“不理解它们”。
我们必须清楚,预测是整个大脑皮层的主要功能和智能的基础。大脑皮层就是无时无刻不在预测的器官,只不过大多数情况下,我们都意识不到它而已 —— 直到这种无意识的预测与输入的信息不符时 —— 我们就会突然意识到,桌子上怎么多了一只钢笔?
当我们与人交谈时,经常会提前知道对方将要说什么 —— 至少我们自己这样认为。例如,如果我们听到了“人之初,性本 ……” 我们的大脑马上就会在对方说出“善”字之前,提取我们脑中有关三字经的记忆。当然,我们并不总能预测准确,例如我们听到的也可能是“恶”这个字。当我们不能准确预测时,我们就会感到吃惊,注意力就会被吸引,此时你可能会马上反驳对方:“人之初怎么会是性本恶呢?”
再举一个例子。如果我们俩现在正在一家餐馆里吃饭,当我对你说:“请递给我 ……” 无论我接下来说的是“盐”、“辣椒”、还是“芥末”,你的大脑都不会感到惊讶,因为这些都是在它的预测范围内的。而且这样的预测完全是“浅意识”的。但假如你听到的是“请递给我人行道。”你马上就会感到惊讶了。
我们的视觉也一样。当我们注视朋友的左眼时,我们在无意识中就会预测她右眼的位置、颜色、大小等。但假设我们在右眼的位置看到的是一个鼻子,这个预测就被打破了,我们也会吓的从沙发上掉下来。事实上,伴随着每一次扫视,我们的大脑每秒钟都会对接下来将会看到的东西作出很多次预测。一旦预测出错,马上就会引起你的注意。
因此,“智能”的本质就是预测,“理解”的本质也是预测,我们的大脑无时无刻不在利用记忆进行预测。大多数情况下,我们是意识不到这种预测的,它只存在于我们的“潜意识”里。只有少数情况,我们才会动用“显意识”来进行预测。当我们身处在相同或类似的情境下时,过去的记忆就会被唤醒,并引发对接下来可能会发生的事情的预测。因此,当记忆系统将预测反馈给听觉、视觉和触觉等感觉系统时,智能和理解就出现了!这些预测便是理解的本质。
理解一件事情,或者说意识到一件事情,就意味着你能够对它做出预测。
而所有“无意识/潜意识”和“有意识/显意识”的预测,就构成了我们的“思想”,当它们与感觉器官的信息输入相结合/对比之后,就形成了我们的“知觉”。我们将这个体系称之为“记忆 - 预测框架”。
大家有没有做过智商测验呢?大部分的智商测验题都是这个样子的:给你三个数字,例如 2、4、6,请问第四个数字是什么?你肯定知道答案是 8 。那么 1、8、27 呢?经过短暂的思考,你也会得到答案是 64 。为什么智力测验题都是这个形式呢?因为所谓的人类智能就是从繁杂纷乱的世界中寻找模式(Pattern),并利用这种模式去预测未来的能力。
接下来,我们要更深一层的去了解大脑的运作方式。了解什么是记忆的第四种特点 —— 大脑皮层将模式存储在层级结构中,以及潜意识和显意识产生的原因。
我们的大脑,就是一部不断在进行记忆与预测的机器。因此我们将大脑的工作模式称为“记忆 - 预测模型”。
那么它具体是如何识别一张人脸的呢?
首先,在视觉区的最低级,V1区的细胞会首先对来自视网膜的输入模式产生反应。比如,当视野中出现肉色的时候,某些神经细胞就会被激活。它可能是照片中出现的颜色,也可能是一张人脸的一部分,但对于V1区的细胞来说,它不需要知道这些。它只需要知道我看到的是肉色、还是黑色;是直线、还是曲线;光线是明亮的、还是昏暗的,就可以了。而且,你的每一次扫视,V1区活跃的细胞都会不一样,因为每一次映入你眼帘的东西都不会完全相同。
现在我们再来看看最高级别的IT区。例如,当出现一张“可能的”人脸时,一些细胞就会开始活跃。于是它们开始调用记忆,将预测结果(首先将预测这是不是一张真的人脸 —— 例如有没有鼻子、有没有眼睛、大小比例、是不是3D立体等等)向下传递。
那么IT下面的V4区呢,它将根据预测的指令继续向下下发指令,例如 —— 判断是不是鼻子?那么它的下发预测指令可能是高度如何?宽度如何?有没有两个鼻孔?有没有鼻梁?等等。
V4下面的V2区呢,它的任务是判断高度、宽度、鼻梁与鼻孔等。那么它的下发预测指令将可能是这一区域的颜色是什么样的,那一区域的颜色是什么样的 —— 只有这样颜色、线条和对比度所组成的形状,才符合一个鼻子的特点。
V1接收到了V2的预测之后,开始将新接收到的信号进行处理,并向上传递。仅仅在这一条线上,传递的路径将是 V1 —— V2 —— V4 —— IT —— V4 —— V2 —— V1 —— V2 —— V4 —— IT —— V4 ……
为了判断是不是真的有一张人脸,以及这张人脸是不是我们朋友的脸,我们的大脑必须不断的进行信号 —— 预测 —— 信号 —— 预测的动作。而且每一个层级结构中的细胞,都有自己相对应事物模式的记忆!例如 IT 层级可能只知道一张人脸是应该有鼻子的,但它并不知道鼻子是什么样子的。V4则知道鼻子应该包含鼻孔、鼻梁等,但又不知道鼻孔和鼻梁是什么样子的。以此类推。
为什么我们的大脑会采取层级化的模式来存储记忆呢?就是因为我们的世界本来就是层级化的呀。
例如一张人脸,那么它就会包括鼻子、两只眼睛、嘴巴、额头、下巴等;那么眼睛呢?它就会包括瞳孔、睫毛、眼眶、虹膜等;那么瞳孔呢?它肯定也是由颜色、大小等特征组成的。例如你看到一个脸盆大的白色的圆圈,你肯定不会认为它是瞳孔,存储瞳孔的记忆就不会被首先调用(那里的细胞不会活跃起来)。
椅子、汽车、国家等等概念,都是如此。
现在你正在阅读这篇文章,你的眼睛正在注视着这一行字。但你大脑皮层的高级区域正维护着关于你家里的表征,低一层级的区域正维护着房间的表征,再低一级的正维护着电脑的表征。因此,虽然你此刻意识不到这一切,但你的大脑很清楚 —— 你是在自己家里的书房里,通过电脑看这篇文章的。只有这样,你的注意力才会更多的被用在工作上。因此我们总会去找自己熟悉的地方学习。即便是图书馆,我们也总是坐在自己熟悉的一片区域里。
而且,真实世界的概念可以是具体的,例如手机、电脑、人脸,也可以是抽象的,如一个字或者一个理论。大脑是以相同的层级结构的组织方式来处理抽象对象和具体对象的。如果一个大脑皮层区域发现,它能够通过一系列物理运动准确可靠的获取输入的模式序列,并能够在接收到类似模式后准确的预测它们,大脑就会认为它们存在因果关系。例如对歌曲旋律的记忆 —— 当你反复听一首歌几遍之后,就会很容易跟着旋律自己唱起来,因为你已经可以预测出下一个音符和歌词了。
当然了,大脑做的工作远比这个要多。举个例子,当我们刚出生的时候,我们会看到很多人脸。只看到一两张的时候,我们不可能“认识”它。但是当看到越来越多人脸的时候,我们的大脑在这个过程中就会不断的预测 —— 人是否都是有两个眼睛、一个鼻子、一张嘴呢?如果大脑每一次预测都是正确的,那么次数一旦多起来,大脑就会“记住”人脸的模式(Pattern)。
那我们现在在辨认人脸的时候,难道还会刻意的去数眼睛的个数、去检查有没有鼻子吗?当然不会,因为我们已经辨认过太多的人脸,我们的“潜意识”就足够帮助我们解决这样的问题了。
如果是特别亲近的人呢?我们也会一眼从人群中将 TA 们找出来,而不用去仔细的回忆其脸部特征。但如果是一位我们不常见的人,那么在辨认其脸部特征时,我们就要花上一番功夫了。
这时候我们就必须调用“显意识”。那么大脑在运用“潜意识”和“显意识”时有什么区别呢?
假设你现在正在唱一首自己熟悉的歌,唱完上一句的时候你不用先想一想下一句的歌词,因为“潜意识”已经帮你完成了这个任务。但假设你现在听到了一个没有听过的旋律,你的底层听觉细胞就好像在说:“啊呀,我听到了一个和上层给出的预测不符的音符序列。”于是这些细胞就会将这个新的音符序列上传给上面的细胞,如果所有的细胞都没办法识别这个音符序列的话,那么你就会意识到 ——“我正在听一首从未听过的歌曲。” 然后开始记忆这首新的曲调。
也就是说,当预测与记忆不符时,信号就会向上传递,如果在大脑中没有任何相关的记忆序列的话,你的“显意识”就会被调动。例如,当你看一张人脸的时候,你不会有意识的去数(但你的潜意识在数)他的眼睛或者鼻子的数量。但如果你发现他只有一只眼睛,那么你的注意力马上就会被吸引。但是此时你的大脑并不会陷入混乱,因为存储在大脑其它地方的记忆马上就会提醒你:只有一只眼睛的人,也是可以存在的(独眼巨人什么的 ...)。
所谓顿悟的感觉,或者我们常说的“灵光一现”,也是因为这一点。
假设你正在看一个数字序列,例如 1、8、27,如果你的数学不是很好的话,那么乍一看上去,似乎它毫无意义可言。当大脑皮层发现任何“现成的”记忆都没办法立刻匹配输入信息的时候,就会产生困惑(好像看到了独眼巨人 ~)。
注意!此时,你的大脑皮层就会开始调用你过往的各种各样的记忆,来试图匹配这样一串数字。在此期间,你的大脑完全投入到理解这串序列上来了。它会不断的根据以往的记忆做出各种各样的预测,试图与底层细胞给出的反馈相匹配。你虽然不知道 1、8、27 之间有什么联系,但你知道 1、2、3 之间的联系,并且你也知道1的立方等于1;2的立方等于8;3的立方等于27。于是最终,你利用自己的记忆做出了一个准确的预测 —— 64。这个预测会从大脑皮层的顶层开始向下传递。在不到1秒钟的时间内,每个区域都会得到与输入信息匹配的序列,不再有“不符”向上传递。
于是你顿悟了!
但对于数学家来说,他/她的大脑中可能早就存储过类似的序列了,因此对 TA 来说,只需一眼,就能知道答案。就像你计算 1+1 一样,根本不需要调用“显意识”,因为信号在传递的过程中,根本就不会发生“不符”的情况!
我们发现,那些顶尖的职业足球运动员在带球高速奔跑的过程中,都是不用低头看球的(例如梅西!)。对他们来说,带球的动作早已变成了潜意识,这样他们的显意识就可以用来观察球场上队友的跑位和防守队员的站位。有一次亨利在接受采访的时候说到,自己无时无刻不在思考现在最应该做的是什么(是停球、还是凌空射门、还是转身、还是传球等)。此时记者问了一个特别好的问题:“也就是说,你只需要思考自己现在应该做什么,而完全不用理会自己应该怎样做?” 亨利笑着答道:“当然了 ~”
也就是说,所有技术层面的东西,例如如何停球、如何射门、如何传球等,早已变成了亨利的潜意识 ~ 所以显意识就被解放出来了。(没错!我也算半个球迷 ~ 每年看 6~7 场比赛:皇马VS巴萨的两场联赛和巴萨欧冠进入八强之后的 4~5 场比赛 ~)
U talking to me?
所以说,通过训练,你也可以达到这种境界!
—— Just Do It!
在继续进行下去之前,我们再来通过一个例子回忆一下大脑在最简单的情况下是如何运作的。假设你记住了林肯的《葛底斯堡演讲》,现在你想把它背诵出来。此时,你大脑皮层的高级语言区,就会将早已存储好的表征葛底斯堡演讲的模式序列提取出来,然后展开成短语序列的记忆,传递给下一级低层区域。在下一个区域,每个短语又被展开成关于单词序列的记忆。这时,被展开的模式分别被发送至听觉和运动皮层。沿着运动皮层,每一个单词被展开成关于音素序列的记忆。最后,由最底层的运动皮层向肌肉传递按音素展开的肌肉指令序列,发出声音。与此同时,你的听觉系统也已经预测好了将要听到的单词:
Four score and seven years ago ……
而且,在记忆的时候,我们不需要分别为葛底斯堡演讲中的 “I Have A Dream” 和马丁·路德·金的 “I Have A Dream” 各学一组完全不同的单词。层级序列结构中,不同区域之间会共享和重复利用低层级对象的。这一点和计算机编程中的 “面向对象编程” 一模一样。
通过上文的叙述,我们已经知道了人类是如何进行“学习”的。也就是在面对任何事物时,不断调用记忆来预测,然后将所接收到的信息与记忆给出的预测相比较 —— 如果结果匹配,则记忆增强;如果结果不匹配,则产生新的记忆,也就是“学习”。
有关记忆,我们还应该了解一下海马体(Hippocampus)的作用。
当信息从我们的眼睛、耳朵和皮肤流入大脑皮层时,大脑皮层的每个区域和每个层级都在试图“理解”这些信息(利用记忆 - 预测模式)。如果我们理解了所输入的信息,那么它就会说:“喔,这个我懂,不就是 1+1 嘛。” 那么它就不会再向上传递这些细节了,所以你也意识不到这个过程。如果一个区域无法理解当前的信息,比如“623+215”,它就会向上传递,直到最后每个高层区域都说:“我不知道这是什么。”结果就是,你的“显意识”被调动起来了,你开始从过去的记忆中寻找解决问题的方法。比如 —— 加法。虽然你不能一下子知道 623+215 是多少,但你知道这是一道加法题,并且你也掌握了加法的法则,因此你会计算 6+2、2+1、3+5,于是得到了 —— 838。
现在我们就得到了一条新的记忆:623+215=838。这样一条新的记忆就会进入海马体,并在那里储存起来。在海马体中,这样的信息不会长期保存在那里,在接下来的一段时间内如果都你没有计算过 623+215 ,它就会彻底的消失。同理,如果你在接下来的一段时间内天天计算 623+215=838 的话。那么下次看到这个算式,你就能一眼得到答案啦。
这就是海马体的作用。因为如果我们每天所接触到的所有新东西都被储存在大脑皮层的话,那么我们的脑袋早就爆掉了 ... 所以海马体会通过这样一种方式来筛选出那些重要的记忆,让它们存储在大脑皮层里。那么什么才是重要的呢?当然是你要经常用到的记忆啦!所以这个逻辑是多么的聪明呀!当然了,对计算机来说,它完全可以抛弃海马体,而将所有新学到的东西全部存储起来,因为它的脑容量几乎是无限的。
现在我们假设一个记忆在大脑皮层中存储的最简单的一种模式 —— 两个神经细胞和它们之间形成的一条突触(事实上是一片细胞之间的无数突触)。当记忆存储在大脑皮层中时,两个神经细胞之间就会形成一条新的突触。那么当记忆被调用时,突触之间动作电位的传递效果就会加强;如果记忆长时间不被调用的话,突触就会慢慢消失,你也会慢慢忘掉曾经的记忆。
好啦!你已经搞懂了什么是“智能”、什么是“意识”、什么是“创造力”了吗?
现在,请想象你在一家陌生的餐馆就餐。你想洗一下手,即使你从未进入过这家餐厅,你仍然会运用记忆来预测这家餐馆很可能有洗手间。而且,你还知道洗手间的标志是什么,并且分辨出男性和女性的符号。因此,虽然你从未来过这家餐馆,但你仍然能够通过调用 “记忆 + 预测” 的手段,找到洗手间。这样一种行为,正是一种创新行为。它通过记忆 - 预测模型来预测未来。虽然我们一般不会认为这是一个创新行为,因为它太普遍了,但其实它就是。
创造力,就是将你的经历和一生所学的所有模式进行混合和匹配而已。所谓的“发散思维”,其实不过是你了解的东西比较多而已,让我用一个自己的经历举个例子。
曾经在一次聚会上,有朋友对大家说,他会出一道题测试大家的发散思维能力,我们可以询问任何问题,他只回答 yes or no。题目是警察在沙漠中发现了一具尸体,尸体的手里拿着半根竹签子,请问发生了什么?
没过多久,我就得到了答案 ——
飞机没有油了,为了能够坚持到机场,飞机必须减重。于是大家抽签,抽到的人跳机自杀。
朋友很惊奇的望着我,“果然,女孩子的发散思维比较强。”
我当场就提出了质疑,告诉他们,我能够想到这一点是因为我曾经读过一个故事。故事讲的是两兄弟 Jack 和 Bob 驾驶一架飞机正在大海上飞行,后来油不够用了,于是哥哥 Jack 跳机自杀,保住了弟弟一条命。
看上去,似乎问题的题目和答案之间有些不着边际,看似是在考验大脑发散思维的能力。事实上,大脑哪有什么发散思维呀。我们必须有足够的积累,才能够从过去的记忆中,找到解决现在所面对问题的方法。事实上,当我们了解了大脑的运作模式 —— 记忆 - 预测模型之后,我们就会发现不管是“知觉”、还是“意识”、不论是“想象力”、还是“创造力”,这些过去我们认为机器人不可能拥有的东西,都已经被模式化了。
例如,你是如何“意识到”自己正在这间屋子里的?
就是因为你在不断的做着记忆 - 预测的游戏。你预测到了空调的风会吹到自己身上,你还预测到了它会是什么感觉 —— “啊 ~ 果然是这样。”你预测到了桌子上摆放的是一本书,翻开看看 —— “果然没错。”
你是如何理解“自由”这两个字的?不正是能够预测到在拥有了自由之后会发生什么吗?如果去掉所有的预测,你对这两个字的含义也会变得一无所知。“想象力”呢?它更是基于我们记忆的一种预测啦!
由此可见,那些所有我们认为属于灵魂的东西 —— 意识与智能,都不过是这种记忆 - 预测模型所给出的结果而已,它仅仅是一种算法。
接下来,再让我们来看看一个非常有意思的问题:我们的大脑是如何实现恒定表征的?
还记得什么是恒定表征吗?
让我们举一个简单的例子。假设你现在正捧着一本书。当你移动它、或是改变光线、调整坐姿、注视页面的上方或下方时,投射在你视网膜上的光就会完全改变。你接收到的视觉输入每时每刻都在变化,而且绝不会重复。事实上,即使你盯着这本书一百年,投射到你视网膜上的模式以及之后进入你大脑的模式都不会出现两次完全相同的情况。然而,在这一百年当中,你都丝毫不会怀疑你正捧着一本书,而且是同一本。尽管接受到的信息在不断变化,但你大脑中表征这本书的模式却不会改变。
请再回想一位好友的脸。每次当你看见这张脸,都能在1秒钟之内认出她来,无论她距离你1米、还是10米。当她离你很近时,她的影像会占据你大部分的视网膜;当她离你很远时,她的影像只会占据你视网膜很小的一部分。她可以正面朝向你、侧面朝向你;或者面带微笑、或者打个哈欠;她可以在明亮的光线里,也可以在阴影中。总之,她的面孔可以以无数种方式出现在你视网膜的无数个位置上,但每一次你都能立刻知道,自己注视的是她的脸。
让我们来看看,在执行这一惊人的功能时,我们的大脑中到底发生着什么。如果监测大脑皮层视觉输入区 V1(最底层,依次是 V1、V2、V4、IT)的神经元活动,实验会显示,每一张带有你朋友脸的不同影像映入你眼帘时,所引发的V1区神经元的活动都不一样。随着你眼睛的每一次注视,V1中的活动模式都会发生变化。然而,当监测你的面孔识别区时(最高层 IT),我们发现其中的细胞活动非常的稳定。也就是说,只要你朋友的脸出现在你视野中的某处(甚至是在想象中或梦中),不论其大小、位置、朝向、比例、表情、光线如何,面孔识别区的一些细胞就会稳定的保持活跃状态。
这其中的算法到底是什么呢?首先,请问你能认出这是谁吗?
如果你能认出来的话 ~ 那么大概你和我一样是一位科学爱好者 …… 恭喜恭喜!如果你没有认出来也没关系,那么这张呢?
如果这张你还认不出来的话 ~
Maybe you shouldn't read the rest of this paper ...
很明显,这两张图和其本人 —— 爱因斯坦的区别还是非常大的,为什么你还是能够认出来他就是爱因斯坦呢?原因在于我们的大脑在储存模式的时候,是会给每一个细节分权重(weight)的。对于人脸来说,权重最大的就是轮廓,眼睛、鼻子、嘴巴的个数以及位置。如果这些最重要的东西符合标准了,那么我们的大脑对于剩下的细节是否对得上就不会太去在意了。这就是为什么不管你从哪个角度,在什么光线条件下看你桌上的那本书,你都知道它就是那本书的原因。因为几个权重最大的东西 —— 可能是书的形状,质地等并没有随着观察的角度和光线条件发生变化。另外,我们还会给予某些特别的东西较高的权重,例如第二张图中爱因斯坦的 “吐舌头”。这样,当我们看到一个人像这样吐舌头的话,我们首先会想到爱因斯坦。
那么这些权重是如何分配的呢?了解统计学的朋友肯定清楚,如果我们曾看过100张爱因斯坦的照片,有80张都是这张吐舌头的话,那么 “吐舌头” 的权重当然就会变得非常高。人脸也是一样,虽然我们看过千千万万的人脸,在细节方面肯定各有不同,但是轮廓、眼睛鼻子的位置这些东西都是不会怎么变化的,所以它们在我们识辨一个东西是不是人脸过程中的权重当然也就变得非常高了!
读单词也是一样。例如 determnation,虽然我拼错了 ~ 应该是 determination,但是你还是知道我想表达什么。原因就是我们在记忆 determination 这个单词的时候会给予不同的细节以不同的权重。少了个 i 不重要,但是如果我把它写成这样 etemination ~ 你大概就会想 “这是德语?” 为什么少 i 你就能认出来少 d 你就认不出来了呢?原因就是你大概从没见过少 d 的 etermination,而已经见过无数次少 i 的 determnation 了。
因此,我们的大脑正是通过给予不同的细节以不同权重的方法来实现 “恒定表征” 这个功能!
文章写到这里,其实我们发现科学家们已经破解了人脑智能的几乎全部逻辑。当我们刚刚生下来的时候,虽然我们对这个世界还一无所知,但是我们的大脑已经在不断的从它所见到的东西中寻找固定的模式(Pattern)并尝试着预测未来了:
“如果我的妈妈可以说话,也许我也可以?”
“如果我的妈妈可以走路,也许我也可以?”
人工智能其实也一样。我们把人类的大脑称为 “神经网络 (neural network) ”,而人工智能的技术就被称为 “Artificial Neural Network,人工神经网络”。它的算法跟人类大脑的算法几乎是一模一样的。例如我们可以先给 AI 一大堆照片,并且告诉它这个就叫做 “狗” (这个过程还是需要的,就像妈妈或者老师告诉我们这个叫做 “狗” 一样)。然后 AI 会通过一系列非常复杂的统计学算法来寻找模式,并给予不同细节以不同的权重(这个过程是非常非常复杂的,毕竟我们想要复制一个经过了上亿年进化的人脑算法还是很难的,这就是为什么人工智能的博士生起薪可以达到200万美元的原因 ~ 如果你现在读高中的话, 我想你已经知道了未来最赚钱的工作,哈哈!If you became big some day, don't forget to put me on the board)。最后,再不断的给它新的数据去训练正确率。
如图:
人工智能算法
当然,没有什么东西是完美的。人工智能还是有出错的时候,但是在2016年,人工智能识别事物的准确率已经达到了97%,首次超过了人类的95%。因此,虽然现在只有极少数行业的人工智能达到了人类的水平,但是人工智能的学习速度是人类无法想象的。所以只要给它足够的时间,在很多行业超越人类肯定只是时间问题。
人工智能不仅学习的速度远远超过人类,解决新问题的能力也远远超过人类。还记得我在文章开篇写的那句话吧:它一秒钟内想到的解决方案,你可能要花一年。例如数学上有一个著名的被称为“双摆难题”的问题。如图:
我们可以发现,双摆的运动轨迹极为复杂 ~
但它又是遵循物理学定律的,因此一定有一个方程可以用来准确预测它的运动轨迹。于是科学家们发明了一个名为 Euruka (阿基米德的 “我知道了”)的软件。只用了很短的时间,这样一个公式就呈现在了我们眼前:
从图中公式下方的那些公式里,我们可以看到计算机的思维过程。这位发明 Euruka 的数学家在节目中说到,在可预见的未来,人类很可能会退出科技创新领域,因为机器人解决问题的能力比我们强太多啦。
最后,再讲一个小故事。
有一天有个好友问我,“你觉得应该如何教育下一代小孩儿呢?”
在表示完 “我才二十几岁而且根本没有生孩子的打算我怎么能知道呢 ……” 之后,我跟她这么说,我觉得最重要的就是如何让 TA 能够早一点体会到这种紧迫感。相比于 TA 来说,我作为上一代人都已经天天在害怕自己的工作会被 AI 所代替(甚至有时候都会想去读一个计算机博士学位算了),我都不知道 TA 长大后所要面对的将是一个怎样的竞争环境。
有关 AI 将会代替多少工作的问题,我也思考了很久,并且读了很多专业分析的文章(例如《经济学人》的报告、麦肯锡的报告、白宫的报告等等)。大家的结论都差不多,重复性的工作被代替的可能性最大,每天面临新问题的工作被代替的可能性最小。我把它称为 “一朝会开车,终身会开车” 的工作被代替的可能性几乎是 100%。但是后来我觉得,难道有什么工作不是这样的吗?例如作曲这种东西,虽然看似每天都在干着 “创造性” 的工作,但其实作曲的方法并不会改变,依然属于 “一朝会作曲,终身会作曲” 的职业。所以我觉得除非这项工作环境中的规则本身是一直在变化的,才会导致这项工作不会被 AI 所取代。而这样的工作是非常非常少的,大概也只有企业的高管们,它们所面临的环境才是不断在变化的,例如云计算、区块链这些东西的出现,本身就在改变着企业的生存环境,因此过去数据恐怕就没什么用了。当然,还有一个就是政治家 ~ 因为我们肯定是不敢把 AI 选成总统的,那不就成了《终结者》里的 “天网” 了吗 …… 它直接发射核弹怎么办?
如果你从头到尾读了这篇文章的话,你应该知道其实 AI 和人类大脑的算法是一样的,你怎么学习它就怎么学习,你怎么想问题它就怎么想问题。只是它学习和思考的速度都是你无法想象的。所以在我看来,其实真的很难有太多的工作不会被 AI 所取代,只是个时间问题。
还有,很多报告都将比方说护士列为不太会被 AI 取代的工作,原因是人们还是会想要一些 human touch ~ 尤其是在生病的时候。不过在我看来,其实这是因为我们现在生活中的 AI 还比较少,所以我们还不习惯跟 AI 进行交流。例如当你可以对身边的手机说 “Hey, Siri, plz remind me to do xxx on Friday at 2 p.m.” 的时候,你还一定要像以前一样非要打个电话给自己的秘书然后让她提醒你吗?在这种情况下,你还觉得 human touch 真的那么重要吗?更不用说你的秘书搞不好还会忘记呢!而 Siri 可是不会忘记的!
很久以前人们都是去银行取钱,现在都在 ATM 取钱了,也没见有人抱怨 ATM 没有 human touch 吧?同理,现在如果你有五万美元要理财的话,真的不需要什么理财经理来帮你了。人工智能的 Robo Advisor 完全可以胜任这项工作。当理财经理的佣金从 1% 下降到 0.05% 的时候,你还会介意它没有 human touch 吗?当然,肯定还是有人介意的,就像现在还是有人去柜台取钱一样,但是绝大多数的工作肯定还是会被 AI 所取代的。KPMG 之前给出的一份报告就预计到 2030 年,大多数银行的分支机构可能就会不复存在了(变成一个城市只有一个,去服务那些例如资产超过千万的客户,这些人的理财要求由于比较复杂,所以还是需要人来服务的)。
我还看过有人在 TED 演讲中提到,两百年前的工业革命让90%的农民都失业了,他们不是照样在城市中找到了工作吗?所以,是的,AI 会替代掉很多工作,但是人们还是会创造出新的工作的。历史确实是这样,但是区别还是很明显的。因为工业革命只是改进了工具,我们依然需要人来操作这些工具,例如马车被汽车所取代,马车夫可以变成司机呀!但是汽车被无人驾驶车所取代,司机去干什么呢?
AI 不是工具,AI 本身就是最终解决问题的那个 “人”。例如电脑的发明可以让人更快的收集知识,但是交易的决策还是由人做出的。然而现在已经有很多公司在开发完全不需要人的 AI 交易程序,它们自己从海量的金融数据中寻找可以赚钱的模式。如果它们最终能够不断从市场中赚钱的话,我们作为人甚至都很难知道它们到底是如何赚钱的。就像 AlphaGo 无法给你解释它为什么要走这步棋一样。AI 是一个完全独立于人,并且根本不需要人的东西(除了少数开发它的工程师)。
而且最重要的是,因为人工智能的思考和学习的方式和人非常的接近,你又怎么保证未来创造出的工作只有人可以干而 AI 不能干呢?
我还要提醒大家的是,当我说 AI 代替人类工作的时候,我的意思肯定不是 100% 的代替,当然还是会有大量的工作需要人来干的,但是问题在于,哪怕只有 20% 的人失业都会对整个社会造成可见的影响。次贷危机美国可是只有10%的人失业喔。20%的人失业就是现在的希腊,看看希腊的状态吧。所以这件事真的让人压力很大。
当然,十年二十年之后的事肯定是谁也说不好的,我也有可能判断错误。也许人类真的创造出大量新的 AI 做不了的工作也说不好,所以也不用很悲观哈。我们生活在这样的时代还是很有趣的,一方面摆脱不了生活的压力,但另一方面科技的更新换代也让我们的生活越来越轻松。我是真的很期待自动驾驶车普及的那一天啊!!
—— 献给大美女 Ivy
❤ 转载请注明来自 Murph丶璇 的微博以及原文地址 ❤
Cos i love Ivy.
来自 http://weibo.com/ttarticle/p/show?id=2309404093462692674036