张钹院士:走进“无人区”探索人工智能之路
4月23日晚7点,人文清华讲坛,中国人工智能奠基人、清华大学计算机系教授、中国科学院院士张钹发表演讲《走进“无人区”-探索人工智能之路》,为大家解读人工智能的发展历程,指出实现通用人工智能任重道远,提醒大家要在人工智能热中保持清醒进行冷思考,中国要大力加强基础理论研究,聚天下英才而用之,坚持不懈地努力。
张钹,清华大学计算机系教授,中国科学院院士,清华大学人工智能研究院名誉院长。2011年德国汉堡大学授予自然科学名誉博士,获2014年度CCF(中国计算机学会)终身成就奖,2019年度吴文俊人工智能科学技术奖最高成就奖。他从事人工智能、人工神经网络和机器学习等理论研究,和模式识别、知识工程和机器人等应用技术研究。
人工智能的两条路径
迄今为止,全世界对于“什么是智能”尚无统一认识,但经过多年的探索,人工智能已然走出了两条道路。一条道路是唯物(行为)主义学派,另一条道路是唯心(内在)主义学派。
1.唯物主义学派
这个学派的主张是用机器模拟人类的智能行为。“智能”与“智能的行为”是两个完全不同的概念。“智能”在我们大脑里,人类至今仍对其知之甚少;“智能的行为”则是智能的外部表现,可以进行观察和模拟。因此,行为主义学派人工智能追求的目标是机器行为与人类行为的相似性,而非内部工作原理的一致性。目前人工智能的主流是机器智能,这种人工智能与人类的智能只存在行为相似,并非完全一致。
2.唯心主义学派
人工智能另一派,我们称之为内在主义学派或唯心主义学派。它主张必须用机器模拟人类大脑的工作原理,这样才是真正的智能,即类脑计算。这两个学派不存在谁对谁错的问题,因为大家按照不同的思路去走人工智能的道路。前者主张除了人类这条道路外,机器或其它方法也可以走出一条智能的道路;后者主张走向智能道路只有人类这一条,这两个目前都处于探索阶段。
人工智能的三个阶段
从1956年到现在,人工智能是我们现在遇到的非常年轻的领域,因为它的历史不到70年。这个过程分成三个阶段,分别为第一代人工智能、第二代人工智能和第三代人工智能。
1. 第一代人工智能
第一代人工智能的目标是让机器像人类一样思考。思考是指推理、决策、诊断、设计、规划、创作、学习等。无论做管理工作还是技术工作,都需要两方面的能力,一是在某个领域具有丰富的知识和经验,二是具有很强的推理能力。其中推理是指运用知识的能力,换言之,是从已有知识出发,推出新的结论、新的知识的能力。2. 第二代人工智能
在第一代人工智能处于低潮时,第二代人工智能开始。第二代人工智能主要是从人工神经网络出发,1943年提出人工神经网络模型,它主要想模拟人类脑神经网络的工作原理。这个模型最早很简单,所以能做的事情比较少。第二代人工智能初期进展也很缓慢。清华大学从1978年开始进入人工智能领域,相当一段时间里我们处于第一代人工智能结束,第二代人工智能开始的阶段,遇到了人工智能的冬天。
第二代人工智能面临的主要问题是感性知识的传授。第一代人工智能主要在符号主义指导下进行,目的是模拟人类的理性行为。但人类除了理性行为外,还有大量的感性行为,而感性行为要用人工神经网络进行模拟。我们常说知识是人类智慧的源泉,知识是理性行为的基础,这里的知识来自教育,主要指理性知识、分析问题的方法等。但感性的知识难以用语言传授,也无法从书本上获得。每一个人最初得到的感性知识是对自己母亲的认识。但,具体是什么时候开始对母亲有所认识的?又是怎样实现这种认识的?这些问题到现在仍难以解答。所有感性知识都在不断观察、不断倾听的过程中学习累积,第二代人工智能深度学习沿用了这个方法。
例如,过去我们主要通过编程的方法告诉计算机马、牛、羊的具体特征,现在则将网上大量马、牛、羊的照片做成训练样本,让计算机进行观察和学习即可。学习完毕,再把剩下的样本作为测试样本去测试它,识别率能达到95%以上。观察和倾听的过程通过人工神经网络进行,将识别的问题作为分类问题,利用人工神经网络来分类。通过神经网络进行学习的过程称为深度学习,基于深度学习能够进行分类、预测和生成等。但是第二代人工智能的所有数据(图像、语音等)均来自客观世界,它的识别只能用于区别不同的物体,并不能真正地认识物体。所以第二代人工智能最大的问题是不安全、不可信、不可控、不可靠、不易推广。
3. 第三代人工智能
第三代人工智能的基本思路是必须发展人工智能理论。迄今为止,人工智能尚无较为成型的理论,更多是模型和算法,且第一代和第二代人工智能的模型、算法都有很多缺陷。因此,必须大力发展科学完备的人工智能理论,在此基础上,才能发展出安全、可控、可信、可靠和可扩展的人工智能技术。
因此,必须大力发展科学完备的人工智能理论,在此基础上,才能发展出安全、可控、可信、可靠和可扩展的人工智能技术。对目前的人工智能技术而言,虽然提高了效率和质量,但系统越信息化和智能化,也就意味着越不安全。第一代人工智能运用了知识、算法、算力三个要素,其中最主要的是知识。
第二代人工智能则主要用了数据、算法和算力三个要素。为了克服人工智能的固有缺点,唯一的办法是把知识、数据、算法和算力这四个要素同时运用。目前得到较多运用的AI工具(大语言模型),就能够充分利用知识、数据、算法、算力这四个要素。清华大学团队提出了第三代人工智能的三空间模型,将整个感知、认知系统进行连接,为发展人工智能理论提供了非常好的条件。
深度学习的不安全性
目前AI工具产生了两个重大突破,一是生成语意连贯的类似人类的文本,二是在开领域实现了人机自然语言对话。大语言模型是向通用人工智能迈出的一步,有西方专家认为这是通用人工智能的曙光,但它并不是通用人工智能,人类走向通用人工智能依然任重道远。
大语言模型迈向通用人工智能四个步骤
第一步是与人类对齐。目前AI工具输出的内容不一定正确,若要解决这个问题,必须依靠人类帮助它克服,使之与人类对齐。从AI工具的应用实践来看,它的错误需要人类帮助纠正,而且它的错误纠正速度和迭代速度都很快。与此同时,我们要看到输出内容的错误仍然存在,但我们如果想要它具有创造性,就要允许它犯错误。
第二步是多模态生成。现在已经可以用大模型生成图像、声音、视频、代码等各种模态的内容。随着技术的进步,鉴别一个内容是由机器生成还是人工完成将会变得越来越困难,这为“造假”提供了非常好的机会。“造假”又名“深度造假”,即用深度学习的办法“造假”。试想一下,如果以后网络上95%的文本都由AI生成,那么我们还能通过网络获取真知与真相吗?比方说,当一件事情发生后,网络上出现一片支持或者反对意见,这些意见究竟是来自多数人的真实表达,还是来自少数人操纵AI歪曲事实?如何有效防止AI工具操纵舆论、混淆视听,这是需要我们严肃考虑的。
目前人工智能领域已经实现了三项突破,即开领域生成语意连贯的类似人类的文本。其中,语意连贯是最重要的突破,这个突破后就有了图像的突破。因为图像只要求在空间上连贯即可,而视频则进一步要求时空上的连贯。我们在语言上进行突破,紧接着会有图像的突破,图像突破后肯定还会有视频的突破。在这个发展过程中,计算的资源要求和硬件都会变得越来越多。
随着人工智能的发展,很多人注意到了“涌现”现象。例如,当系统规模没有达到一定程度时,生成的图画很糟糕、水平较差,但当规模达到一定程度,生成的大多数图画突然间就变得质量很高。这个过程称为“涌现”,“涌现”是从量变到质变的过程。到目前为止,全世界范围内都还无法完全理解“涌现”现象出现的原因。
第三步是AI智能体。大语言模型迈向通用人工智能必须与数字世界进行连接,首先在数字世界里具体操作,从而解决问题、感知自己成果的优劣,并进行反馈。这个工作对促进大模型的性能向前发展有很大益处。
第四步是具身智能。具身智能,即具有身体的智能。智能光有脑还不够,还必须具有身体,这样才能动口又动手。所以,大语言模型迈向通用人工智能,必须通过机器人与客观世界连在一起。
大模型的局限性
人工智能是探索“无人区”,其魅力就在于它永远在路上。我们不能因为它的进展而过于乐观,也不必因为它的挫折而沮丧,我们需要的是坚持不懈的努力。
文章来源:《人文清华讲坛》 原创作者:牛雪莹
声明:本网站转载内容仅用于传播更多信息,不作商业用途,同时不代表论坛观点,文字及图片版权归原作者所有,如有侵犯,请联系我们。