与师生谈人工智能3:精确定义之病
来源 I 人机与认知实验室 2021-08-26 00:01:28
99 0 0

学:学生,教:教师,李:李晓榕


教:不给定义就讨论,我们浑身不自在。

李:是啊,我们都被洗脑了,科研工作者更是如此。太爱下定义(旧称“界说”),是西方学术界的宿疾,早已蔓延全球。在《生活的艺术·思想的艺术·回向常识》中,林语堂调侃这个毛病说:“人的爱好字句,是他走向愚昧之途的第一步,他的爱好界说乃是第二步。他越从事于分析,他越需要界说,他越加定界说,他越是趋向一个不可能的逻辑的完美境界,因为乞求逻辑的完美就是愚昧的迹象。因为字句是我们思想的材料,所以定其界说的企图乃是完全可嘉的,于是苏格拉底在欧洲创始了一个定界说狂。其危险在于我们意识到曾由我们定其界说的字眼时,便不能不将用以定界说的字眼也定出它们的界说来,因此,其结果除了用以定生活的界说的字眼以外,我们又有了专用以定别的字眼的界说的字眼,而定字眼的界说这桩事便成了我们的哲学家的主要成见了。忙碌的字眼和空闲的字眼之间显然有一种分别,前者在我们的日常工作生活中尽它们的责任,而后者只存在于哲学家的研究团体中。”

无独有偶,西方意象诗派开山大师庞德说得到位1:在欧洲,如果要人给出定义,他的定义总是离开他所完全了解的简单事物,渐行渐远,进入一个未知地带,即一个越来越偏远疏远间接的抽象地带。所以,如果要他定义红色,他会说是一种颜色。问他什么是颜色,他会说是光的折射或振动,或者是光谱的一段。问他什么是振动,他会说是能量的一种模式,如此这般,直到达到超出你和他所能掌握的某种存在或非存在的形态特征。我在网上看到如下定义:“手,人使用工具的上肢前端。”让我笑得喷饭。照理,一个好的定义,其定义项的含义应该比被定义项的易懂、显豁、通俗,否则都有过度定义之嫌。对于大多数像我们这样的讨论,难道“血的颜色就是红色,国旗的颜色也是红色”这类举例说明的“不精确定义”不如上述振动或光谱的“精确定义”?

现代的一个时弊是本质主义,以为任何事物都有唯一的本质,定义就是把握、表述这个本质。热爱定义是现代西方理性主义的特征,源于古希腊的苏格拉底。这也充分体现于集合的内涵定义(即靠描述性质来定义一个集合,以区别于罗列集合元素的外延定义)。其实,一个集合之所以成为一个集合,未必因其元素都有统一而有别于其他集合的独特本质,也可能在于集合元素之间有某种特殊的关系,比如当代大哲维特根斯坦所说的“家族相似性”,即存在相互交叠的相似性,而未必都两两相似。这就像机器学习中的聚类(clustering,见图):大量相近的点构成一个环,尽管环内的每对点未必都很相近(例如, A点和B点相距甚远),但每个点都有环中的多个相邻点(家族相似性),否则不属于此环(比如环心水平点集之点)。一个靠“家族相似性”构成的集合,更一般地说,一个靠元素间相互关系来定义的集合,大都无法靠本质主义的定义来精确划界。这样的定义,一般难以精确。一个典型例子是生物物种。它被定义为这样一群生物:其成员能交配繁殖同种后代,即后代也能与其他成员繁殖同种后代。比如,马跟驴虽能生骡,但骡是不育的,不能跟马、驴交配产子,故马、驴、骡不属同一物种。美国加州的埃氏蝾螈有六类:E1↔E2↔E3↔E4↔E5↔E6,每类都能且只能与其“最近邻”直接交配产子(记为“↔”)。一般认为它们都是埃氏蝾螈这个物种的亚种。然而,按这种基于家族相似性的连锁推理逐代回溯,现代人无疑与几百万年前的远祖属于同一物种,而这些远祖也是黑猩猩几百万年前的远祖,所以人与黑猩猩属于同一物种!这就像图中的A点和B点同属一环。再上推几亿年,人与蝙蝠同为哺乳动物也有同种远祖,所以也属于同一物种!更进一步,所有靠交配繁衍的生物都只能是同一物种!这让人想起著名的“沙堆悖论”(或者“秃子悖论”、“忒修斯之船悖论”等):沙子的一个集合是否构成沙“堆”,不会因为增减一粒沙子而改变,但从一堆沙中不断减去一粒,最终一无所有,肯定不再是一堆沙。基于家族相似性的定义,大都有此潜在问题。可见,不能毫无限制地滥用连锁推理。关键是,并不存在合理的精确界线或精确定义。

学:谢谢李老师,我们的确深受本质主义影响,这个“家族相似性”让我受益匪浅。

李:是啊,凡事都想追究其本质是什么。甚至面对《红楼梦》这样百科全书式的文学作品,也想要追问其本质内涵究竟是什么,结果才会出现鲁迅所嘲讽的那样以偏概全:在《红楼梦》中,“经学家看见《易》,道学家看见淫,才子看见缠绵,革命家看见排满,流言家看见宫闱秘事……”。人们对歌德的大名著《浮士德》,也是如此。

一个系统含有两大类主要构成:元素和关系。借此数学概念,可以说,现代西方文化更是“元素”文化,中国传统文化更是“关系”文化。借用“粒子”和“场波”的物理概念,可以说,现代西方文化和中国传统文化的核心分别是“粒子”和“场波”,

现代西方有“粒子元素”传统,传统中国有“场云关系”传统。

西方传统的“粒子元素性”有多方面的表现:个人主义,独立存在、与他人关系较少,追求本体、本源,追求确定性,重视精确定义,注重对象分解和粒子研究,等等。中国传统的“场云关系性”也很明显:人与人的关系、人与自然的关系是一种无所不在的“气”“场”,个人的价值主要体现在“关系场”中,注重整体的协调合作,三纲五常所关心的主要是人际关系和社会秩序这些“场”,中国文化所特有的“气”的表述也与“场”根本相通,比如认为生命的本质是“气”,等等等等。早先说过,现代西方思维是线式思维,中国传统思维是圈式思维;还说过,“粒子”与“场波”的关系跟“离散”与“连续”的关系大有相通之处。我们知道,圆周运动与正弦“波”在数学上是等价的,而光粒子是沿着直线(短程线)运动的。光的粒子说和波动说长期存在且彼此相争,大有你死我活之势,直到量子力学的建立,才调和统一了它们。Richard E. Nisbett, The Geography of Thought:How Asians and Westerners Think Differently…and Why(可译为《思维的地缘性》)一书说:心理测试表明,中国人和美国人所能回忆起的字词数量,在不与社会背景相连时没有差别,而在相连时,中国人能回忆更多字词,说明中国人更在意社会暗示;4岁到6岁的儿童关注自己的言行的时间比例,美国儿童比中国儿童大二三倍;要将鸡、牛、青草归类,中国小孩更重视相互关系,大多把牛和青草归为一类(牛吃草),鸡为另一类;而美国小孩更重视实体范畴,大多把牛和鸡归为一类,青草为另一类。类似地,面对熊猫、猴子、香蕉,美国大学生大多认为猴子和熊猫更接近,而中国大学生更倾向于认为猴子和香蕉更接近。现代以来,西风东渐,中国人也日渐重视精确定义。

现代西方文化的一大基础和力量源泉是科学理性,其主要对象是硬科学所适用的物质对象和自然界,它们易于且宜于精确;中国传统文化主要关注人际关系和精神世界,难以而不宜精确。精确定义就是一种精确划界。粒子、元素、单位等可以清晰划界,便于精确定义,所以“粒子”传统与精确定义联系密切,比较契合;而气、场、云之类的对象难以精确划界。上述科学、技术、社会、文化、物质、精神、生命、心智、智能、意识、复杂性等概念,其实都是这种“概念云”而非“概念子”,无法精确划界。正因如此,任何一门非硬科学的现代学问,其中的重要特别是关键概念,大都足够复杂,因而都有大量各不相同的定义。所以“众说纷纭,莫衷一是”的情形随处可见,大量学者把聪明才智浪费于此。怪不得唯一两次独享诺贝尔奖的鲍林(Linus Pauling)会有感慨:“给事物下定义,有时比研究一个问题还难。”总之,精确定义(更一般地说,追求精确)这个硬科学的利器,在硬科学之外并不有效好用。过度追求精确定义是西方学术宿疾。把一个原本不错的东西用于其适用范围之外,是一大谬误。过度追求精确,就是这种谬误。我说的这些,都与早先所说的“思维不精确原理”或“想不清原理”以及“精确性的终结”一脉相通,如有兴趣,可以回顾。

教:李老师说得很有道理。不过我想,追求精确定义虽然可能有种种问题,但是总体来说还是给我们带来了很大进步。比如,智力很复杂,但是智商测试很简单,它给我们提供了一个把握智力这个复杂概念的简单手段。

李:是啊,这种简化必不可少,且到处都是。比如,把一个国家的经济发展水平归结为GDP的大小;把国民的幸福程度简化为“幸福指数”的高低;许多领导都把一个单位总体情况的好坏,简化为简单“抓手”的度量。从一方面来说,确立这样一种合理有效的综合指数,的确是一种进步。在一些场合下用这些指数,无可厚非,但要深知它们都难免有过于简化的固有缺陷和局限,不得滥用。更关键的是,不能太过关注它们、把它们作为奋斗目标,更不能大力优化它们。遗憾的是,很多人包括领导都这样犯傻。这种偏执是走火入魔,会适得其反,带来“表面光”而“本质烂”的退步。各种复杂事物的简化指标,都有被滥用这种恶果。

智商测试的确是一个典型例子,特别是在谈论智能之时。时至今日,在人们心目中,智力差不多就是智商,而智商,按定义就是智商测试的结果,所以智力水平差不多就是智商测试的分数高低。其实,智商测试原本是用来测试学童,以预测其未来的学业成绩。这比较合理可行。然而,因定量地把握智力之需,其结果被广泛用来度量智力,却无视这样做以偏概全的本质。现在竟然发展到如此地步,以至于有一种相当流行的智力定义:智力不是别的,正是智商测试所测试的东西。(照此,幸福不是别的,正是幸福指数所反映的内容;经济水平不是别的,正是GDP的高低。)其实,智商测试的分数高低未必很好地反映智力水平,它测试的“一般”能力,与受教育程度等因素有强相关,比公认的智力狭窄得多 。智力含括广泛,构成复杂,很难相信存在任何简单测试能正确反映其真实全貌,判定优劣。根据史料,最伟大的科学家牛顿、达尔文、爱因斯坦等人少年时如果测试智商,都不会高。用片面的智商测试来度量智力,就像历史上布罗卡、高尔顿等人用脑的轻重、大小、脑商等片面指标来度量智力,进而论证人种优劣的丑闻一样,都有“攻其一点,不及其余”的偏狭,不足为训。鉴于这种片面测试泛滥成灾,带来种种问题(比如用来比较种群的优劣),有些知识精英甚至呼吁禁止智商测试。


______________________________

1. Ezra Pound, ABC of Reading:In Europe, if you ask a man to define anything, his definition always moves away from the simple things that he knows perfectly well, it recedes into an unknown region, that is a region of remoter and progressively remoter abstraction. Thus if you ask him what red is, he says it is a ’colour’. If you ask him what a colour is, he tells you it is a vibration or a refraction of light, or a division of the spectrum. And if you ask him what vibration is, he tells you it is a mode of energy, or something of that sort, until you arrive at a modality of being, or non-being, or at any rate you get in beyond your depth, and beyond his depth.


与师生谈人工智能4:图灵测试 精选


学:学生,教:教师,李:李晓榕

教:人工智能大牛马文·明斯基说:像“情感”“意识”这样的“手提箱”词汇之所以难以定义,是因为其内涵太丰富了,只要我们把它切块细分,就能很好地把握。我想,“智能”大概也是如此,应该也能由此得以界定。给定义就讨论,我们浑身不自在。

李:明斯基在《情感机器》一书中确实这么说,书中确有独到之见。他说的是科学的一种基本方法——分而击之,我们早先详谈过,见谈科学之弊的多个部分。这一方法虽然强大,但并非普遍适用、普遍可行或普遍有效。举例来说,“人”的概念十分有用。比如,由此我们可以有“人性”的概念,以区别于物性、兽性、神性等诸多概念。分而击之只关注“人”的多个分解概念,它虽有助于加深对“人”这一概念的理解,但这些分解概念的总和并不能代替“人”的整体概念,因为整体并非部分之和,而且“人”是作为一个整体与外界及内部交互的。“智能”概念也一样。所以,智能基于分而击之的定义,会缺乏对智能的整体把握。对于其他复杂对象,的确已有不少这样支离破碎、缺乏整体把握的定义。

学:关于智能,我们不是有图灵测试吗?它让人任意提问,来鉴别是在与人交谈,还是与机器交谈。如果区分不了,就说测试通过,有智能;通不过,就说没智能。

李:难以精确定义智能而又想划界,图灵测试就是这么一个权宜之计的二元判决,而非量化测试,它至多只能在没有更好更简便的办法时,权且一用。比如,现在互联网上用于鉴别人与机器的简单测试,就可以说是它的一个大大简化的版本。图灵测试染有典型的本质主义和行为主义现代病:总要把复杂多维的东西简化还原归结为某个“本质”单维一元(本质主义),这儿就是把智能化归为书面交流;总是只专注于输入输出之间可观测的外部行为(行为主义),这儿还仅限于言语。让我们谈谈这些问题。

①极度复杂难言的“智能”,怎能用一个本质单维来整体(遑论全面)把握?又怎能简单地测试?智商测试、民意测验等1也都是这样片面失真不可靠,它们真能正确反映智力水平和民意?同为测试智力智能,智商测试和图灵测试也不和谐。2011年人工智能产品“沃森”在百科知识问答赛《危险边缘》中战胜两位人类冠军之后,IBM推销它是“各类问题的通用智能解决方案”。而当时的“沃森”其实只会玩《危险边缘》,不会做任何其他事,它缺乏理解,并无多少通用智能可言。2013年就有一款人工智能产品在智商测试中得分140以上,远高于常人。清华大学的写诗机器人“薇薇”在2016年通过了社科院等唐诗专家的“图灵测试”。

②存在无穷多个(智能的和非智能的)系统能以任意精度满足任何有限个这种书面交流(即图灵测试中的问答)的输入输出关系,而这种关系不足以反映智能的众多其他方面。真会用兵决不是纸上谈兵或沙龙里的夸夸其谈。正如当代西方大哲维特根斯坦坦承的,“务必保持沉默”而“不可言说”的远比可言说的更重要、更有价值。无数智者说不清道不明的“智能”就有这种难以言说的核心内容,它无疑超越任何仅依赖于书面交流的测试。连是否会弹钢琴这种简单技能(或者其他依赖于默会知识而非外显知识的技能)都无法用这类测试来准确判断,何况更博大高深神秘的智能?可见,图灵测试把智能简化为言语体现,因而测试的其实不是智能,更是便于操作的“能否惟妙惟肖地模仿人做书面交流”的能力,而这与智能大有区别。要是允许这样以偏概全,那么说笑话需要智能,为什么不靠“说笑话”来测试智能,只要无法区分被试对象和人在说笑话方面的差异,就认为被试对象是智能的?上述“说笑话”也可换成讲故事、做作业、对对子、玩游戏、唱歌、下棋、打牌或者测定脑电波等数不清的其他方式。

③图灵测试有赖于人类裁判,因而无法完全客观,很明显裁判不能太傻,得足够“智能”。这样,对“智能”的判定有赖于高级“智能”本身,这在深层上其实犯了循环定义的大忌。而且,仅靠书面交流的“分辨率”很低:一般人很难较好地区分人和机器,即便机器其实比人差远了,仍如此。

对智能来说,能通过图灵测试既无必要,也不充分。一方面,连图灵本人都说,只要对人类智能或书面交流了解或模仿不够,高级智能就通不过测试,因为人们易于区分他们和人。譬如著名物理学家霍金会因为反应太慢而通不过测试。另一方面,能通过图灵测试的未必是智能的,只要被测对象与人在书面交流上的差别不大,而书面交流难以有效体现智能的众多方面,例如创造力、判断力、感知能力、探索能力、实践能力、生活能力。人除了“言语智能”外,还有生存本事、办事能力等众多其他方面的智能,特别是东方重视而西方轻视“只能意会,不可言传”的高级智能。加德纳(Howard Gardner)著名的多元智能理论把智能明确分成语言、逻辑、空间、音乐、自然、身体、人际关系、内省、生存等几大类。这与上面提到的明斯基的分而击之观点相通。一款模仿13岁乌克兰男孩的人工智能Eugene Goostman于2014年首次通过了图灵测试。然而,这并不被认为它证明了智能机器已经出现,倒反而可以说是对图灵测试的证伪。因为,人们并不(按图灵测试照理应该)以此认定,Eugene Goostman是智能的,相反,究竟能否造出智能机器,仍是见仁见智,并无任何改变。用大数据培训一个专门的深层人工神经网络,并不难通过图灵测试,但是它难以胜任其他需要高级智能之事。

教:有人说,图灵测试跟古希腊的大哲学家苏格拉底所擅长的问答法一脉相通,是很好的鉴别智能的方法。

李:的确,苏格拉底是古希腊划时代的大哲学家。哲学史上最先出现的问答法,是其步步进逼、层层追问的问答法,这也是他当年与人探讨哲学和人生问题的主要方法,但这又怎么能说明它是判定是否有智能的好方法呢?

其实,图灵从未正式提出任何形式的智能测试。事实是,在行为主义风行的年代,他认为“机器能思考吗”这个问题太含糊,建议代之以考虑“与之密切相关”后来以“图灵测试”著称的这个更明确的“模仿游戏”。他坦承对于这一替换“无法从肯定的角度作出非常有说服力的论证”,而只能“列举反面观点中的错误”。尽管他由前期不信而转变为后期相信强人工智能,但他与朋友谈及这个模仿游戏时,称之为propoganda(有忽悠之意,多带贬义,明显比当下中文的“宣传”一词更负面),看来并不十分看重它。后人或多或少误解曲解其意,拿着鸡毛当令箭,当试金石,当照妖镜,当科研神器。

图灵意在强调机器智能研究应重视可观察的外部行为及其在观察者眼中的表现。这一脉相通于行为主义:回避直接研究心智、意识、意志,而代之以研究刺激-反应的外部可观察行为。心理学中的行为主义在1910年代由华生(John B. Watson)等人创立兴起,不久后就如日中天,统治心理学、社会学半个多世纪,但今天业已过气失势。而且,华生把思维归结为语言,认为言语是“大声的思维”,思维是“无声的谈话”。在20世纪上半叶现代哲学经历了以分析哲学为代表的语言学转向,其旗手、早期维特根斯坦认为,超出语言描述范围的东西是无法思考的:“我的语言的界限意味着我的世界的界限。”(《逻辑哲学论》)

这些学术背景都对图灵在1950年提出“模仿游戏”以及把它限于言语交流,恐怕至少有启发和支持作用,由此可见图灵测试(乃至图灵对强人工智能的信念)的行为主义色彩。在行为主义以及“语言先决于思维”这一当年流行的强论题被否定后的今天,图灵测试的局限更明显了。图灵始料未及的是,“图灵测试并没有真正激发人工智能研究人员去研发更优秀的会话者,却导致欺骗讯问者的技巧越来越多。”(莱韦斯克《人工智能的进化》)若不是图灵测试有此严重缺陷,又怎会如此?

教:我也见过有人反对图灵测试,比如塞尔的“中文屋”理论。

李:的确,其中最著名的是认知哲学家塞尔(John Searle)基于“中文屋”思想实验2的论证,其实质是说它“虽能不懂”:即便能,也不懂,只是貌似有智能,其实没有,即模拟不等于复制。我不认可他这种反驳。假设我们把图灵测试中的书面交谈测试改为对全部言行举止的测试,只要把语言交流改为全部言行,塞尔“虽能不懂”的论证还成立,甚至不论这种测试是有限或无限的。然而,如果在全面而无限的测试上无法区分,那说明(以概率1)模拟是完美的,被试对象其实不懂(“貌似懂”)与真懂,对其外部而言毫无差别因而等价,从外部无法区分。所以它到底懂不懂,无从判断,无法区分,区分也就毫无意义。而且,纵然限于有限测试,若模拟能达到任意精度,则与复制并无实际区别。但是,如果像图灵测试那样只限于书面言语交流,即使是通过无限测试的完美模拟,也只是片面的完美模拟,谈不上是整体的完美复制。

塞尔反驳图灵测试的实质是说“强人工智能”不可能。他认定,计算只是形式上的符号操作,不是理解,只有语法没有语义,产生不了意向性,机器没有精神生活,而精神生活与行为无直接关系,尽管人脑产生了精神。其论证藏有一些未经证实的假设,它有助于一个人弄清自己到底信什么,但说服不了一个相信“机器可以是智能的”之人“倒戈”。



______________________________

1. 这类简化测试会忽悠误导大众,简直是“针对门外汉的密谋”(萧伯纳语)。对智力的定性把握至今尚且严重不足,而百年前就提出的“智商测试”尽管明显很片面,但人们急于量化智力而“饥不择食”,把它广泛用于定量测定智力水平,甚至进而给出知名定义:智力就是智商测试所测的东西。这样以鹿为马的偏颇专横在对复杂事物的还原论研究中屡见不鲜。与此类似,“意识”究竟是什么至今仍相当茫然,但有人依赖意识的整合信息理论,提出将所谓“整合信息”(integrated information)作为“意识”程度的度量。这都植根于一味追求量化的偏执。

2. 简言之,这一思想实验说:你不懂中文,但配有由完备的形式规则构成而不懂语义的指令手册,据此你能跟只懂中文之人用中文交流,但其实你不懂中文(这难以反驳)。不过,塞尔认为,即使把手册放入你脑内,内化为你的一部分,你也只是模仿了中文,其实并不真懂,因为手册和原来的你都不懂中文。这就见仁见智了。


http://blog.sciencenet.cn/blog-687793-1296763.html


0人打赏
发表评论
请先 注册 / 登录 后参与评论
评论
推荐阅读
"华为实验室起火"?官方回应
东莞市委宣传部回应第一财经记者表示:今天下午,一个在建的项目着火,没有人员伤亡。该建筑与实验室并无关系,正在装修和建设之中,没有投入使用。9月25日下午消息,网友爆料称华为位于东莞的松山湖实验室突然起火,火势不小,现场浓烟滚滚。据报道,松山湖消防救援站已经赶往救援。从网友发布的视频来看,着火的是一栋大楼,现场烟雾强烈,整个视频画面中都是黑色的烟雾,看起来火势不小。据了解,华为松山湖基地是华为终端公
2020-09-26 00:47
《关于改革社会组织管理制度促进社会组织健康有序发展的意见》
中共中央办公厅 国务院办公厅印发《关于改革社会组织管理制度促进社会组织健康有序发展的意见》近日,中共中央办公厅、国务院办公厅印发了《关于改革社会组织管理制度促进社会组织健康有序发展的意见》,并发出通知,要求各地区各部门结合实际认真贯彻执行。《关于改革社会组织管理制度促进社会组织健康有序发展的意见》主要内容如下。为深入贯彻党的十八大和十八届二中、三中、四中、五中全会精神,进一步加强社会组织建设,激发
昨天 21:55
人机与认知实验室
3000块一桌,就吃这?一群百万大V傻眼
为什么我们既需要袁隆平,也需要李子柒
华为“断供”十日:“绝版”产品被热炒
一家四口同日死亡?连云港警方通报

推荐阅读

谁在定义“被害人有罪论”?
“甩锅秀”秀出美政客政治操守无底线
"华为实验室起火"?官方回应
《关于改革社会组织管理制度促进社会组织健康有序发展的意见》

推荐作者

纸上建筑
算法的牢笼甚于差评的阴影
麟剑28
【世界民族文明史系列】坎纳拉人与印度遮娄其王朝
杨昇说说
骑手不只是困在系统里,更是活在系统里