年幼时,因为家父是医生的原因,曾经一度非常好奇地研读《黄帝内经》。于懵懵懂懂似懂非懂之间,大致知道了华夏这片土地上的古人是如何看世界的。家父是西医,对于中医似乎总是无法给我一个透彻的解读。但他却比较客观地告诉了我:有这样一个人群,他们秉持着与当代科学既相关联又不太相同的方法论。后来,我学了理工科,迷上了理工科。在一个神奇的圈子里,见识到了试图利用现代科学的概念解释那种古老方法论的几位奇人。
几十年过去了,跟那些奇人慢慢失去了联系。他们在当年的兴趣方向上到底有了多大的进展,我无从得知;但在我自己兴趣方向上的人工智能却今非昔比,不仅应用到各行各业,而且也成为各种厅堂甚至厨房里的热议话题。今天,知识图谱已经成为我自己在日常工作中用知识对接价值的重要技术手段,整天里把知识图谱这个词儿用到吐,甚至我自己的儿子也加入了探索知识图谱奥秘的科研队伍。但是在夜深人静的时候,混合着当年向父亲请教五行理论的遥远儿时记忆,细品五行模型与知识图谱之间若有若无的关联,竟然构思出了本文的梗概。
1 五行模型是知识图谱
五行,顾名思义是指金、木、水、火、土五种物质类型。它们对应着知识图谱中的节点。节点之间,有“相生”和“相克”两种有向的二元关系。从内容上说,相生就是促进、支持、滋养,就是有利于生存发展和存在状态的相对稳定,相克就是限制、制约、克制,就是不利于生存发展和存在状态的相对稳定。所以,五行加上它们之间的相生相克关系,完全满足标准的“两点一边”型的数据形态,于是可以形成如下的知识图谱:
我们暂且不论这个知识图谱的内容。仅从形式上讲,这是一个中规中矩的无自环边的图,或者说相生、相克这两种关系,在所有五行节点上都是“非自反的”,而且这两种关系的边是完全错开的,也就是说,相生的两个节点肯定不相克,相克的两个节点肯定不相生。这样的性质也把相生关系和相克关系的差异凸显了出来,为二者在语义上的差异做了形式上的背书。
笔者其实完全不具备考证五行是否是“世界上最早”以图的方式揭示实体之间关系的资格。一是不掌握物证,二是不掌握史料,三是不掌握当代人对这方面的研究成果。依稀记得,古希腊人也对物质做过类型划分,但是他们也止步于划分,并没有在节点之间连边。《黄帝内经》到底成书于什么时代,并没有定论,但至少不晚于两千多年前的战国时期。所以,至少在跟同一时期古希腊人比的意义上,咱们的老祖宗还是多走了一小步。这一小步很了不起,至少从知识图谱的意义上说,希腊人那就不算是知识图谱,而五行模型则当之无愧。
2 五行模型是最简知识图谱
其实,五行模型的神奇之处,还不仅止于此。
仔细研究一下五行模型,你会发现:一个节点的所生、所克、被生、被克都是不同的节点。也就是说,除了自己以外的节点,没有一个节点是跟自己没关系的,没有两个节点是跟自己有相同的关系的。可见,这是一个最简模型,是包含两种非自反关系且两种关系互不交叉的最小模型。这个“五”不是白来的,它足够简单,简单到一只手就数的过来;它又足够复杂,能够表达两种互不交叉的非自反关系。神奇吧?
当然,五就是五,离大千世界里的万事万物还差得远。为了推展到大千世界和万事万物还必须做一件更惊世骇俗的事情,这就是五行的外推,也就是“天人合一”。
3 五行外推与人工智能有天然联系
五行外推,从逻辑上看,是一个大胆的步骤。
首先节点要五个五个地换。换一批,等于换了一个论域,但相生相克关系还在,只不过根据论域的不同而被赋予了不尽相同的内涵。五行都是自然界的事物。换成了人的身体器官,就进入医学(至少是生理学)的论域;换成了季节,就进入了气象学的论域;换成了方位,就进入了地理学的论域。从现在观点看是这学那学,其实还原到当时的历史时代,还都只是些朴素而粗糙的认知。但是这些认知一经跨越论域,就有了别样的神秘性:为什么看上去风马牛不相及的两个论域,在论及其元素的相互促进或者相互制约的关系的时候,却似乎冥冥之中有着某种共同的东西呢?依照古人的知识水平,他们解释不了,但是解释不了并不妨碍某些共性推理模式的跨论域使用。在古人看来,这是个了不得的事情,为了自圆其说,他们甚至扯上了“天”,出现了“天人合一”这样惊世骇俗的观点。
在我们看来,五行外推,其依据就是子图同构。在一张大图里面,无论点和边代表什么,常有一些局部在拓扑意义上非常相似,也就是说可以在二者之间建立一个节点到节点、边到边的一对一映射。如果映射是很完美的,那就说明在两个子图之间建立了同构关系。同构,意味着一个论域里的论证说理过程可以按照同构映射机械地翻译到另一个论域里。所谓“天人合一”的神奇,说到底不过如此而已。更何况,子图同构不是常态更不是规律。如果强求同构,难免有一些牵强,比如明明是春夏秋冬四季,为了凑子图同构,偏偏扯出一个“长夏”。
如果子图的信息是不完备的,却假设了“天人合一”,那就有了按照五行模型脑补不完备的缺项的机会。从人工智能的角度看,这就是依据类比推理的原理,在“协同推荐”算法的帮助下完成了“迁移学习”。这种不同论域按照五行模型互通有无的做法,完全可以在大数据的基础上再现出来,甚至可以做得更加丰富和精准。但是这不能构成“科学”。类比只能构成经验,甚至构成基于大数据的商业模式,但是却不能构成科学。所以,基于五行模型的中医可以有基于大数据的商业模式,但进入科学殿堂却困难重重。
究其原因,类比是可错的。同归纳推理一样,类比推理可以扩大知识,但却不保证扩大后知识的有效性。演绎推理则相反,它可以保证推理的有效性,但其推理过程并不扩大知识。既扩大知识又保证有效性的推理,恕我孤陋寡闻,但我认为目前世界上还没有。所以,类比推理可用于启发,但不能用于证明。类比推理虽然可错,但可错并不丢人。只要拥抱检验、拥抱证伪,及时放弃已被证伪的结论,坚决不碰不可证伪的结论,一切ok。怕的是停留于类比,抗拒检验(比如可重复双盲实验)和证伪。
4 大数据方法论在科学中的地位
在大数据的基础上,通过本质为类比推理的协同推荐算法,达到迁移学习的效果,这个套路是否被科学方法论认可?当然不认可。但是,有关的实践和应用,早已轰轰烈烈地进行了。AI学术界并不否认这种方法可以被“经验性地”应用,甚至受到来自应用的鼓励。AI学术界也足够地慎重,在收来自应用领域的赞助绝不手软的同时,也知道尽量不要把这种实践拔高到对科学方法论现有原则的挑战的程度。
你可以低调一时,却不能低调一世。要么一个大事件到来,把类比的失误、协同推荐和迁移学习的失误放大为一个不讲科学的罪状;要么总有一天类比上升为一种基于大数据的科学方法论。二者必居其一。
我持偏悲观一点的观点,认为很可能是第一种情况会出现。现在所谓的信息茧房,其社会效果已经是弊大于利,乃至于很多人惊呼要“躺平”,要通过“不登录、不点赞、不关注、不评论”来防止平台方滥用用户行为数据并用信息茧房误导用户。我觉得,推荐的背后潜藏着一种武断,一种把算法转化为权力的傲慢。这种傲慢终究是要被清算的。
即使第二种前景不能实现,即使第一种前景的出现对协同推荐方法的商业使用造成了一定程度的打击,也不等于说科学共同体对基于类比的大数据方法论不会做出任何妥协。我认为,鉴于大数据的价值和在大数据上进行类比推理、迁移学习的价值,科学共同体迟早要从方法论层面对其给予一定程度的认同。
至于说五行模型,从知识图谱的专业角度回过头来看五行模型,我们在惊叹于古人智慧的同时,也对古人没有能再进一步,把五行模型改造成某种结构化的形式逻辑或者知识体系描述工具而扼腕叹息。但它毕竟已经是历史文物。任何想把它树为当代科学标杆的企图都是可笑的和徒劳的,想以它为方法论基础为另类科学建立另类标准的企图也都是可笑的和徒劳的。