白硕:“事件”已成知识图谱新制高点
2018年12月07日
1、制高点的转移
 
       最近,无论在学术界还是产业界,谈论知识图谱的时候,“事件”这个词儿的使用频率越来越高了。造成这个现象的原因,可以从应用和学术两个角度去分析。
 
       从应用角度看,是因为单纯的实体知识库,单纯的实体-关系或者实体-属性-值类型的知识过于静态,不能满足日益复杂的需求和应用领域对知识图谱越来越高的期望。比如:
 
       ——金融投资领域有捕捉外部事件,根据事件之间的因果和顺承关系进行推理、沙盘推演和预测未来事件的要求,现有的实体产业链模型还无法胜任这种要求;
 
       ——情报舆情领域已经建立的基于知识图谱技术的实体知识库,会随着事件的发生及演化而导致其中若干实体关系或实体属性的失真,从而间接影响已建实体知识库的精准性,而正确捕捉事件、正确解析事件对实体知识库变动的影响,有利于及时校准实体知识库,把握正在发生的事件的走向;
 
       ——客服及咨询领域中,过程类、流程类被咨询事项(办事流程,在知识图谱中表示为事件),在其执行或展开过程中,会经历一些状态变化,正确捕捉客户在被咨询事项中的状态,会有利于提高客服和咨询的针对性和精准度,提高服务的个性化水平。
 
       所以,通过事件的表示和处理来推演、预测和预警未来,校准实体知识库,与用户就其正在参与或拟参与的事件进行深度沟通,具有巨大的应用价值。
 
       从学术角度看,虽然有关事件的表示和处理的基础技术的诞生可以追溯到上个世纪七十年代的Frame和Script,但从大数据中抽取事件,建立事件与实体、事件与事件之间的复杂关联的相关技术有所起色,也就是最近几年的事情。
 
       从大数据中抽取事件,已被列为较重要的机器学习任务。我们看到,事件抽取不同于静态关系的抽取。关系是静态的,事件是动态的。关系抽取只需要考虑实体对实体,事件抽取则必须要考虑事件对实体、事件对时空属性、事件对事件等多种复杂情况。
 
       建立事件间因果、顺承、细分、概括等关联关系的复杂网络,已受到知识图谱学术研究机构和人工智能类技术公司的高度重视。“事理图谱”就是这方面的一个重要的尝试。“事理图谱”之所以不同于普通的知识图谱,不仅在于它的刻画对象是事件,还在于它在刻画事件的过程当中,不可避免地会与实体知识库之间产生互动,形成包括实体、关系、属性、事件、事件属性、事件参与角色(论元)和事件之间的特殊关联关系等在内的全新数据结构和知识表示框架。这方面的研究还刚刚起步。
 
       综上所述,我们认为:识图谱领域的制高点,已经从此前的实体知识库构建,转移到事件的表示与处理。占领这个制高点,就意味着夺取了人工智能应用2.0的主动权,就意味着巨大的发展潜能和应用前景。
 
2、事件好在哪里?难在哪里?
 
       那么,事件为什么有这么大的魔力呢?这要从我们人类知识的基础架构——本体说起。
 
       一般认为,本体是知识表示的框架,构成知识表示要素间的互联规范。它虽然尚未落地,但却是所有在知识图谱上落地的知识都应遵循的“模板”。所有落地的知识都应是本体的“实例”。所以,本体是关于一套知识表示体系里“知识长什么样”的一个随时可落地的抽象描述。
 
       那么,事件在本体中所占的地位是怎样的呢?这要从人类知识的构成要素中去寻找。语言是人类思维的外壳。我们从人类语言的共性当中,可以看到这样的现象:几乎所有语言中都有名词(一般表示实体、部件、关系)、动词(一般表示事件、陈述、判断)、形容词/副词(一般表示属性、状态、特征)和一些辅助表达手段(表示前述各类词与词之间的角色关系,以及词与时空属性的关系)。在汉语中可能是助词/连词/介词/感叹词,在有的语言中对有的部分使用其他手段例如形态变化)。从这里可以看出,动词是表达事件的绝对主力。在很多语言中,除了名词的第二大词类就是动词。这背后,已经提示我们知识的构成要素中,事件是何等的重要了。
 
       再看事件本身的构成。在之前实体数据库所用到的知识本体里,首先落地的是实体、关系、属性。实体一般不含结构,实体的部件通过“部件(part-of)”关系与实体宿主相连接,实体的属性值通过属性标签同属性的宿主相连接。但是事件是含有复杂结构的。它体现在几个方面:(1)事件有自己的角色(参与方、论元、格)结构,通过角色指向在事件中扮演特定角色的实体;(2)事件有自己的时空属性,通过时态、体、处所、源、目的等时空属性确定自身与其他事件或时空参照系之间的相对时空关系;(3)事件与事件之间存在着前因后果、承前启后之类的关系,这决定了事件推理、传播和演化的逻辑和脉络,特别是,事件的推理、传播和演化过程是“携带并传递参数的”,也就是说甲事件的一个角色(比如施事)可能与它后继发生的乙事件的另一个角色(比如受事)重合,甲事件及其参与者的情感状态/倾向也可能影响到乙事件及其参与者的情感状态/倾向;(4)事件内部又可以细分为一系列的耦合串接的子事件,子事件的相继发生意味着上位事件的发生;(5)最要紧的,事件是可执行的,事件的执行会引发事件参与角色的变化和涉及它们的关系、属性等的变化。
 
       从上面的分析可以看出,事件的表示和处理,既以实体知识库为基础和模板,又有自己独特的构成要素和架构,最后还要关联到实体知识库当中去。要正确地描述事件,第一个层面要在事件的静态刻画中精准描述专属于事件的各项要素,如事件的时空属性、事件间的相互关联、事件到子事件的分解等。第二个层面要把事件静态关联到相应的实体知识库,如事件的角色结构等。第三个层面要把事件的动态执行前提和结果表现出来、衔接起来,这就要有事件的执行脚本、执行脚本的解释、执行脚本,由它们来联合推演关于事件自身状态、事件的后续状态和事件所涉及的参与实体的真实变化轨迹。目前以刻画事件为目的的事理图谱,大多数能够基本做到上面的第一个层面,能够做到第二个层面的还不多,第三个层面还仅仅停留在设想,没有见到相应工程实现的相关报道。但是,毫无疑问,事件登上知识图谱的舞台,前景最为诱人的也恰恰在第三个层面。
 
       搞定了“事件”,就意味着搞定了复合、动态、时空、关联的知识表示,就意味着知识服务领域出现了核武器级别的“大招”,不可不察。
 
       事件的表示与处理是一项艰难的任务。它体现在几个方面:
 
       一、资源建设难。事件的顶层本体设计是一项高难度的任务。事件本身涉及要素多、结构复杂,牵一发而动全身,与目标实体知识库的关系千丝万缕,领域差别巨大,动态轨迹不好把握。因此,事件本体设计不仅需要工程经验、需要领域知识,更需要洞穿本体的悟性,其领军人才可遇而不可求,其技术路线宜工而不宜自动。
 
       二、数据获取难。事件本体的设计完成,只是骨架的就绪,离有血有肉的事件-实体一体化知识库的构建目标还差很远。数据驱动的充实是必修课。数据的采集、标注,事件实例自动抽取模型的训练、校对,事件对实体知识库不当操作的侦测、补救,自然语言处理技术同事件表示与处理技术的对接,多方标注中的协同等,都是全新的任务。
 
       三、领域对接难。应用驱动的事件本体构建,必须以深厚的领域知识为基础,领域专家的作用必不可少。过程性、动态性、推理性的领域知识的习得,对于纯IT或人工智能背景的技术人员来说门槛很高,数据驱动的自动化手段很难脱离人工全程走到底,对习惯于论文驱动的纯学术的研究机构来说又缺乏相应的价值导向,能搞懂事件重大意义的VC也不多见,所以能够从技术、人才、资金各方面具备全流程跑通条件的绝对是凤毛麟角。
 
3、基于事件的服务形态探索
 
       事件通过怎样的服务形态触达应用?这是很多关注事件的人都想知道答案的问题。基于篇幅和知识产权保护的原因,我们在本文中只能针对事件的特点,择要描述一个大致的战略方向。
 
       事件是知识在时空中的展开。通过人工智能构建出来的事件-实体一体化知识库,是知识图谱的高级阶段,套用一个俗称,就相当于“知识图谱2.0”。我们尝试从它对过去、现在、未来知识的把握这条线索出发,来看看它可能的服务形态是怎样的。
 
       机器可读的历史事件知识是一个宝库。我们不仅可以依据事件的要素组织历史事件知识,将之建设成为一个强大的知识检索平台,而且还可以依据事件独有的时空特性,按需提供特定时空场景下的事件回放服务,使得领域事件乃至事件流的复盘成为可能。
 
       机器可读的现实事件知识服务,就是升级版的、充分结构化的机器可读新闻。它不仅可以实时抓取非结构化的原始新闻将之结构化、标签化、推理化、个性化,实现原始新闻的可定制的机器可读推送和预警服务,而且可以进一步武装写作采编环境,使新闻从一开始就被事件-实体一体化知识图谱赋能,从源头出来就是智能化的机器可读新闻。对于面向金融领域的财经类资讯服务、面向体育领域的赛事直播服务而言,这无异于一次重大的产业升级。谁放过这个机会,谁就必然会被历史淘汰。
 
       机器可读的未来事件知识服务,就是事件预测、事件演化和指定条件下的事件驱动的沙盘推演。它可依托于事件-实体一体化知识库,实现“what if”类型的问答和未来模拟事件流的虚拟展现,这对于游戏产业中的智能化游戏引擎的升级换代具有重要意义,也对市场属性较强的金融类业务,比如证券交易业务中互动式的一/二级市场投资决策支持(投研-投顾),具有重要的价值。
 
       综上所述,事件,是通向下一代知识图谱的重要抓手,是人工智能领域兵家必争的新制高点。丹渥智能虽然初创,但经高人指点,贵人相助,牛人加盟,众人拾柴,已在这一方向布下重兵,期待一步一个脚印,在后续工作中开花结果。