二 本体论语义学关于语义加工系统的构想
要回答机器的语义加工何以可能,完成机器对人类自然语言加工的模拟,首先必须解决的问题是:人的自然语言加工何以可能?根据本体论语义学家的研究,所以可能的条件不外是:人类有将它与语言关联起来的能力,有别的技能,有情感和意志之类的非理性方面,因为人们赋予语词的意义常带有情感色彩。另外,就是活动的目的、计划及程序,最后就是各种知识资源。
本体论语义学认为,人类之所以能理解和产生意义,最重要的条件就是人类有一种本体论图式。正是借助它,任何语言一进到心灵之中就有了自己的归属,被安放进所属的类别之中,如听到了“红”一词,人们马上有这样的归类:它指的是属性,与“绿”“蓝”等属一类,为物体所具有,因而不是物体,等等而是基本概念与范畴。尼伦伯格等人说:“本体论语义学试图探讨的是人们在内省式和反思式地看待概念时对这些概念的运用。人们常常谈论属性。虚构的实在(独角兽或赫尔墨斯)和抽象的实质,把它们当作存在的。不过对于我们来说,决定把它们放在本体论之中不是根源于这样的事实,即这些实在是用自然的语言指称的,而是因为我们相信:由于人们在他们的宇宙中有这些概念因而语言才指称它们。”[10]因此,在语义机模型中,我们首先要建立的就是这种本体论图式。根据他们的看法,“本体论提供的是描述一种语言的词汇单元的意义所需的原语言,以及说明编码在自然语言表征中的意义所需的原语言。而要提供这些东西,本体论必须包含有对概念的定义,这些概念可理解为世界上的事物和事件类别的反映。从结构上说,本体论是一系列的构架,或一系列被命令的属性-价值对子。”[11]它为要表征的词项的意义作本体论的定位,即说明它属于哪一类存在,其特点、性质、边界条件是什么。例如当有一词“pay”输入进来,首先就要经过本体论这一环节,换言之,该词首先要被表征为一个本体论概念,要被放进本体论的概念体系之中,一当这样做了,它的属性、值便被规定了。有了本体论概念框架,在这种静态知识资源上就可以不断生成各种含有意义表征的动态知识资源。动态的知识资源是在应用所提出的任务、要求的基础上所产生的知识。
有了关于人类加工自然语言所需条件比较清楚和量化的认识,就有可能通过建立相应的网络让计算机也获得这样的条件,进而让机器表现出对意义的敏感,最终具有语义加工能力。本体论语义学相信:这不是没有可能的,至少有巨大的开发前景。对此,本体语义学进行大胆地尝试,并建构出典型的语义加工模型。其具体操作就是:先让加工器具备静态和动态的知识知源,然后让其有相应的加工能力。在实践的基础上,尼伦伯格等人通过分析公认的自然语言加工Stratified模型,详细说明了机器进行语义加工的基本原理与过程。
在尼伦伯格等人看来,智能主体要理解文本意义离不开至少六个基本环节的加工。第一步是文本分析,即要对输入的文本产生一个表征了文本的意义的正式表达式。由这任务所决定,它必须有分析器和生成器。从文本分析过程来说,文本要输入到系统之中,首先要经过“前加工”将文本加以重新标记,并区别分析不同语言、不同体裁和风格的不同文本,以便让文本能为系统所分析。第二步是对标记过的文本动用生态学、形态学、语法学、词汇学的静态知识资源作形态学分析,形成关于文本单词的引用形式分辨。例如碰到“书”这个词的输入,形态学分析会这样来分析:“book,名词,复数”,“book,动词,现在时,第三人称,单数”等。第三步就会把它们送给词汇学分析器,并激活这一分析器的入口。这个入口包含有许多类型的知识和信息,如关于句法的信息,关于词汇语义学的信息,其作用是检查、净化形态学分析的结果。例如英文文本中可能夹杂有法、德、意等语言的单词,还有一些模棱两可的单词,更麻烦的是,有些词在词汇分析器中没有出现过,因此无法予以检查。在这些情况下,就要予以查检、甄别,如对不熟悉的词,它有一些处理的步骤和办法。第四步是句法分析。第五步是决定基本的语义从属关系,例如建立未来的意义表征的命题结构,确定哪些因素将成为这些命题的主题,并决定该命题的属性位置。
在此基础上,本体论语义学提出了语义加工机的完整构想。尼伦伯格认为,机器要完成文本意义表征,必须有加工器和静态知识资源。首先第一步,借助静态知识资源(生态学、句法、形态学、词汇学、词源和本体论及事实材料)对输入文本作出分析,然后又借助这些知识资源产生文本意义表征。分析模块和语义生成器都离不开静态知识资源。知识资源是如何得到的呢?要靠学习。“本体论语义学必须涉及到学习:它们越起作用,它们储存的关于世界的知识就越多,它们可望达到的结果就越好。”[12]除了静态知识之外,计算机要完成语义表征,还必须有动态的知识,它们是关于意义表征的程序方面的知识以及推理类型的知识。另外,加工器还要有这样的动态能力,即把所储存的知识动态地提取出来,运用于知识表征。尼伦伯格等人说“在本体论语义学中,这些目的是通过把文本意义表征、词汇和本体论关联起来而实现的。”[13]“我们关于表征文本意义的方案动用了两种手段,一是本体论概念的例示,二是与本体论无关的参数的例示。前者提供了与任何可能的文本意义表征例示相一致的、抽象的、非索引的命题。这些例示是这样得到的,即提供了基本的本体论陈述,它们有具体的情境的、包含有参数的值,如方面、方式、共指等。”[14]在这里,本体论的概念之所以抽象但又必要,主要是因为它提供了对存在和语词的分类,如对于要表征的意义,它首先要借助这种本体论范畴确定它是属于物体、属性、方面、方式、过程、活动、数量中的哪一种。简言之,对于任一词的意义或所指,首先要借助本体论概念确定它应包含在哪一类存在范畴之中。在此基础上,再用非本体论参数分析它的具体的、情境方面的值。
三 特点与问题
本体论语义学与其他人工智能理论、自然语言加工系统相比有自己的一些鲜明特点。其一,它强调对意义的处理无需通过句法分析,至少主要不是通过句法分析。在它看来,机器对意义的接受、表征、加工、生成和输出,或者说,让机器的句法加工具有语义性或意向性,靠的主要不是原先的关键词匹配,句法转换,而依赖的是对人类智能的全方位模拟。其二,本体论语义学认识到了人类心理状态具有意向性、自然语言具有语义性依赖于复杂的因素,并在这种认识的基础上形成了研究意义的一种综合性方案。在具体的工程学实践中,它关注到了意义处理中的多方面因素,即不仅仅注意到了知识性因素,而且还重视潜藏在人类智能中的非知识因素,并通过特定的方式将它们“内化”到他们所建构的人工智能系统之中。第三,本体语义学非常重视本体论图式在人类心理状态意向性、自然语言语义性中的作用,并在将这一认识成果向工程技术领域转化,进而让自然语言加工系统获得这一语义生成的重要枢纽、机制方面做了大胆探索,取得了富有启发意义的初步成果。第四,本体论语义学的确有重要的实践意义和广阔的应用前景,最重要的应用价值是它能产生文本意义表征。因为它的语义处理系统可以借助静态知识资源对输入文本作出分析,借助加工器的动态能力将所储存的知识动态地提取出来,并运用于知识表征, 然后借助这些知识资源产生文本意义表征,并由特定输出设备完成在意义交流层次的人机对话。
可以说,本体论语义学面对当前人工智能发展的瓶颈问题,基于工程学实践和哲学反思,不仅在构建现实的语义机方面做出了极富价值的探索,也为揭示人类自然语言处理的基本原理提供了可资借鉴和进一步反思的研究成果。因此本体论语义学对于人工智能的发展来说是必不可少的选择之一。但是,这并不意味着本体语义学就是完备的、无懈可击的人工智能理论,非但如此,它尽管是为了回应塞尔中文屋论证和其他关于人工智能责难而提出的一种方案,但仍会受到这样的责难:它的自然语言系统所处理的意义、所生成的意义,好像仍离不开设计操作人员的解释,如果是这样,那么它充其量只有派生的意向性、语义性。其次,最大的问题是:这种理论建立的系统仍没有主动性、自觉性、意识性、目的性,而这些性质恰恰是人类固有的意向性的特征。因此要让机器成为像人类那样的有意向性的自主系统看来还有很长的路要走。
注 释
[1][4][6][7][8][9][10][11][12][13][14] S. Nuremburg and V. Raskin, Ontological Semantics, Cambridge, MA: The MIT Press, 2004, xiii, xiii, pp.138-139, p.154, p.111, p.88, p.135,p191, p160, p160,p174.
[2][3]塞尔:《心灵、大脑与程序》载于玛格丽特·博登:《人工智能哲学》,上海译文出版社,2001,第113页,第116页。
[5] N. Guarino, “Formal Ontology”, in N. Guarino et al (eds.), Special Issue, The Role of Formal Ontology in the Information Technology, International Journal of Human and Computer, 1995(43)5-6.