$立委
AI 里面调子最高的一派是 Doug Lenat,他的 cyc 项目进行了多年,获得了政府和许多high profile sponsors 的多年资助,一直无法实用,尽管他自己10年前就宣扬已经接近应用前夜了。对于 Doug Lenat,我打心底钦佩,这种基于常识推理的 AI 需要苦功夫,是对人的智能(一个侧面)的逼真模拟。
多数学者对此不以为然,对这种“纯粹AI”不看好,大家大都转向以统计为基础的机器学习 ML。基本上是把人的智能看成黑箱,不再试图从本质上模拟人脑的过程,包括逻辑推理,而是把每一个具体的智能活动定义为一个任务,一个从输入转换成所求的输出的任务,而这是可以客观度量的。只要机器能够训练成尽可能逼近所需的输出,人的智能就局部实现了。
ML 和 NLP
如今,NLP(包括机器翻译MT)也基本上已经被搞ML的人统治了,传统的规则方法只能打边鼓了。他们也确实弄出一些名堂来,尤其是语音处理,分类(classification),和知识习得(knowledge acquisition)方面。
目前的情况是,有指导的学习(supervised learning) 比较成熟,但遇到知识瓶颈,就是大数据量的 labeled data 的问题。如果问题单纯,features 选取容易,又有海量数据,学习的结果真地可以很接近人工水平。我们曾经做过一项研究(同时IBM也做了这项研究,不如我们深入,但大同小异,结果也类似),找到了一个很好的应用领域做 Case Restoration,效果奇好。过去很多档案文字的电子版本是全大写的,网络上现在还有很多文件也是不分大小写的(譬如很多语音识别出来的材料,标题,还有论坛和电子邮件的非正式文字,等等),这就给自然语言处理和信息抽取造成困难,因为多数NLP/IE系统是assume的input是正常大小写夹杂的文字,一旦输入文件没有大小写的区别,一切就乱套了。连最基础的词类区分(POS: Part-of-Speech tagging)和专名识别(NE: named entity tagging)都寸步难行(最重要的一个识别专名边界的clue就是大写)。为了解决这个问题,以前的研究者就设计两套系统,比如BBN就把大小写的 features统统弃置重新训练一套NE系统来对付没有大小写的input, 除了overhead, 系统性能也下降很多。我们想,如果我们先把大小写恢复,然后再做NLP/IE不就成了。这个恢复大小写的任务相对比较单纯,训练文本几乎是无限的,因为网上多数文字都是区分大小写的。我们利用着现成的 labeled data, 用最简单的HMM算法,学出了一个高效能的系统,解决了这个问题,结果超出预料地好。(Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004.:[http://homepage.mac.com/liwei999/Publications_PDF/IJAIT2004caseR.pdf])
不过,这样讨巧的事并不多 (一个类似可以讨巧的是某些classification的任务:比如想训练一个给评语分类的系统,就可以上网找到很多客户回馈的记录,这些记录除了文字外,常常还有星号标识,以1个星号表示很差,5星表示很好)。多数任务会遇到 lebeling data 的难题。ML界的共识之一就是,data, data and data. 很多时候,算法的优劣是其次的,主要还是要海量的data. 数据量大了,学习的效果自然就好了。这是 supervised learning 的真正知识瓶颈。我就见过这样的系统,本来是可以随时重新训练以适应新情况的,结果成为一个死的系统,任何后续的改进都不是经过增加数据重新训练,而是在系统外部打各种补丁。ML 的优势就失去了。
无须指导的学习(Unsupervised learning)因此引起学者的兴趣,成为热点,因为所需的训练材料无须标注。在网络世界,有的是 raw data. 对某个对象进行 clustering 就可以用 unsupervised leaning, 出了很多有意思的结果。Clustering 有别于 classification, 前者没有预定一个目标,根据features只要长得象的就归在一起,后者是有预定的 tag set 作为分类的目标。只要设计者心中有个总目标,features 选取得当,可以控制 clustering 的结果的粗细,然后去现实世界或使用者中印证clustering的合理性。反正是unsupervised learning, 不妨多来几次,选取最好的结果作为方向,这样就可以把clustering 转化成具有广泛应用的 classification. (在人类智能活动中,分类是最常用的技能,也是应用最广泛,相对单纯,比较易于机器学习和模拟成功的任务。大千世界,林林总总,为了把握它,人类第一个要做的就是分类。分类以后,才好缩小范围,focus 到某个子领域,钻进去仔细分析。)
正如自如所述,目前很多研究者对所谓 weakly supervised learning 情有独衷,觉得这是一个具有突破性的研究方向。传统的supervised learning有知识瓶颈而为人诟病,完全没有指导的学习效率不高,因此尝试利用有限labeled data作为种子(seeds), 怎样引导学习程序一步一步向指定方向去,这是一个充满魅力和实用前景的路子。这方面的成果令人鼓舞,但总体还在探索阶段,只有少部分课题已经接近临床实用,譬如分类和词典习得(lexicon acqusition).