终极算法 第六章 贝叶斯学派:在贝叶斯教堂里

终极算法 第六章 摘要

统治世界的定理

通往最优学习的路径始于一个公式,这一点许多人都听说过:贝叶斯定理。但在这里,我们会以全新的眼光来看待这个公式,而且会意识到,它的力量要比你根据其日常用途猜测的要大得多。本质上,贝叶斯定理不仅仅是一个简单的规则,当你收到新的论据时,它用来改变你对某个假设的信任度:如果论据和假设一致,假设成立的概率上升,反之则下降。贝叶斯是第一个描述用新方法来考虑概率的牧师,但把那些想法变成定理,并以贝叶斯的名字来命名的人,却是拉普拉斯。这看起来有点讽刺的意味,因为拉普拉斯也是概率论的创始人之一,而他认为概率论仅仅是种可简化为计算的常识。他对于概率的探索本质上是对于休谟问题的专注。例如,我们怎么知道明天太阳会升起?太阳每天都会升起,今天也是,但没有什么能够保证它会继续升起。

贝叶斯定理作为统计学和机器学习的基础,受到计算难题和巨大争论的困扰。贝叶斯学派的回答是:概率并非频率,而是一种主观程度上的信任。因此,用概率来做什么由你决定,而贝叶斯推理让你做的事就是:通过新证据来修正你之前相信的东西,得到后来相信的东西(也被人们称为“转动贝叶斯手柄”)。贝叶斯学派 对此观点的忠实近乎虔诚,足以经得住200年的攻击和计算。计算机已经强大到足以做贝叶 斯推理,且在大数据的辅助下,它们开始占据上风。

所有模型都是错的, 但有些却有用

如果学习算法利用贝叶斯定理,且给定原因时,假定结果相互独立,那么该学习算法被称为“朴素贝叶斯分类器”。因为这是一个很朴素的猜想。

没有人能肯定是谁发明了朴素贝叶斯算法。在1973年的一本模式识别教科书中,它被提到过,当时并未注明出处,但它真正流行起来是在20世纪90年代,那时研究人员惊喜地发现,它很多时候比许多更为复杂的学习算法还要准确。那时我还是一名研究生,而当我终于决定把朴素贝叶斯法纳入我的实验时,我震惊地发现自己很幸运,除了那个我运用到论文中的算法,它比所有我用来与之对比的算法都要有用,否则我可能也不会在这里了。

朴素贝叶斯法如今应用得很广泛。例如,它是许多垃圾邮件过滤器的基础。朴素贝叶斯法与感知器算法密切相关。感知器增加权值, 而朴素贝叶斯法则增加概率,但如果你选中一种算法,后者会转化成前者。在看新闻时,朴素贝叶斯法是学习算法可以利用的良好概念模型:它可以捕获输入与输出之间两两相关的关系,这对于理解将学习算法引用到新事件中很有必要。但是机器学习也不仅仅和两两相关关系有关,当然,正如大脑不仅仅包含一个神经元一样。

从《尤金·奥涅金》到Siri

源于谷歌的页面排名,本身就是一条马尔可夫链。拉里·佩奇认为,含有许多链接的页面,可能会比只含几个的要重要,而且来自重要页面的链接本身也更有价值。这样就形成了一种无限倒退,但我们可以利用马尔可夫链来掌控这种倒退。想象一下,一个页面搜索用户通过随机点击链接来从这个页面跳到另外一个页面:这时马尔可夫链的状态就不是文字而是页面了,这样问题就变得更为复杂,但数学原理是一样的。那么每个页面的得分就是搜索用户花在该页面上的时间,或者等于他徘徊很久后停留在该页面上的概率。

马尔可夫链无处不在,而且是人们研究最多的数学话题,但它仍是受到很大限制的概率模型。

所有东西都有关联, 但不是直接关联

20世纪80年代终于有了突破。朱迪亚·珀尔(加州大学洛杉矶分校的一名计算机科学教授)发明了一种新的表示方法:贝叶斯网络。珀尔是世界上最为卓著的计算机科学家之一,他的方法在机器学习、人工智能,以及其他许多领域迅速传播。2012年,他获得图灵奖,这是计算机科学领域的诺贝尔奖。

据生物学家巴里·康芒纳的观点,生态学的第一定律就是所有生命都与其他生命相互关联。这个说法可能正确,但也会使人们无法理解这个世界,如果不是多亏条件独立性:每个生命都相互关联,但只是间接关联。

贝叶斯网络最激动人心的应用之一,就是模拟基因在活细胞中如何相互管制。人们已经花费数十亿美元来找到单个基因和特殊疾病的两两相关关系,但产出却低得让人失望。回想 一下,这并不奇怪:细胞的活动是基因与环境复杂的相互作用的结果,而单个基因的预测能力有限。但有了贝叶斯网络,我们可以揭开这些相互关系,只要我们有必要的数据,而随着DNA微阵列技术的普及,我们越来越有希望能做到。

赫克曼和其他人已经对贝叶斯网络进行学习,通过这种方法来诊断数百种传染病。谷歌在其AdSense系统中利用这种类型的庞大贝叶斯网络,用于自动选择广告放入网页中。该网络将100万的满足变量相互关联起来,同时还通过3亿个箭头与1200万的词语和词组相关联,这些词语和词组都是从1000亿个文本片段和搜索词条中掌握的。

推理问题

遗憾的是,推理问题是一个巨大的障碍。仅仅因为贝叶斯让我们简洁地表达概率分布,这并不意味着我们也可以利用它进行有效推理。

贝叶斯网络中的推理不仅限于计算概率,它也包括为证据找到最可信的解释方法,最能解释症状的疾病或者最能解释Siri听到的声音的词语。无人驾驶车辆和其他机器人是实践中概率推理的最好例子。

掌握贝叶斯学派的方法

知道了如何解决推理难题,就可以从数据中掌握贝叶斯网络了,因为对于贝叶斯学派来说,学习只是另一种形式的概率推理。你需要做的只是运用贝叶斯定理,把假设当作可能的原因,把数据当作观察到的效果。

马尔可夫权衡证据

马尔可夫网络在许多领域中能起到主要作用,例如,计算机视觉。

马尔可夫网络可以经过训练,来最大化整个数据的可能性,或者在知道某些信息的情况下,将我们想预测的事情的可能性最大化。

现在联结学派打着深度学习的旗号再次占据主导地位。有些人说研究总是处于循环状态,但它更像一个螺旋,闭环沿着前进的方向绕。在机器学习中,螺旋会收敛至终极算法。

逻辑与概率:一对不幸的组合

将联结学派和进化学派结合起来很简单:只要改善网络结构,利用反向传播来掌握参数。但将逻辑和概率统一起来要困难得多。最早尝试这么做的人是莱布尼茨,他是逻辑和概率的开拓者。还有一些19—20世纪最伟大的哲学家和数学家,比如乔治·布尔和鲁道夫·卡尔纳普,他们都努力想解决这个问题,但最终没有走得很远。最近,计算机科学家和人工智能研究人员加入了这场争论。随着21世纪的到来,我们取得的最好成果也是不完整的,比如将一些逻辑结构加入贝叶斯网络中。多数专家相信,将逻辑和概率相统一是不可能的。寻求一个终极算法的前景并不乐观,特别原因在于,当前进化学派的和联结学派的算法无法处理不完整的信息和多数据组。

注:摘自原书中文版(百度云下载PDF) 第六章