浅谈绯闻与贝叶斯公式

绯闻有多不靠谱

Posted by CR on June 17, 2018

一、前言

这是CR Blog的第一篇博文(我也没想到会那么不正经贴近生活)。

今天是父亲节,所以我们来@CK谈谈八卦(这有什么关系吗)

今天,我们来探讨一下,一个绯闻的准确度。

二、理论准备

 此处需要数学。

1.一些符号

我们怎么量化分析绯闻呢?

这里,我们就要请出我们的主角:托马斯·贝叶斯(Thomas Bayes)。

小贝提出,什么叫“信”、什么叫“不信”呢?贝叶斯说,你对某个假设的相信程度,应该用一个概率来表示 ——

P(假设)。

P = 1 就是绝对相信,P = 0 就是绝对不信,P = 15% 就是有一点信。咱们先把绯闻可靠程度给量化。这点相信学过第2单元的都知道。

有了新的证据我们要更新这个概率,变成 ——

P(假设|证据)

这个叫条件概率。一般来说,P(A|B) 的意思是“在 B 事件是真的条件下,A 事件的概率”。咱们举个例子,A 表示下雨,B 表示带伞。一般来说这个地方不常下雨,所以 P(A) = 0.1。但是今天你注意到爱看天气预报的老张上班带了伞,那你就可以推断,今天下雨的概率应该增加 —— 在“老张带伞”这个条件下的下雨概率,就是 P(A|B)。

注意如果我们画个因果关系,缘故 → 结果,在这里就是 “下雨 → 带伞” ,A → B,和 “有绯闻 → 喜欢”,它们都相当于 “假设 → 证据”。

现在我们想算的是 P(假设|证据),即P(喜欢|绯闻),是从结果倒推缘故,这叫“逆概率”,这个不好算。一般都是从缘故推结果容易算。比如说你看见一个小孩向窗户扔球,你可以估计窗户被打碎的概率有多大,这是“正向概率”。但如果你看到窗户碎了,想要推测窗户是怎么碎的,那就非常困难了。

所以咱们要算的是一个逆概率,这要怎么算呢?这就是贝叶斯的方法。

2.贝叶斯公式

为了计算 P(A|B),我们考虑这么一个问题:A 和 B 都发生的概率有多大?

这道题有两个算法。一个办法是先算出 B 发生的概率有多大,是 P(B);再算 B 发生的情况下,A 也发生的概率有多大,是 P(A|B),那么 A、B 都发生的概率,就是把这两个数相乘,结果是 P(A|B)×P(B)。同样道理,先考虑 A 发生再考虑 A 发生的条件下 B 也发生,结果是 P(B|A)×P(A)。这两个算法的结果一定相等,P(A|B)×P(B) = P(B|A)×P(A),于是(敲黑板

这就是贝叶斯公式

二、开始计算

1.绯闻的概率

看到这里,相信你已经跃跃欲试了。且慢,我们要做些准备。

首先,我们将喜欢标为L,将绯闻标记为F,则我们估计一下:

P(L)≈1/20,每个班估计只有一对true loverlove。

P(F)≈1/3,多亏CK我们班有三分之一沦陷。

P(F|L)≈9/10,暗恋的伪装没那么简单。

于是,带入计算:

P(L|F)=P(F|L)÷P(F)×P(L)=13.5%

看来绯闻的准确度不高,只有13.5%。所以,有绯闻不要紧,那证明别人关心你呢😂😂😂。

2.问题

上面的过程很科学不是吗?会有问题吗?

等等,我们看看公式中的数值。

发现没有?三个数字,都是我们估计的。如果换到别的学校,数字肯定不一样。

也就是说,贝叶斯公式,是主观的。

你的观点,随着事实,发生了改变。

那我们设想一下,如果每个人的阅历和想法不同,一开始的观点不一样,那么哪怕是面对同样的证据,人们更新之后的观点,也还是不一样的!所以贝叶斯方法本质上是个主观的判断方法:同样的证据,它允许你有不同的判断!

这也是很多科学家抨击它的理由。但是–

贝叶斯方法实际上是对科学方法的重大升级!

传统的科学方法,是

  1. 提出一个理论假设;
  2. 做实验验证;
  3. 如果实验结果符合理论,这个理论就暂时站得住脚,如果不符合,理论就被证伪了。

这是非黑即白的剧情,理论要么就继续保留,要么就彻底抛弃。

而贝叶斯方法则是先给理论假设设定一个可信度。新证据并不直接证实或者证伪理论,只是调整可信度的大小,做一个动态的判断。

贝叶斯方法是一种实用主义的态度。其实咱们想想,我们搞研究的目的并不一定是了解绝对真实的世界 —— 也许绝对真实的世界根本就不可知 —— 我们的目的是通过获取实用的知识,做出尽可能准确的判断和决策。

三、应用

1.计算机

1982年,珀尔把贝叶斯方法引入了人工智能领域,发明了“贝叶斯网络”。咱们说的因果关系网络就是一种贝叶斯网络。

一般的贝叶斯网络并不要求有因果关系,箭头 A → B 仅仅代表从 A 到 B 有条件概率。工程师先给网络上每一个节点设置一个信念值,然后用大量数据、用贝叶斯方法去更新这些信念值,计算 P(B|A) 或者 P(A|B)。每一次新数据都能让网络上的信念值更新一遍,叫做“信念传播”。

传统的贝叶斯网络仍然是基于经验的,但是比以前那种暴力式的数据分析要精确得多,用网络结构取代了老式人工智能算法的黑箱操作。贝叶斯网络的计算方法完全适用于因果关系图。

统计学家可能还在争论这个方法到底对不对,但是所有人都得承认贝叶斯方法的好处。每次你用手机打电话,把语音信号变成数字信号,再把数字信号编码再解码,其中用的就是贝叶斯方法。语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、Xbox给你的游戏水平打分……各种你想到和想不到的应用,都在使用贝叶斯方法。

也就是说,没有它,你估计不能在QQ上传绯闻了。

2.人生启迪

以下是鸡汤。 在人生中,我们经常会决策。用上贝叶斯方法,你的逼格认知会提高一个台阶。

贝叶斯方法的精髓:

  1. 先评估一下自己的信念,设定 P(信念);
  2. 等待新证据;
  3. 证据出来以后,用贝叶斯公式更新自己的信念,计算 P(信念|证据);
  4. 继续等待新证据……

    禅定时刻

    不要说什么“坚定不移”也不要听风就是雨。保持开放心态,让你的观点随事实发生改变,用一个量化的数值决定你的判断。虽然永远都摆脱不了主观的成分,但是你会做出更科学的决策。

最后,祝所有父亲节日快乐!