编辑
2024-12-11
数学
0
请注意,本文编写于 129 天前,最后修改于 129 天前,其中某些信息可能已经过时。

目录

概率论的基本概念
独立性
贝叶斯法则
利用贝叶斯法则合并证据
朴素贝叶斯模型

概率论的基本概念

概率分布列出了随机变量或事件的所有可能取值对应的概率值。离散的分布可以以表格的形式列出;而连续的分布则使用概率密度函数

p(a<x<b)=abρ(x)dxp(a<x<b)=\int_a^b\rho(x)dx

边缘分布是对于联合分布而言的,固定一个变量的取值,将其他所有的变量概率全部求和消去,得到该变量的综合分布

条件概率又称后验概率,无条件概率称为先验概率。在事件b发生的条件下事件a发生的概率表示为

P(ab)=P(a,b)P(b)P(a|b)=\dfrac{P(a,b)}{P(b)}

其中P(a,b)P(a,b)是ab都发生的概率

由该公式可推广得到联合概率的链式法则

Note

P(x1,x2,,xn)=iP(xiothers)P(x_1,x_2,\cdots,x_n)=\prod_iP(x_i|others)

分布的归一化是概率密度应当归一化,若不满足

+ρ(x)dx=α1\int_{-\infty}^{+\infty}\rho(x)dx=\alpha\neq 1

则应取

ρ(x)=ρ(x)/α\rho'(x)=\rho(x)/\alpha

使得它归一化

全概率公式

P(X=x)=yP(X=x,Y=y)=yP(X=xY=y)P(Y=y)P(X=x)=\sum_yP(X=x,Y=y)=\sum_yP(X=x|Y=y)P(Y=y)

独立性

随机变量A,BA,B独立等价于

P(A,B)=P(A)P(B)P(A,B)=P(A)P(B)

这意味着AA的取值与BB完全无关,BB也一样

P(AB)=P(A), P(BA)=P(B)P(A|B)=P(A),~P(B|A)=P(B)

这是非常严格的,称为绝对独立。还有不那么严格的条件独立,给定条件CC下有

P(A,BC)=P(AC)P(BC)P(A,B|C)=P(A|C)P(B|C)

这是说在给定CC条件下A,BA,B的分布无关

P(ABC)=P(AC), P(BAC)=P(BC)P(A|BC)=P(A|C),~P(B|AC)=P(B|C)

虽然条件独立没有那么严格,但实际上绝对独立和条件独立互不蕴含,即

注意

绝对独立不能推出条件独立,反之亦然

贝叶斯法则

贝叶斯公式可以写为

P(ab)=P(ba)P(a)P(b)P(a|b)=\dfrac{P(b|a)P(a)}{P(b)}

或是同一做归一化的话可以利用归一化因子将其写为

P(ab)=αP(ba)P(a)P(a|b)=\alpha P(b|a)P(a)

如果将bb视为新知道的信息,P(a)P(a)则是知道信息之前的分布(先验分布),P(ab)P(a|b)是知道信息后修正的分布(后验分布),那么P(ba)P(b|a)则是似然函数,代表应该如何修正概率

更新认知

P(adata)=αP(dataa)P(a)P(a|data)=\alpha P(data|a)P(a)

如果以因果的视角来看,贝叶斯公式可以改写为

P()=P()P()P()P(因|果)=\dfrac{P(果|因)P(因)}{P(果)}

一般来说由原因导致结果的概率是容易知道的,那么知道结果,各个原因发生的概率就可以由贝叶斯公式得到。这通常比较反直觉,假定一种方法能以99%99\%的可靠度确诊一种病(患病者被确诊的概率),那么只要人群中患病的比例非常小,即便确诊,真实患病的概率依然不会很大

利用贝叶斯法则合并证据

若有多个证据,假定有nn个取值为0,10,1的随机变量,那么如果朴素地考虑每一种可能性需要考虑的情况是指数级的

2n2^n

如果有nn个已知条件c1,c2,,cnc_1,c_2,\cdots,c_n(已知的结果事件),希望求解得到某个原因时间AA发生的概率,即求

P(Ac1c2cn)P(A|c_1\land c_2\land\cdots\land c_n)

利用贝叶斯公式将条件和结论反过来

P(Ac1c2cn)=P(c1c2cnA)P(A)P(c1c2cn)P(A|c_1\land c_2\land\cdots\land c_n)=\dfrac{P(c_1\land c_2\land \cdots\land c_n|A)P(A)}{P(c_1\land c_2\land\cdots\land c_n)}

鉴于只有c1c2cnc_1\land c_2\land\cdots\land c_n¬(c1c2cn)\neg (c_1\land c_2\land\cdots\land c_n)两种情况,分母上的概率可以认为是归一化常数,简化为

P(Ac1c2cn)=αP(c1c2cnA)P(A)P(A|c_1\land c_2\land\cdots\land c_n)=\alpha P(c_1\land c_2\land \cdots\land c_n|A)P(A)

可以认为在条件AA下,c1,c2,cnc_1,c_2,\cdots c_n是独立的,那么

P(Ac1c2cn)=αP(c1A)P(c2A)P(cnA)P(A)P(A|c_1\land c_2\land\cdots\land c_n)=\alpha P(c_1|A)P(c_2|A)\cdots P(c_n|A)P(A)

这样就把复杂的条件概率分为了多个简单的条件概率乘积,复杂度由指数下降到了线性

朴素贝叶斯模型

再回顾上一节得到的公式

P(Ac1c2cn)=P(c1c2cnA)P(A)P(c1c2cn)P(A|c_1\land c_2\land\cdots\land c_n)=\dfrac{P(c_1\land c_2\land \cdots\land c_n|A)P(A)}{P(c_1\land c_2\land\cdots\land c_n)}

代入条件概率的公式

P(Ac1c2cn)=P(Ac1c2cn)P(c1c2cn)P(A|c_1\land c_2\land\cdots\land c_n)=\dfrac{P(A\land c_1\land c_2\land\cdots\land c_n)}{P(c_1\land c_2\land\cdots\land c_n)}

那么就得到了

P(Ac1c2cn)=P(c1c2cnA)P(A)P(A\land c_1\land c_2\land\cdots\land c_n)=P(c_1\land c_2\land \cdots\land c_n|A)P(A)

如果再假定条件AA下,c1,c2,cnc_1,c_2,\cdots c_n是独立的,即

朴素贝叶斯模型

P(原因结果1结果2结果n)=P(原因)iP(结果i原因)P(原因\land 结果1\land 结果2\land\cdots\land 结果n)=P(原因)\prod_iP(结果i|原因)

朴素贝叶斯模型的便利之处在于它可以消去未观测变量。假定希望求解原因事件AA发生的概率,已知结果ee,但是还有未观测事件yy,那么利用全概率公式

P(Ae)=iP(A,e,yi)P(A|e)=\sum_iP(A,e,y_i)

再利用朴素贝叶斯模型

P(A,e,yi)=P(A)P(yiA)P(eA)P(A,e,y_i)=P(A)P(y_i|A)P(e|A)

代入即得

P(Ae)=P(A)P(eA)iP(yiA)P(A|e)= P(A)P(e|A)\sum_iP(y_i|A)

后面的求和由概率的归一化得为11,那么

P(Ae)=P(A)P(eA)P(A|e)= P(A)P(e|A)

公式依然是正确的

本文作者:GBwater

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!