概率论的基本概念
概率分布列出了随机变量或事件的所有可能取值对应的概率值。离散的分布可以以表格的形式列出;而连续的分布则使用概率密度函数
p(a<x<b)=∫abρ(x)dx
边缘分布是对于联合分布而言的,固定一个变量的取值,将其他所有的变量概率全部求和消去,得到该变量的综合分布
条件概率又称后验概率,无条件概率称为先验概率。在事件b发生的条件下事件a发生的概率表示为
P(a∣b)=P(b)P(a,b)
其中P(a,b)是ab都发生的概率
由该公式可推广得到联合概率的链式法则
Note
P(x1,x2,⋯,xn)=i∏P(xi∣others)
分布的归一化是概率密度应当归一化,若不满足
∫−∞+∞ρ(x)dx=α=1
则应取
ρ′(x)=ρ(x)/α
使得它归一化
全概率公式
P(X=x)=y∑P(X=x,Y=y)=y∑P(X=x∣Y=y)P(Y=y)
独立性
随机变量A,B独立等价于
P(A,B)=P(A)P(B)
这意味着A的取值与B完全无关,B也一样
P(A∣B)=P(A), P(B∣A)=P(B)
这是非常严格的,称为绝对独立。还有不那么严格的条件独立,给定条件C下有
P(A,B∣C)=P(A∣C)P(B∣C)
这是说在给定C条件下A,B的分布无关
P(A∣BC)=P(A∣C), P(B∣AC)=P(B∣C)
虽然条件独立没有那么严格,但实际上绝对独立和条件独立互不蕴含,即
贝叶斯法则
贝叶斯公式可以写为
P(a∣b)=P(b)P(b∣a)P(a)
或是同一做归一化的话可以利用归一化因子将其写为
P(a∣b)=αP(b∣a)P(a)
如果将b视为新知道的信息,P(a)则是知道信息之前的分布(先验分布),P(a∣b)是知道信息后修正的分布(后验分布),那么P(b∣a)则是似然函数,代表应该如何修正概率
更新认知
P(a∣data)=αP(data∣a)P(a)
如果以因果的视角来看,贝叶斯公式可以改写为
P(因∣果)=P(果)P(果∣因)P(因)
一般来说由原因导致结果的概率是容易知道的,那么知道结果,各个原因发生的概率就可以由贝叶斯公式得到。这通常比较反直觉,假定一种方法能以99%的可靠度确诊一种病(患病者被确诊的概率),那么只要人群中患病的比例非常小,即便确诊,真实患病的概率依然不会很大
利用贝叶斯法则合并证据
若有多个证据,假定有n个取值为0,1的随机变量,那么如果朴素地考虑每一种可能性需要考虑的情况是指数级的
如果有n个已知条件c1,c2,⋯,cn(已知的结果事件),希望求解得到某个原因时间A发生的概率,即求
P(A∣c1∧c2∧⋯∧cn)
利用贝叶斯公式将条件和结论反过来
P(A∣c1∧c2∧⋯∧cn)=P(c1∧c2∧⋯∧cn)P(c1∧c2∧⋯∧cn∣A)P(A)
鉴于只有c1∧c2∧⋯∧cn和¬(c1∧c2∧⋯∧cn)两种情况,分母上的概率可以认为是归一化常数,简化为
P(A∣c1∧c2∧⋯∧cn)=αP(c1∧c2∧⋯∧cn∣A)P(A)
可以认为在条件A下,c1,c2,⋯cn是独立的,那么
P(A∣c1∧c2∧⋯∧cn)=αP(c1∣A)P(c2∣A)⋯P(cn∣A)P(A)
这样就把复杂的条件概率分为了多个简单的条件概率乘积,复杂度由指数下降到了线性
朴素贝叶斯模型
再回顾上一节得到的公式
P(A∣c1∧c2∧⋯∧cn)=P(c1∧c2∧⋯∧cn)P(c1∧c2∧⋯∧cn∣A)P(A)
代入条件概率的公式
P(A∣c1∧c2∧⋯∧cn)=P(c1∧c2∧⋯∧cn)P(A∧c1∧c2∧⋯∧cn)
那么就得到了
P(A∧c1∧c2∧⋯∧cn)=P(c1∧c2∧⋯∧cn∣A)P(A)
如果再假定条件A下,c1,c2,⋯cn是独立的,即
朴素贝叶斯模型
P(原因∧结果1∧结果2∧⋯∧结果n)=P(原因)i∏P(结果i∣原因)
朴素贝叶斯模型的便利之处在于它可以消去未观测变量。假定希望求解原因事件A发生的概率,已知结果e,但是还有未观测事件y,那么利用全概率公式
P(A∣e)=i∑P(A,e,yi)
再利用朴素贝叶斯模型
P(A,e,yi)=P(A)P(yi∣A)P(e∣A)
代入即得
P(A∣e)=P(A)P(e∣A)i∑P(yi∣A)
后面的求和由概率的归一化得为1,那么
P(A∣e)=P(A)P(e∣A)
公式依然是正确的