From Wikipedia, the free encyclopedia
條件概率(粵拼:tiu4 gin2 koi3 leot2;英文:conditional probability)係概率論上一個概念,反映咗「已知呢個條件達到咗,呢件呢件事發生嘅機會率有幾高」噉嘅資訊。精確啲講,想像依家有兩件事件 同 ,當中 唔知發生咗未, 發生嘅機會率係 咁多,而假如 「係咪發生咗」會影響 ,研究者就好可能會想知 同 之間嘅條件概率。「已知 發生咗, 會發生」呢一個條件概率,喺數學上係噉嚟表達嘅:
條件概率嘅概念,喺統計學等嘅領域上有相當嘅價值。响廿一世紀初,統計分析實會用到建基於條件概率嘅諗頭,例子可以睇吓統計功效(進階統計實會用到)等嘅基礎統計概念。除此之外,教 AI 處理語言嘅工作都會用到條件概率,例子可以睇吓 N-gram 相關嘅嘢。
條件概率係概率論[e 1]上嘅一個重要概念。條件概率係指「如果已知[e 2]某某事件發生咗,另外一件事件會發生嘅機會率」,例如「已知 發生咗, 會發生」呢個條件概率,用數學符號寫如下:
根據廿一世紀初最常用嗰個定義,上述嘅數值可以用以下呢條式計[1]:
呢條抽象嘅式可以用圖像化嘅方法嚟諗。想像以下呢一幅溫氏圖,每一笪空間都掕咗個數,個數表示嗰一件事件發生嘅機會率,例如 、、 同 呢幾個泡沫外嗰笪空間係 0.34,表示呢四件事件冚唪唥都冇發生嘅機會率係 0.34 咁高。
噉想像而家要計 (已知 發生咗, 發生嘅機會率):
噉 就會係
如果 同 係互斥事件[e 3]嘅話,定義上表示佢哋一定唔會一齊發生,條數嘅計法就會係:
—「已知 發生咗而兩件事係互斥嘅, 唔會發生[註 1]。」
數值 | 如果兩者獨立... | 如果兩者互斥... |
---|---|---|
統計獨立[e 4]係概率論上嘅另一個重要概念,可以用條件概率嚟諗。如果話某兩件或者某幾件事件係「彼此之間獨立嘅」,意思係指嗰幾件事件之間唔會影響對方發生嘅概率。用數學化啲嘅方式表達嘅話,如果話 同 呢兩件事件係獨立嘅,即係指[2]:
諗返起條件概率嘅計法():
設咗 同 呢兩件事件係獨立嘅,掉一掉啲式:
——由此可見,假如兩件事件統計獨立,就表示「知道 發生咗」並唔影響「預計 有幾大機會發生」。除此之外,仲可以思考吓條件獨立[e 5]:設 做條件,如果話 同 喺呢個條件下有條件獨立,意思即係話[3]
或者
上述兩條式係同等嘅。
→ 根據條件概率嘅定義...
iff → 兩邊齊齊乘 ...
iff → 兩邊齊齊除 ...
iff → 根據條件概率嘅定義...
iff
喺呢個情況下,如果已知 發生咗, 係咪發生咗唔會影響 發生嘅機會率,同時 係咪發生咗唔會影響 發生嘅機會率。即係可以想像成「呢兩件事件喺某啲條件達到咗嘅情況下,會係彼此獨立嘅」[3]。
响廿一世紀初,條件概率謬論[e 6]係對條件概率嘅一個常見誤解,講到啲人成日有種信念,諗住以下嘅嘢實會成立:
意思即係話佢哋諗住 同 數值實係差唔多嘅——「將條件概率入便嗰兩件事掉轉,得出嘅數值應該唔會爭好遠」。呢個諗法其實係錯誤嘅[4],用圖像化嘅方式思考,可以睇睇以下幅圖:
設深色嗰笪做 (粵拼:sam1), 佔咗 嘅一小橛,即係話 係一個細嘅數值。但相對嚟講,如果一點屬於 ,佢一定會係屬於 ——
由此可見, 同 兩個條件概率爭好遠。數學化啲講,可以思考吓貝葉斯定理[e 7]講嘅嘢[5]:
由上述嘅分析可知,要達致 , 呢句嘢先會成立。
自然語言處理[e 8]係人工智能嘅一個學科,專門研究點樣教電腦處理粵語或者英文等嘅自然語言。自然語言本質上就係前後連貫嘅,已經聽咗或者睇咗嘅符號(語音或者文字都可以算符號)會影響跟住落嚟嗰啲符號要點樣理解[註 2],所以好多自然語言處理技術都會用到條件概率。
舉個簡單例子說明,N-gram 係一種相對簡單嘅自然語言處理技術,但係經已可以攞嚟教電腦分辨一段文字係咩語言[6]。想像依家有一串 100 隻字符咁長嘅符號,一個 3-gram 嘅演算法會睇每串連續三個符號係乜嘢樣,再用前兩個符號嘅樣估跟住嗰個符號最有可能會係乜;例如想像家陣手上有串噉嘅粵語字[7][8]:
依家只睇呢段字:如果打前兩個字符係鍾意
,跟住嗰個符號係嗌
嘅機率係 100% 咁高:响呢一串字入面,鍾意
出現咗一次咁多,而喺嗰次當中串嘢跟住嘅字符係嗌
;所以上面段嘢嘅 3-gram 當中,「鍾意後面掕嗌」嘅機率係 100%。實際應用當中嘅 n-gram 會用極大量嘅語言資源嚟做類似嘅估計,計出一隻語言啲字符以至字詞之間嘅統計關係。數學化噉講,一個 n-gram 模型定義上係用[9]
嘅數值嚟預測 ,從而計出
——即係要計「已知前面嗰串符號係 噉嘅樣, 會係噉噉噉樣」噉嘅條件概率。淨係靠住用呢種方法做嘅 n-gram,已經可以做到某一啲比較基礎嘅自然語言處理工作,好似係語言辨認噉——例如同中文書面語(原則上係建基於標準官話嘅)比起嚟,粵語白話文啲名詞後面應該比較大機會出現嘅呢隻字,所以一個人工智能可以靠呢啲條件概率,分辨唔同嘅語言。
關聯規則[e 9]相關嘅分析,會用到條件概率呢個概念。關聯規則可以理解為一啲「如果... 就...」噉嘅法則,描繪數據裡便啲變數之間有咩關係。依家想像有班做營銷[e 10]工作嘅分析師,想探知消費者買嘢嗰陣嘅習慣係點,佢哋由一間超市嗰度攞咗數據,得知某年某月某日,到訪嗰間超市嘅客每個人買咗啲乜,即係話手上嘅數據望落好似噉[10][11]:
顧客 A: 荔枝、啤酒、白米、豬肉 | 顧客 B: 荔枝、啤酒、白米 | 顧客 C: 芝士、啤酒、白米、豬肉 | 下略大約 6,000 個個案... |
喺最基本上,班分析師可以計吓每種貨品有人買嘅機率係幾多(支持度[e 11]),例如設 做一個客「買荔枝嘅機會率」, 可以好簡單噉計到出嚟:
班分析師可以做更進階嘅分析。除咗計一件貨品支持度有幾高,佢哋仲可以[11]:
做咗呢啲分析之後,營銷分析師就可以預測客人行為[13],可以用各種手法圖利(或者做啲嘢方便顧客)。例如如果知道咗客人買親 C 傾向會買埋 D,賣方就可以做減價嗰陣特登淨係同 C 或者 D 其中一樣做減價,又或者暗中將啲賣 D 嘅廣告 show 畀買咗 C 嘅客睇... 等等[14]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.