條件概率粵拼tiu4 gin2 koi3 leot2英文conditional probability)係概率論上一個概念,反映咗「已知呢個條件達到咗,呢件呢件事發生嘅機會率有幾高」噉嘅資訊。精確啲講,想像依家有兩件事件 ,當中 唔知發生咗未, 發生嘅機會率係 咁多,而假如 「係咪發生咗」會影響 ,研究者就好可能會想知 之間嘅條件概率。「已知 發生咗, 會發生」呢一個條件概率,喺數學上係噉嚟表達嘅:

Thumb
條件概率 :已知一點屬 ,佢有幾大機率會屬 呢?

條件概率嘅概念,喺統計學等嘅領域上有相當嘅價值。响廿一世紀初,統計分析實會用到建基於條件概率嘅諗頭,例子可以睇吓統計功效(進階統計實會用到)等嘅基礎統計概念。除此之外,教 AI 處理語言嘅工作都會用到條件概率,例子可以睇吓 N-gram 相關嘅嘢。

基礎概念

内文:概率論機會率
睇埋:互斥事件

條件概率係概率論[e 1]上嘅一個重要概念。條件概率係指「如果已知[e 2]某某事件發生咗,另外一件事件會發生嘅機會率」,例如「已知 發生咗, 會發生」呢個條件概率,用數學符號寫如下:

根據廿一世紀初最常用嗰個定義,上述嘅數值可以用以下呢條式計[1]

呢條抽象嘅式可以用圖像化嘅方法嚟諗。想像以下呢一幅溫氏圖,每一笪空間都掕咗個數,個數表示嗰一件事件發生嘅機會率,例如 呢幾個泡沫外嗰笪空間係 0.34,表示呢四件事件冚唪唥都冇發生嘅機會率係 0.34 咁高。

Thumb

噉想像而家要計 (已知 發生咗, 發生嘅機會率):

都發生嘅機率)
發生嘅機率)

就會係

如果 互斥事件[e 3]嘅話,定義上表示佢哋一定唔會一齊發生,條數嘅計法就會係:

—「已知 發生咗而兩件事係互斥嘅, 唔會發生[註 1]。」

統計獨立

More information , ...
對比統計獨立同互斥事件
數值 如果兩者獨立... 如果兩者互斥...
Close
内文:統計獨立
睇埋:條件獨立

統計獨立[e 4]係概率論上嘅另一個重要概念,可以用條件概率嚟諗。如果話某兩件或者某幾件事件係「彼此之間獨立嘅」,意思係指嗰幾件事件之間唔會影響對方發生嘅概率。用數學化啲嘅方式表達嘅話,如果話 呢兩件事件係獨立嘅,即係指[2]

諗返起條件概率嘅計法():

設咗 呢兩件事件係獨立嘅,掉一掉啲式:

——由此可見,假如兩件事件統計獨立,就表示「知道 發生咗」並唔影響「預計 有幾大機會發生」。除此之外,仲可以思考吓條件獨立[e 5]:設 做條件,如果話 喺呢個條件下有條件獨立,意思即係話[3]

或者

上述兩條式係同等嘅。

條件獨立:推導方法

→ 根據條件概率嘅定義...

iff → 兩邊齊齊乘 ...

iff → 兩邊齊齊除 ...

iff → 根據條件概率嘅定義...

iff

喺呢個情況下,如果已知 發生咗, 係咪發生咗唔會影響 發生嘅機會率,同時 係咪發生咗唔會影響 發生嘅機會率。即係可以想像成「呢兩件事件喺某啲條件達到咗嘅情況下,會係彼此獨立嘅」[3]

常見誤解

响廿一世紀初,條件概率謬論[e 6]係對條件概率嘅一個常見誤解,講到啲人成日有種信念,諗住以下嘅嘢實會成立:

意思即係話佢哋諗住 數值實係差唔多嘅——「將條件概率入便嗰兩件事掉轉,得出嘅數值應該唔會爭好遠」。呢個諗法其實係錯誤嘅[4],用圖像化嘅方式思考,可以睇睇以下幅圖:

Thumb

設深色嗰笪做 粵拼sam1), 佔咗 嘅一小橛,即係話 係一個細嘅數值。但相對嚟講,如果一點屬於 ,佢一定會係屬於 ——

由此可見, 兩個條件概率爭好遠。數學化啲講,可以思考吓貝葉斯定理[e 7]講嘅嘢[5]

由上述嘅分析可知,要達致 呢句嘢先會成立。

應用例子

N-gram

内文:N-gram

自然語言處理[e 8]人工智能嘅一個學科,專門研究點樣教電腦處理粵語或者英文等嘅自然語言。自然語言本質上就係前後連貫嘅,已經聽咗或者睇咗嘅符號語音或者文字都可以算符號)會影響跟住落嚟嗰啲符號要點樣理解[註 2],所以好多自然語言處理技術都會用到條件概率。

舉個簡單例子說明,N-gram 係一種相對簡單嘅自然語言處理技術,但係經已可以攞嚟教電腦分辨一段文字係咩語言[6]。想像依家有一串 100 隻字符咁長嘅符號,一個 3-gram 嘅演算法會睇每串連續三個符號係乜嘢樣,再用前兩個符號嘅樣估跟住嗰個符號最有可能會係乜;例如想像家陣手上有串噉嘅粵語字[7][8]

我星期日會同阿爺阿嫲去飲茶,最鍾意嗌燒賣嚟食。

依家只睇呢段字:如果打前兩個字符係鍾意,跟住嗰個符號係嘅機率係 100% 咁高:响呢一串字入面,鍾意出現咗一次咁多,而喺嗰次當中串嘢跟住嘅字符係;所以上面段嘢嘅 3-gram 當中,「鍾意後面掕」嘅機率係 100%。實際應用當中嘅 n-gram 會用極大量嘅語言資源嚟做類似嘅估計,計出一隻語言啲字符以至字詞之間嘅統計關係。數學化噉講,一個 n-gram 模型定義上係用[9]

嘅數值嚟預測 ,從而計出

——即係要計「已知前面嗰串符號係 噉嘅樣, 會係噉噉噉樣」噉嘅條件概率。淨係靠住用呢種方法做嘅 n-gram,已經可以做到某一啲比較基礎嘅自然語言處理工作,好似係語言辨認噉——例如同中文書面語(原則上係建基於標準官話嘅)比起嚟,粵語白話文名詞後面應該比較大機會出現呢隻字,所以一個人工智能可以靠呢啲條件概率,分辨唔同嘅語言。

關聯規則

Thumb
互補品嘅概念:花生可以攞嚟送燒酒,啲人買親燒酒係咪大機會會買埋花生呢?
内文:關聯規則
睇埋:替代品互補品

關聯規則[e 9]相關嘅分析,會用到條件概率呢個概念。關聯規則可以理解為一啲「如果... 就...」噉嘅法則,描繪數據裡便啲變數之間有咩關係。依家想像有班做營銷[e 10]工作嘅分析師,想探知消費者買嘢嗰陣嘅習慣係點,佢哋由一間超市嗰度攞咗數據,得知某年某月某日,到訪嗰間超市嘅客每個人買咗啲乜,即係話手上嘅數據望落好似噉[10][11]

顧客 A:
荔枝啤酒白米豬肉
顧客 B:
荔枝、啤酒、白米
顧客 C:
芝士、啤酒、白米、豬肉
下略大約 6,000 個個案...

喺最基本上,班分析師可以計吓每種貨品有人買嘅機率係幾多(支持度[e 11]),例如設 做一個客「買荔枝嘅機會率」, 可以好簡單噉計到出嚟:

班分析師可以做更進階嘅分析。除咗計一件貨品支持度有幾高,佢哋仲可以[11]

  • 決定攞走所有支持度(例如)低過 1% 嘅貨品,唔再對佢哋進行分析;
  • 信心度[e 12]:設 C 同 D 做間超市嘅其中兩件貨品,關聯規則分析上講嘅信心度所指嘅,就係「如果某個客買咗 C,佢會買 D 嘅機會率」,設 (取自粵語十扑)做支持度,即係[12]
  • 提升度[e 13]:齋靠信心度係唔夠嘅,噉係因為信心度呢個指標並冇考慮到貨品 D 幾多人買()。提升度可以詮釋做「設商品 D 嘅支持度做恆常[註 3],C 至 D 嘅信心度」,即係話
    [註 4]

做咗呢啲分析之後,營銷分析師就可以預測客人行為[13],可以用各種手法圖利(或者做啲嘢方便顧客)。例如如果知道咗客人買親 C 傾向會買埋 D,賣方就可以做減價嗰陣特登淨係同 C 或者 D 其中一樣做減價,又或者暗中將啲賣 D 嘅廣告 show 畀買咗 C 嘅客睇... 等等[14]

睇埋

註釋

  1. 或者精確啲講,係近乎完全冇可能會發生。
  2. 可以睇睇語境句法等嘅概念。
  3. 亦可以睇吓控制變數嘅概念。
  4. 如果呢個數值係 1,表示買唔買 C買唔買 D 之間根本冇啦掕。如果個數值大過 1,就表示買 C 會提升買 D 嘅機率。如果個數值細過 1,就表示買 C 會降低買 D 嘅機率。

引述

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.