词汇统计学 - Wikiwand

詞彙統計學是比較語言學的一種研究方法，通過比較語言之間同源詞彙的百分比來確定他們的譜系關係。與歷史比較語言學相似，詞彙統計學同樣與比較法相關，但不涉及構擬原始語。詞彙統計學要與語言年代學相區分，後者只是使用詞彙統計方法來推算語言分化的時間長度，因而只是詞彙統計學的其中一種應用。除語言年代學之外，詞彙統計學的其他應用可能不接受核心詞彙變化速率恆定等假設。

「詞彙統計學」這一名詞或許具有誤導性，因為其使用的實際上是簡單的數學方程而非統計學方法。同時，除了詞彙之外的語言範疇可能也會偶爾被研究涉及。當比較法使用「共同創新」來確定譜系的子分類時，詞彙統計學並不作此區分。詞彙統計學是一種基於「距離」的方法，並不像比較法一樣直接研究語言特徵，從而是一種更簡單快速的技術。儘管如此，詞彙統計方法也存在一些問題，本條目的以下部分將會指出。詞彙統計方法得出的結論可以通過對譜系樹的交叉檢驗來證實。

歷史

詞彙統計學由莫里斯·斯瓦迪士基於一些早期的理論在19世紀50年代發展出來。^[1]^[2]^[3]這個概念已知最早的應用可以追溯到1834年儒勒·迪蒙·迪維爾在對一些大洋洲語言的比較中提出的計算語言關係係數的方法。Hymes(1960)和Embleton(1986)都進行了關於詞彙統計學發展歷史的綜述。^[4]^[5]

方法

創建詞表

方法的目標是創造一個關於被普遍運用的意義（如「手」、「嘴」、「天」、「我」等）的詞彙表。研究者接着會按照這一表格收集每種語言中對應含義的詞彙。斯瓦迪士將原本極長的詞表縮減到了200個，後來又進一步縮減並更新到了100個。在維基詞典中，斯瓦迪士核心詞列表共給出了207個詞。也有其他標準更嚴格的詞表，例如多爾戈波爾斯基詞表和萊比錫-雅加達詞表。同樣地，也有一些範圍更具體的詞表，例如Dyen, Kruskal and Black(1992)為84種印歐語言給出的200個詞。^[6]

確定同源詞

決定何為同源詞需要經受訓練且富有經驗的語言學家進行考察，其內容也需要隨着研究者對這些語言的知識深入而不斷更新。然而，詞彙統計學並不依賴於這些同源詞的判定是否完全正確。對於不同語言中的每一對詞彙，同源性可以是「是」「否」或「不確定」。這並不一定影響譜系關係的劃分。

有時一種語言中的一個意義也可以對應多個詞，例如英語中的"small"和"little"都對應詞表中的「不大」。

計算詞彙統計百分比

這一百分比與一對語言中對應含義是同源詞彙的比例相關，即使用同源詞對總數除以「確定同源性」的詞對總數得到的比例。假如使用此方法來研究N種語言，其中每兩種語言都能得到一個比例。將這些比例列入一張N*N的距離表，當完成時，應當有形如三角形的半張表被填入數據。此時，就可以將同源性比例最高的一對或幾對語言相關聯。

創建譜系樹

譜系樹的創建僅需考慮上一步所填的表格。這一步可以有多種方法，以下列出的是Dyen, Kruskal and Black(1992)所使用的方法：

所有語言都被放在一個池中
兩個同源性比例最高的成員被從中移除，形成一個組合再被放入池中
重複此步驟，直到整個池中僅存在一個組合。

每一次合併可以理解成將兩個子樹合併到同一個父節點。越先合併的語言在樹上更近，親緣關係也越近，反之亦然。

應用

Dyen對詞彙統計方法的應用是領銜性的。^[7]^[8]^[9]^[10]他使用該方法分類了南島語系^[11]和印歐語系^[6]的語言。除此之外，還有對美洲和非洲語言的研究。

帕瑪-努干語系

對研究澳大利亞語言的語言學家來說，帕瑪-努干語系的內部分類一直是個問題。一個普遍的共識是該語系超過25個不同的語支根本不可能被分類，甚至可能相互之間根本沒有聯繫。^[12]

2012年，Claire Bowern和Quentin Atkinson發表了他們使用計算譜系發生學方法研究該語系194個被記錄的語言或方言所得到的結果。^[13]他們的模型「恢復」了許多先前提出並被廣泛接受的分支劃分，同時也對其他更有爭議的分支，例如由於缺少數據而變得複雜的帕瑪語族和譜系因語言間極高的借用率而變得模糊的Ngumpin–Yapa語支，提出了重要見解。他們的數據集是關於狩獵採集者所使用的語系中最大的一個，也是在關於南島語系的研究之後第二大的。他們總結，詞彙統計方法不僅可以成功應用於全世界的其他已被應用於研究的語言，對帕瑪-努干語系的語言同樣適用。

批評

諸如Hoijer(1956)等人提出，尋找與詞表上的含義完全對應的詞彙有時是很困難的，因而修訂斯瓦迪士核心詞列表就變得十分必要。^[14] Gudschinsky(1956)則質疑是否真的存在具有普遍性的詞表。同時，這些詞表中核心意義的選取是主觀的，基於詞表的同義詞選取也是主觀的，這些都會對結果造成影響。

其他一些因素，例如借詞、傳統和文化禁忌，同樣可能使結果出現偏差，雖然這一問題是目前任何方法都難以避免的。有時詞彙統計學也會使用「詞彙相似性」（lexical similarity）代替「同源性」，使得其方法幾乎等同於大規模比較法。

改進方法

一些現代計算統計學的假設檢驗方法可以採用，更好地改進使用相似詞表和距離計算的詞彙統計學方法。

參考資料

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.