From Wikipedia, the free encyclopedia
舉個例說明,國際英文語料庫(International Corpus of English,ICE)就係一個好出名嘅英文語料庫,ICE 搵勻嗮世界各地超過 20 個以英文做官方語言一部份嘅國家或者地區(包括香港),每個國家地區對應嘅英文語料都係儲咗當地啲人講英文嘅錄音,仲有係當地啲人用英文寫嘅隨筆、書信、學術文同新聞報道等嘅多種文字材料;到咗 2018 年,ICE 對包括嘅每個國家地區都最少有 1,500,000 字咁長嘅材料(大型)[3][4][註 1]。
語料庫語言學(corpus linguistics)泛指靠語料庫嚟做嘅語言學研究[5]:語言學定義上就係研究語言嘅學問,而要研究一樣嘢,就實要攞大量屬嗰個類嘅事物嚟做樣本-語料庫正正就能夠提供大量嘅語言材料,語言學家攞住一隻語言嘅語料,就可以郁手分析嗰隻語言嘅文法等嘅特性,對現代嘅語言學研究嚟講非常重要。
喺廿一世紀初嘅語言學上,語料庫定義係指一啲大型有結構嘅語言資源,當中「有結構」係一個關鍵字:語料庫個英文名嚟自拉丁文 corpus [6],大致上拉丁文入面「嚿嘢」噉解,所以 text corpus 字面上涵意可以理解做「成嚿文字」;不過喺實際應用上,語料庫唔淨只要儲住啲語料,仲要俾語言學家同第啲工作者(例如可以睇吓教 AI 處理語言嘅工作)攞去用,所以齋攞咗啲語料返嚟係唔夠嘅-整語料庫嘅人仲要將啲語料執到有條有理噉[1]。
舉個例說明,廿一世紀初嘅語料庫基本上實會做詞性標注(part-of-speech tagging)-即係同啲語料入嘅每隻字標明佢係咩詞性,每隻字都標明嗮佢係名詞定動詞定形容詞定點[7][8];做到類似下面噉[9]-
做咗詞性標注就會變成好似噉-
想像有位語言學家想研究一隻語言啲詞性,如果佢用嗰個語料庫係經已做咗詞性標注,佢就唔使人手噉幫啲字標詞性,可以(例如)寫隻程式叫隻程式自動數每隻詞性嘅字出現咗幾多次-慳返好多時間精神[9]。廿一世紀初嘅語料庫會做包括詞性標注在內嘅好多功夫,務求想整到啲語料「有結構」容易攞嚟用[1]。
廿一世紀初嘅語料庫會「有結構」,即係喺用家攞啲數據去用之前經已做咗啲處理。除咗詞性標注之外,常見嘅事前處理仲包括有:
... 呀噉。
一般認為,一個良好嘅語料庫會具有以下呢啲特徵:
語料庫嘅功能就係在於提供語料做研究同分析語言嘅樣本,所以任何要用語言資料嚟做樣本嘅應用都會用到語料庫,包括:
... 呀噉。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.