Loading AI tools
計算語言學的子領域 来自维基百科,自由的百科全书
機器翻譯(英語:Machine Translation,經常簡寫為MT,簡稱機譯或機翻)屬於計算語言學的範疇,其研究藉由電腦程式將文字或演說從一種自然語言翻譯成另一種自然語言。簡單來說,機器翻譯是透過將一個自然語言的字辭取代成另一個自然語言的字辭。藉由使用語料庫的技術,可達成更加複雜的自動翻譯,包含可更佳的處理不同的文法結構、辭彙辨識、慣用語的對應等。
目前的機器翻譯軟體通常可允許針對特定領域或是專業領域(例如天氣預報)來加以客製化,目的在於將辭彙的取代縮小於該特定領域的專有名詞上,以藉此改進翻譯的結果。這樣的技術適合針對一些使用較正規或是較制式化陳述方式的領域。例如政府機關公文或是法律相關文件,這類型的文句通常比一般的文句更加正式與制式化,其機器翻譯的結果通常比日常對話等非正式場合所使用語言的翻譯結果更加符合語法。
目前的翻譯機器,有時可以得到可以理解的翻譯結果,但是想要得到較有意義的翻譯結果,往往需要在輸入語句時適當地編輯,以利電腦程式分析。但是,機器翻譯的結果好壞,往往取決於譯入及譯出語之間的詞彙、文法結構、語系甚至文化上的差異,例如英語與荷蘭語同為印歐語系日耳曼語族,這兩種語言間的機器翻譯結果通常比漢語與英語間機器翻譯的結果好。因此,要改善機器翻譯的結果,人為的介入仍顯相當重要。
一般而言,大眾使用機器翻譯的目的只是為了獲知原文句子或段落的要旨,而不是精確的翻譯。總的來說,機器翻譯的效果並沒有達到可以取代人工翻譯的程度,所以無法成為正式的翻譯。
不過現在已有越來越多的公司嘗試以機器翻譯的技術來提供其公司網站多語系支援的服務。例如微軟公司試將其MSDN技術資源庫以機器翻譯來自動翻譯成多國語言,如上文所說,知識庫作為專業領域,其文法較為制式化,翻譯結果亦更加符合自然語言。
機器翻譯的概念最早可追溯到17世紀。1629年,哲學家笛卡兒提出了世界語言的概念,即將不同語言相同含義的詞彙以統一符號表示。笛卡兒、萊布尼茲、貝克(Cave Beck)、基爾施(Athanasius Kircher)以及貝希爾(Johann Joachim Becher)等人曾試圖編寫類似世界語言的辭典。直到近代,藉由機械的輔助,機器翻譯的可行性大為提升。20世紀初期便有多位科學家與發明家陸續提出機器翻譯的理論與實作計畫或想法。沃倫·韋弗被譽為機器翻譯的鼻祖。他拋卻了俄語文本的含義,轉而視為一堆「密碼」。在美國和歐洲,他的團隊和繼任者在工作時都遵循着一個常理:「任何語言都是由一堆詞彙和一套語法規則組成。只要把兩種詞彙放到機器里,按照人類組合這兩種詞彙的方式,為之建立一套完整的規則,機器就能破譯「密碼」。」
1954年喬治城-IBM實驗中,成功將約60句的俄文自動翻譯成英文,被視為機器翻譯可行的開端。自此開始的十年間,政府與企業相繼投入相當的資金,用於機器翻譯的研究上。然而,自動語音處理顧問委員會(Automatic Language Processing Advisory Committee,簡稱ALPAC)在1966年提出的一項報告中表明十年來的機器翻譯研究進度緩慢,未達預期。該項報告使得之後的研究資金大為減縮,直到近1980年代,由於電腦運算科技的進步,以及演算成本相對降低,才使政府與企業對機器翻譯再次提起興趣,特別是在統計法機器翻譯的領域上。
從人為的翻譯來看機器翻譯,翻譯的過程可被細分如下:
在這看似簡單的步驟之後其實是複雜的認知操作。要能解譯來源文字的完整意義,一個譯者必須能夠分析與詮釋整段文章的所有特徵,必須能夠深度的了解其文法、語義、語法、成語等等,相當於了解來源語言的文化背景。譯者同時也必須兼備目標語言相同深度的知識。
於是,這對機器翻譯便是一項挑戰,即:要如何設計一個程式使其能夠如同真人一樣的「了解(認知)」一段文字,並且能夠「創造」一段好似真人實際寫作出來的目標語言的文字。
機器翻譯可以使用一種基於語言規則的語法,文字將會依語言學的方式來進行翻譯,即一個最合適的目標語言的字詞將會被用來取代來源語言的字詞。
能夠優先解決對自然語言的正確認知與辨識,被視為機器翻譯是否能夠成功的最主要關鍵。
一般而言,用規則法(rule-based method)分析一段文字,通常會先建立目標語言中介的、象徵性的表義字詞。再根據這中介的表義字詞來決定使用人工國際語言(interlingual)化的機器翻譯,或是使用轉化原則法的機器翻譯(transfer-based machine translation)。這些方法都必須擁有具備足夠形態學的、語句學的、以及語義學的資訊以及大量的字詞規則所建構的辭彙。
常見機器翻譯的難處在於無法給於適當且足夠龐大的資訊,來滿足不同領域或是不同法則的機器翻譯法。舉例來說,對於一個需要統計學法則的翻譯法,給予它大量的多語言素材是必要的,但對於文法式法則的翻譯法便顯得沒有太大意義。
規則法機器翻譯的範例包含了轉化法(transfer-based)、中間語法(interlingual)、以及辭典法(dictionary-based)機器翻譯。
機器翻譯可利用辭典的詞彙作翻譯。因為這種翻譯是「字對字」的,所以通常各字之間在意思上都沒有任何關聯。這種機器翻譯法最適用於具有冗長的詞語列表(意即非完整的句子)。例如產品型錄的翻譯。
所謂範例法,即基於實例的翻譯方法。基本思路是電腦模擬大量翻譯實例(翻譯語料庫),進行有效替換的翻譯策略。因此該方法依賴於翻譯語料庫的質量、規模和覆蓋面。如果有完全一樣的例句,則直接採用範例的譯文;如果有多個相似的例句,則自動模擬相似度最高的譯文,只需翻譯不同部分即可;如果沒有相似的譯文,則必須進行基於統計或規則的方法進行翻譯。根據喬姆斯基的轉換生成語法而言,這種方法永遠也無法趕上人的語言的變化。因此,這種方法算是比較笨的方法,類似於字典,我們可以從中查到有用的字詞,甚至短語,但寫出什麼東西,卻是字典無法實現的。因此這種方法有一定的實用性,但局限性也顯而易見。
統計機器翻譯是目前非限定領域機器翻譯中,性能較佳的一種方法。統計機器翻譯的基本思想是通過對大量的平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。從早期基於詞的機器翻譯已經過渡到基於短語的翻譯,並正在融合句法信息,以進一步提高翻譯的精確性。
統計機器翻譯的首要任務是為語言的產生構造某種合理的統計模型,並在此統計模型基礎上,定義要估計的模型參數,並設計參數估計算法。早期的基於詞的統計機器翻譯採用的是噪聲信道模型,採用最大似然準則進行無監督訓練,而近年來常用的基於短語的統計機器翻譯則採用區分性訓練方法,一般來說需要參考語料進行有監督訓練。貝氏模型(Bayesian Model)也是一種機器翻譯方法。
近年來在語言服務產業掀起波瀾的神經機器翻譯,是利用巨大的人工神經網絡計算一連串字詞的機率以產生文意精確的翻譯,將在未來數年持續改變翻譯及語言在地化產業。在投入大量翻譯資料集(data sets)以訓練人工智慧和機器學習模組後,神經機器翻譯的品質已大幅改善。更重要的是,當神經機器翻譯與人工編修搭配,無論在技術還是文化層面,更能達到一流的譯文品質。因此,神經翻譯與人工編修搭配需求龐大。[1]
一些人也會將網絡迷因多次機器翻譯,以達到語義怪異的幽默效果。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.