谷歌翻譯(英語:Google Translate)是一項由Google於2006年開始提供的翻譯文段及網頁的服務[3]。與其他網站巴別魚、美國線上及雅虎使用的SYSTRAN引擎不同的是,Google使用自己開發的翻譯引擎。至2015年6月,Google翻譯每天需要處理超過10億筆字詞[4]。2016年,Google翻譯正式於英語-拉丁語翻譯中引入Google神經機器翻譯系統,並已於2017年3月前成功將其拓展至所有語言上[5]。
此條目需要更新。 (2024年6月29日) |
Google翻譯提供即時翻譯功能(即時輸入即時翻譯),使用者可以在左邊的輸入欄位輸入文字,翻譯結果會即時在右邊的結果框顯示。將滑鼠移到翻譯結果文字上可以看到其對應的原文。此外,Google翻譯亦提供朗讀功能(包括原文和譯文),使用者亦可檢視中文的拼音、日文的羅馬字、及韓文似,Google翻譯亦有其自身功能侷限。雖然使用者可以通過其幫助來大致理解以外文書寫的文章大意,但Google翻譯服務無法提供準確的譯文,也不能提供可用於出版的內容,例如,它經常會不依據上下文來翻譯詞彙,而且會在翻譯時不遵守語法規則,這是因為其機器翻譯演算法與傳統的基於語法分析的演算法不同,採用的是基於統計分析的演算法。而Google翻譯的品質也與語種有關,當源語言是一種歐盟語言,而目標語言是英語時,往往品質較好。2010年的分析顯示,法語到英語的翻譯相對準確[6],2011年和2012年的分析顯示義大利語到英文的翻譯同樣相對準確[7]。2021年,加州大學洛杉磯分校醫學中心(UCLA Health)的一項研究表明,英語翻譯至西班牙語的準確率有94%,英語翻譯至亞美尼亞語的準確率只有55%[8]。然而,當所翻譯的文字較短時,其他規則法機器翻譯(rule-based machine translation)卻表現得更好,這在中文到英語的翻譯中尤為明顯[6]。
使用較廣泛的語言都有「朗讀」功能,對多中心語言而言,朗讀採用的口音取決於所在地區。
方法
Google翻譯採用的翻譯方法稱作「統計機器翻譯」,具體而言,採用的是基於Franz-Josef Och參加2003年美國國防部高級研究項目局(DARPA)的機器速度翻譯競賽時獲獎的研究成果。Och現在領銜Google機器翻譯小組。
根據Och的說法[9],若想要開發一個可用於翻譯一對全新語言對的統計機器翻譯系統,必須做好如下的數據基礎蒐集才能有保障:一個擁有百萬的單字數量級別的雙語文字語料庫(或者其平行庫集合),以及屬於這兩種語言的單語語料庫,各自得擁有十億以上的單字。然後,用於翻譯這一對語言的機器翻譯結果就會通過這些數據產生的統計模型而得出。
為了獲取這種海量容量的語言學資料,Google採用了聯合國文件作為語料庫內容來源。[10]由於同樣的一份聯合國文件通常會有屬於六種聯合國官方語言的譯本,因此,Google如今就擁有了一個相當於經人工翻譯了兩百萬單字的七種語言的語料庫。
而這一點很可能就是Google翻譯之所以一開始專注的是開發英語和阿拉伯語、中文之間的翻譯系統,而非英語和日語或英語和德語這兩對語言之間的翻譯系統的原因。因為阿拉伯語和中文屬於聯合國六種官方語言,而日語、德語不是。
翻譯語言
目前Google支援翻譯249種語言。
- 阿布哈茲語
- 亞齊語
- 阿喬利語
- 阿法爾語
- 阿魯爾語
- 阿瓦爾語
- 阿瓦德語
- 峇里語
- 俾路支語
- 巴烏雷語
- 巴什基爾語
- 巴塔克卡羅語
- 巴塔克西馬隆貢語
- 巴塔克托巴語
- 本巴語
- 巴達維語
- 比科爾語
- 布列塔尼語
- 布里亞特語
- 粵語
- 查莫羅語
- 車臣語
- 楚克語
- 楚瓦什語
- 克里米亞韃靼語(西里爾字母)
- 達里語
- 丁卡語
- 湯加語 (尚比亞)
- 迪尤拉語
- 宗卡語
- 法羅語
- 斐濟語
- 豐語
- 弗留利語
- 富拉語
- 加語
- 哈卡欽語
- 希利蓋農語
- 洪斯呂克語
- 伊班語
- 牙買加克里奧爾語
- 景頗語
- 西格陵蘭語
- 卡努里語
- 邦板牙語
- 卡西語
- 奇加語
- 剛果語
- 吉土巴語
- 廓博羅語
- 科米語
- 拉特加萊語
- 利古里亞語
- 林堡語
- 倫巴第語
- 盧歐語
- 馬都拉語
- 望加錫語
- 馬來語(爪夷文)
- 瑪姆語
- 曼島語
- 馬紹爾語
- 馬瓦里語
- 模里西斯克里奧爾語
- 草原馬里語
- 米南佳保語
- 瓦斯特卡納瓦特爾語
- 恩度方言
- 南恩德貝萊語
- 尼瓦爾語
- 康柏語
- 努爾語
- 奧克語
- 奧塞提亞語
- 邦阿西楠語
- 帕皮阿門托語
- 葡萄牙語(葡萄牙)
- 旁遮普語(夏木基文)
- 凱克其語
- 羅姆語
- 隆迪語
- 北薩米語
- 桑戈語
- 桑塔利語(拉丁文)
- 塞席爾克里奧爾語
- 撣語
- 西西里語
- 西里西亞語
- 蘇蘇語
- 史瓦帝語
- 大溪地語
- 柏柏爾語
- 柏柏爾語(提非納文)
- 德頓語
- 藏語
- 蒂夫語
- 巴布亞皮欽語
- 湯加語
- 札那語
- 圖魯語
- 通布卡語
- 圖瓦語
- 烏德穆爾特語
- 文達語
- 威尼斯語
- 瓦瑞語
- 沃洛夫語
- 雅庫特語
- 猶加敦馬雅語
- 薩波特克語
- 盧歐-阿喬利語(Luo)(Acholi 阿喬利語)
- 奧里貝什文(2015年11月推出,2016年2月刪除)
女聲
男聲
整合
劃取翻譯功能是現代瀏覽器的重要基礎功能,翻譯的整合意味著打破文化壁壘,Opera和Firefox的翻譯外掛程式亦是利用谷歌翻譯API作為擴充程式的核心外部介面。不過當下許多瀏覽器廠商,在瀏覽器大戰背景下,出於激烈競爭,已經做出了一站式服務,例如Windows10中內建的MicrosoftEdge,微軟專門為此客製化了瀏覽器外掛程式版的微軟必應翻譯。
開發者可以利用谷歌提供的API,對軟體整合聯網翻譯功能。這些軟體通常是通過整合翻譯功能,實現對原有用途的使用者需求滿足,所完善而來。例如閱讀軟體、線上資料搜尋時整合的WebJS小程式,由於資訊科技的普遍應用和入口之爭以及成熟度,目前已不再有著壟斷地位,也就不存在增加翻譯功能需要收費或是插廣告,除非是態度問題,否則一般會作為硬性標準。
當今智慧型手機和平板電腦平台上,亦有很多基於Google翻譯而衍生成的翻譯軟體。不但在今日動則幾十M的軟體膨大趨勢下做到了體積小巧,而且可以下載離線字典呼叫,甚至可以翻譯螢幕上游標停按的部分。
爭議
中文谷歌翻譯曾多次在兩岸關係、中國內地與香港關係等政治類議題上出現誤譯,引發爭議。
2006年、2007年,谷歌翻譯相繼出現「辱華」翻譯,「I thought this was shame(我認為這是一個恥辱)」被誤譯為「我認為這是中國的恥辱」,「物極必反」被誤譯為「Taiwan independence(台灣獨立)」。[16]
2012年,有網友發現「Taiwan is not a part of China(台灣不屬於中國)」被誤譯為「台灣是中國的一部分」。若將句中的台灣換成其他國家,誤譯同樣成立。另外無論輸入「Diaoyu Islands is not a part of Taiwan」或「Diaoyu Islands is not a part of Taiwan」,均會出現「釣魚島屬於台灣」。[17]
2018年,谷歌翻譯在「A比B厲害」這一類句子的翻譯上出現錯誤,「中國比台灣厲害」被翻譯成「China is worse than Taiwan」,即「中國比台灣差」[18][19]。
2019年香港反對逃犯條例修訂草案運動期間,網友發現「so sad to see Hong Kong became China(很難過看到香港變成中國)」被誤翻譯為「很高興看到香港變成中國」。網友猜測有組織對谷歌翻譯進行攻擊,從而影響翻譯結果。[20]
2020年,台灣網友指谷歌翻譯即使在選擇繁體中文的情況下,仍會出現較多中國大陸習慣用語,如「President Tsai Ing Wen(蔡英文總統)」竟被翻譯成「蔡英文主席」。同樣的錯誤在微軟翻譯中也有發生。有台灣網友擔憂台灣習慣用語會因翻譯軟體流行而被大陸習慣用語取代。[21]
2021年1月,有網友發現「China breaks promise(拉)」被誤譯為「中國信守承諾」。但將中國替換成其他國家後並不會出現錯誤翻譯。[22]
2021年11月26日,有中國大陸網友發現,在谷歌翻譯的英文翻中文程式中,在英文對話方塊輸入「愛滋病毒」等相關詞彙,對應的中文翻譯就會出現惡毒攻擊中國的詞彙[23]。該訊息經部分媒體及安徽團省委的微博發布後,一度登上微博熱搜,並導致大批中國大陸網友在評論區表示抗議,稱該事件為「人為導致」,也有網友在驗證後發現部分結果還出現攻擊美國、俄羅斯等國的詞語。同日晚間,Google官方微博@Google黑板報先是在北京時間22:03發布微博,表示「我們已經了解到Google翻譯出現的問題並正在解決。」隨後在23:14分,Google在微博上表示問題已經解決,並稱「Google翻譯是一個自動翻譯器,通過數百萬已有翻譯的模式為使用者找到最佳翻譯,然而有些模式會導致錯誤的翻譯。」[24]而有網友在驗證後表示,該事件疑似為有預謀及通過機械學習等行為操縱的行為,所謂「辱華」流程的驗證邏輯與使用者的正常使用習慣不同,該次事件與2009年谷歌涉黃事件之中出現「兒子母親不正當關係」等「涉黃」聯想詞的行為類似[25]。
2022年4月9日,據多家俄羅斯媒體報道,在谷歌翻譯的英文翻俄文程式中,在英文對話方塊中輸入詞組「親愛的俄羅斯人(dear russians)」後,程式會建議將該詞組替換成「死去的俄羅斯人」,並且在翻譯後的俄文對話方塊中該詞組中的形容詞「親愛的」會被替換成「死去的」,但是在翻譯該詞組中帶有其他國家的名稱時,則沒有出現上述錯誤。[26]目前Google已糾正該錯誤。
於中國大陸之現狀
2014年5月31日起,Google所有服務(各個IP段)在中國被大規模干擾至今[27],但因為翻譯及地圖網頁版服務有域名字尾為.cn的入口,並且使用了專門設立在中國境內的伺服器和IP位址,所以翻譯及地圖網頁版仍然能正常服務。
2017年3月29日起,中國大陸使用者可以直接使用Google翻譯而不需要使用代理。在此之前,翻譯需使用代理而無法直接翻譯,但下載離線翻譯包後可使用離線翻譯進行翻譯。[28][29]
2021年9月初,大量使用者表示谷歌翻譯app在不使用代理的情況下僅可使用轉錄,但網頁版還能正常使用。[來源請求]
2022年9月26日,谷歌中國搜尋頁面到Google翻譯的連結被移除[30]。9月29日,Google將位於.cn域名的Google翻譯網站關閉,只留下一個到.hk域名的跳轉頁面,並像搜尋頁面一樣標記「請收藏我們的網址」[31][32],這意味著Google翻譯服務已不在谷歌中國的網站上提供。9月30日,一名Google發言人告訴TechCrunch關閉該服務的原因是「使用率低」[33][34]。這一變化影響了中國使用者的文件檢視器KOReader等應用程式的翻譯功能,以及Chrome的內建翻譯功能[34][35][36]。
彩蛋
Google翻譯曾經內建有一個小彩蛋,在輸入特定文字後讓程式朗讀,可以輸出Beatbox的效果。[37]目前該彩蛋已經移除。
參見
參考資料
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.