Loading AI tools
来自维基百科,自由的百科全书
問答系統(Question Answering System,QA System),是未來自然語言處理的明日之星。問答系統外部的行為上來看,其與目前主流資訊檢索技術有兩點不同:首先是查詢方式為完整而口語化的問句,再來則是其回傳的為高精準度網頁結果或明確的答案字串。以Ask Jeeves[1]為例,使用者不需要思考該使用甚麼樣的問法才能夠得到理想的答案,只需要用口語化的方式直接提問如「請問誰是美國總統?」即可。而系統在瞭解使用者問句後,會非常清楚地回答「川普是美國總統」。面對這種系統,使用者不需要費心去一一檢視搜尋引擎回傳的網頁,對於資訊檢索的效率與資訊的普及都有很大幫助。從系統內部來看,問答系統使用了大量有別於傳統資訊檢索系統自然語言處理技術,如自然語言剖析(Natural Language Parsing)、問題分類(Question Classification)、專名辨識(Named Entity Recognition)等等。少數系統[2]甚至會使用複雜的邏輯推理機制,來區隔出需要推理機制才能夠區隔出來的答案。在系統所使用的資料上,除了傳統資訊檢索會使用到的資料外(如字典),問答系統還會使用本體論等語義資料,或者利用網頁來增加資料的豐富性。
截至目前為止,最著名的問答系統應屬IBM的華生系統。該系統在2011年於Jeopardy節目中,與人類同場較勁,並獲得最後的勝利。
早在1961年,Green [3]就發展了第一個問答系統,用來回答單季美國職棒大聯盟相關比賽問題。該系統執行於IBM 7090平台,以今日的觀點來看,其硬體資源相當貧乏,但由於問答的範圍狹小,系統正確率尚能達到令人滿意的地步。近年來,網際網路成長快速,在資訊、流量、使用人數、以及應用領域上都有驚人的發展。截至目前為止[4],Google已經索引了超過八十億個網頁資料;MSN BETA、Yahoo也分別有四十億與二十億個網頁資料。整個網際網路總索引量則高達一百一十五億個網頁,頗為驚人。此趨勢帶動了近幾年問答系統的研究風潮,盼能解決網路搜尋如大海撈針的困境。報導指出[5],從2000年到2005年,網路人口成長了1.7倍,在前十名的語言中,中文人口成長率為284.8%,高達一億兩千萬,遠遠超過英文人口的成長率。
我們可以從知識領域、答案來源等角度來替問答系統做分類。從知識領域來看,可分為「封閉領域」以及「開放領域」兩類系統。封閉領域系統專注於回答特定領域的問題,如醫藥或特定公司等。由於問題領域受限,系統有比較大的發揮空間,可以導入如專屬本體論等知識,或將答案來源全部轉換成結構性資料,來有效提升系統的表現。開放領域系統則希望不設限問題的內容範圍,天文地理無所不問。系統中所有知識與元件都必須儘量做到與領域不相關,當然難度也相對地提高。
若根據答案來源來區分,可分為「資料庫問答」、「常問問題問答」、「新聞問答」、「網際網路問答」等系統。資料庫是最常見的結構化資料儲存媒介。雖然透過操控SQL語言便能夠有效率地存取資料,但有些系統試圖提供更直覺的自然語言查詢介面,希望能進一步降低學習門檻。1970年代的LUNAR系統[6]算是早期成功的案例,其正確答題率可以達到百分之七十,可回答月球隕石相關資料。微軟的English Query[7]則是近期的一個商業產品。English Query在剖析完英文問句後,會根據底層資料庫結構,自動產生出相對應的SQL查詢。雖然有這些成功系統案例,但資料庫問答系統似乎很難被大眾所接受,其中一個因素可能是因為對於結構化資料來說,結構化的查詢介面在查詢上更為方便。常問問題(Frequently Asked Questions, FAQs)是公司或者長期經營領域中常見的重要資源。一份FAQ資料包含了一個問句以及相對應的答案描述。FAQ問答系統的主要責任在比對使用者問句與現有FAQ問句的相似度,此與其他問答系統著重在答案語料中擷取答案的作法不同。另一種重要的系統為新聞問答系統。今日新聞媒體都已經數位化了,每日累積所產生的新聞資訊量是相當可觀的,加上新聞的內容廣泛豐富,作為開放領域問答系統的答案來源是最適合不過的。這樣的特性使得此類系統的評估較為容易,因此稍後會提到的國際評估會議都是採用此類系統作為評估對象。最後一類的是網際網路問答系統,這些系統利用搜尋引擎回傳的結果網頁,從中擷取答案。主要挑戰在於如何處理網路多異質性的資料,以及高雜訊網頁過濾等問題。
問答系統接受的是自然語言問句,為了有效控制研究變因,多會訂定可接受的問題類型來限制研究範圍。最基本的類型為「仿真陳述問答」(Factoid Question Answering),此類系統根據答案語料所述資訊,取出一小段字串作為答案。由於答案的正確與否是根據答案語料的內容來決定,在現實生活中不一定為真,故稱為仿真陳述問答。有些系統把問答範圍進一步縮小,限定在人、地、組織等明確的專有名詞上。若此類系統有能力回答如「請列舉美國歷屆總統」這種清單型的問句,則稱為「清單問答」(List Question Answering);若能回答定義問題,則稱為「定義問答」(Definition Question Answering);以此類推還能定義出其他類型的問題。除了這些與問句資訊內容有關的類型外,最近評鑑會議引進如「時間限制問題」(Temporally Restricted Questions)與「序列問題」(Series of Questions)等複雜的問題類型。時間限制型的問題會在問句中明確指出答案的時間範圍限制,比如說以「民國九十年時的國民黨主席是誰」這問句來說,系統必須有根據答案語料結構化資料,或上下文來推論正確答案的能力。序列問題則把問答系統未來的應用定位在互動式的系統上。經過來回多次問答的方式來滿足使用者的資訊需求。瞭解這些問題類型分類,有助於研究範圍界定,同時在分析比較上也比較有依據。
截至目前為止,世界主要語言都有問答系統發表在文獻上,甚至還有少數跨語言的案例。在過去問答系統的研究中,所有研究都是在各自的假設下進行,加上系統複雜度高,不同單位的研究成果很難拿來做客觀的評估與比較。除此之外,這類系統的評估是非常消耗人力的,事前的準備包含要產生足夠多且合適的問題題目,同時每一題可能出現的答案都必須以人工方式從比賽語料中挑選出來。以上所述對問答系統的研究發展非常不利。有鑑於此,由單一組織舉辦、多個研究單位共同參與的問答系統比賽應運而生。
英文問答系統早在1999年就開始由TREC (Text REtreival Conference)[8]會議主辦進行這類型的比賽;日文的比賽於2003年由日本國立情報學研究所NII的NTCIR會議(NTCIR Workshop)[9]所主辦;歐洲同樣於2003年由CLEF (Cross Language Evaluation Forum)[10]會議主辦歐洲語言的比賽。根據2004年的報告[11],目前最佳英文問答系統的水準已經可以達到70%左右的正確率。也就是說,一百個自然語言問句中,有七十題可以直接回答精準而正確的答案。此最佳英文系統由Language Computer Corporation所發展,邏輯推理能力為其致勝關鍵。在日文系統方面,正確率稍微低了些,但也有51%。日本電信電話公司(NTT)[12]是目前成績最好的團隊。歐洲方面,QA@CLEF在規模上相當大,參與比賽的語言高達九種,加上跨語言問答的項目,比賽內容最為豐富。其中法文、葡萄牙文等語言系統於2005年[13]都已經可以達到六成多的正確率。相較於其他語言,中文雖然是世界上第二大語言,但中文問答系統比賽直到2005年才開始由日本NICIR會議所主辦,目前最佳的正確率為中研院的55%[14]。
閱讀這些評鑑會議數據時必須注意評鑑方式間的差異。TREC會議主要的評鑑項目有「仿真陳述」、「列舉」、以及「定義」問題,各類型又有其特定的評鑑標準。而CLEF看似與TREC的「仿真陳述」類型相同,但最近特別強調「時間限制問題」,使得問題更有挑戰性。而NTCIR的2005年的日文題目則全為「序列問題」。就算題目類型相同,評鑑方式仍可能不同。TREC使用三位評鑑者來評估每一結果,而CLEF依照語言的不同,使用一或兩位來評鑑每一題。2005新引進的NTCIR中文問答則使用了兩位評鑑者。評鑑標準最大的差異在於是否有考慮「文章支持度」的問題,TREC、CLEF以及NTCIR的中文問答都會考慮答案所在的文章是否「支持」該答案為真,若證據不明確,就算答案字串正確,該題仍會被視為是錯誤的。早期NTCIR日文問答則沒有考慮文章支持度的問題。根據TREC的評鑑結果,有考慮跟沒考慮文章支持度的評鑑結果差距可達十幾的百分比之多。以上說明顯示了問答系統在評鑑與解讀上到處充滿陷阱。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.