斯肯索普問題
网路上的脏话过滤器所引发的问题 来自维基百科,自由的百科全书
斯肯索普問題(Scunthorpe problem)是指在電子郵件過濾或搜尋引擎中,由於文本包含一個或多個看似有褻瀆或非法含義的字符串(或子串),導致網站、電子郵件、論壇帖子或搜索結果被無意間阻攔的現象。受此問題影響最多的是名稱、縮寫和技術術語等。

這個問題的產生源於電腦雖然能輕易識別文件內的文本字符,但是沒有相當的能力來解釋這些文字的含義;對此電腦需要能理解廣泛的語境,甚至跨越多個文化,而這是一項極其困難的任務。因此,廣泛的阻擋規則可能會導致對無辜短語的誤判,出現錯誤攔截的情況。
詞義和起源
該問題源於1996年的一次網絡事件,當時美國在線(AOL)的髒話過濾器阻止了英格蘭北林肯郡斯肯索普市(Scunthorpe)的居民在AOL上創建帳戶,因為該市名中包含了字符串「cunt(屄,陰道)」。[1]在2000年代初,谷歌的安全搜索過濾器也犯了同樣的錯誤,阻止了人們搜索包含斯卡恩索普市名稱的本地企業或網站,故這一問題由此得名。[2]
解決措施
由於創建一個能夠理解上下文中的詞組的過濾器非常困難,因此斯肯索普問題很難完全解決。[3][4]一種常見的解決方案是創建一個白名單,其中包含已知的容易產生斯肯索普問題的詞組,任何出現在白名單上的單詞都將被過濾器忽略,即使它們包含的文本在其他情況下可能是不允許的。[5]另一種常見的解決方案是通過貝葉斯公式來計算單個詞組成為敏感詞的概率,進而組合分析一段話中包含敏感詞的概率,但這一方法需要對大量語料數據的分析作為支持。[6]
事例
敏感詞過濾器引發的錯誤包括:
- 1998 年 4 月,傑夫-戈德(Jeff Gold)試圖註冊域名
shitakemushrooms.com
,但由於其中包含敏感詞shit,他被網際網路信息中心(InterNIC)的過濾器阻止。[7] - 2000 年,一則關於網絡過濾軟體的加拿大電視新聞報道發現,蒙特婁城市社區(Communauté Urbaine de Montréal,法文)的網站被完全屏蔽,因為其域名是法文縮寫CUM (www.cum.qc.ca ),而「cum」(除其他含義外)是精液的英語俚語。[8]
- 2008年,紐西蘭華卡塔尼鎮(Whakatane)的免費無線網絡服務過濾器由於其語音分析認為「whak」聽起來像髒話,因此屏蔽了涉及該鎮名稱的搜索;該鎮名稱為毛利語,在毛利語中,「whak」讀音近似「fuck(操、肏)」。隨後,該鎮將鎮名加入了過濾器的白名單中。[9]
- 2010年6月,推特在一個盧森堡用戶開通帳戶並發布他的第一條推文29分鐘後,就將其封鎖了。該推文寫道:「終於!一對美麗的大山雀已經搬進了我的鳥屋!(Finally! A pair of great tits (Parus major) has moved into my birdhouse!)」(tits既指山雀又有乳房之義)雖然該用戶在推文中使用了拉丁學名來表明他是在談論鳥類,但推特並沒有為他解封帳戶。[10]
- 2020年10月,在一次古生物學會議上,推特的敏感詞過濾器屏蔽了「骨頭(bone)」、「陰毛(pubic)」和「溪流(stream)」等詞語。[11]
- 2021年1月,由於錯誤地將德文郡的普利茅斯(Plymouth Hoe)標記為厭惡女性,Facebook向被禁言和封號的用戶道歉。[12]
- 2011年7月,在新浪微博上有人聲稱前中共總書記江澤民已去世後,中國網際網路上與「江」這個姓氏相關的搜索被封鎖。由於「江」這個字也表示「河流」,因此導致包括長江等河流的搜索結果均顯示:「根據相關法律法規和政策,無法顯示搜索結果。」[13]2022年,當江澤民真正去世後,這個問題再次出現。[來源請求]
- 2019年,回形針PaperClip發布視頻指出不少容易在中國大陸被誤封鎖的詞句,如「一台獨立伺服器」(台獨為中國大陸敏感詞)。[6]
- 2022年10月,中國ACGN在線百科全書萌娘百科的母公司因頁面內容違反《中華人民共和國網絡安全法》,被當地公安機關當場訓誡,隨後萌娘百科進行了整改,整改後的萌娘百科將包括「習」、「維尼」、「天朝」、「6月4日」等敏感詞彙顯示上被替換成「♯」號,一度引發了嚴重的誤傷問題(如「學習」被替換成「學#」),目前有所改善。
參考來源
Wikiwand - on
Seamless Wikipedia browsing. On steroids.