Loading AI tools
网路上的脏话过滤器所引发的问题 来自维基百科,自由的百科全书
斯肯索普問題(Scunthorpe problem)是指在電子郵件過濾或搜尋引擎中,由於文本包含一個或多個看似有褻瀆或非法含義的字符串(或子串),導致網站、電子郵件、論壇帖子或搜索結果被無意間阻攔的現象。受此問題影響最多的是名稱、縮寫和技術術語等。
這個問題的產生源於電腦雖然能輕易識別文件內的文本字符,但是沒有相當的能力來解釋這些文字的含義;對此電腦需要能理解廣泛的語境,甚至跨越多個文化,而這是一項極其困難的任務。因此,廣泛的阻擋規則可能會導致對無辜短語的誤判,出現錯誤攔截的情況。
該問題源於1996年的一次網絡事件,當時美國在線(AOL)的髒話過濾器阻止了英格蘭北林肯郡斯肯索普市(Scunthorpe)的居民在AOL上創建帳戶,因為該市名中包含了字符串「cunt(屄,陰道)」。[1]在2000年代初,谷歌的安全搜索過濾器也犯了同樣的錯誤,阻止了人們搜索包含斯卡恩索普市名稱的本地企業或網站,故這一問題由此得名。[2]
由於創建一個能夠理解上下文中的詞組的過濾器非常困難,因此斯肯索普問題很難完全解決。[3][4]一種常見的解決方案是創建一個白名單,其中包含已知的容易產生斯肯索普問題的詞組,任何出現在白名單上的單詞都將被過濾器忽略,即使它們包含的文本在其他情況下可能是不允許的。[5]另一種常見的解決方案是通過貝葉斯公式來計算單個詞組成為敏感詞的概率,進而組合分析一段話中包含敏感詞的概率,但這一方法需要對大量語料數據的分析作為支持。[6]
敏感詞過濾器引發的錯誤包括:
shitakemushrooms.com
,但由於其中包含敏感詞shit,他被網際網路信息中心(InterNIC)的過濾器阻止。[7]Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.