Loading AI tools
Google開發的網路搜索引擎 来自维基百科,自由的百科全书
Google搜尋是由Google公司推出的一個互聯網搜尋引擎,它是互聯網上最大、影響最廣泛的搜尋引擎。Google每日透過不同的服務,處理來自世界各地超過30億次的查詢。
本條目屬於網絡搜尋引擎系列 |
網絡搜尋引擎 |
元搜尋引擎 |
國際性搜尋引擎(多語言) |
Yahoo! Search |
Bing |
僅中文搜尋引擎 |
百度 |
360搜索 |
搜狗 |
yam蕃薯藤 |
其他搜尋引擎 |
DuckDuckGo |
Ecosia |
Exalead |
Naver |
Yandex |
Alexa Internet |
AOL |
Ask.com |
Qwant |
其他連結 |
除了搜尋網頁外,Google亦提供搜尋圖像、新聞組、新聞網頁、地圖、影片的服務。2005年6月,Google已儲存超過80億個網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也快取了編入索引中的絕大多數網頁的內容。
因為Google的名聲,「Google」一個事物做動詞表示的是「在Google上搜尋」。它還有引申義「在互聯網上搜尋」,甚至「(在實際環境中)搜尋」的意思。Google官方透過律師信強烈反對這種濫用他們公司名字的習慣,因為它可能會導致Google變成一個通用商標名。[5]
Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜尋要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程式Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再透過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁快取大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google檔案系統,儲存這些資料。
Google使用的這些機器的精確大小和位於何處至今未知;Google官方刻意含糊其詞。在John Hennessy和David A. Patterson所著的《電腦結構:走進大數》中,推測Google的伺服器場中群集電腦群形成的「搜尋場」在2000年大約應該有6000個處理器,12000個普通IDE硬碟(即每個機器2個硬碟1個處理器),他們位於四個地方:二個在矽谷和二個在維吉尼亞。每個都以OC 48的線路(2488 Mbit/s,參見頻寬)連接着互聯網並且有一個OC 12(622 Mbit/s)線路連接着其他3個Google分站點。這些連接使用思科12000路由器(Gateway),用二個Foundry Networks BigIron 8000的乙太網路交換器分流成4 x 1 Gbit/s的線路連接到64個伺服器夾,裏面前後各是40台電腦和1台惠普乙太網路交換機,所以一個架子共有80個機器和2個惠普交換機。
Google在2004年4月發佈的IPO S-1表單後,大財政公司的互聯網開發單位副總裁Tristan Louis估計了2008年伺服器場包含下列各項[1]:
Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權系數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的連結,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵詞和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。
Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDF、Word檔案、Excel試算表,以及純文字檔案。除了文字檔案,其他檔案的是先轉換為HTML版本後快取的。所以藉助Google可以不需要有這些檔案的相應程式就可以看見這些非網頁檔案,如Word或是Excel。
Google創新的搜尋技術和典雅的用戶介面設計使Google從第一代搜尋引擎中脫穎而出。Google並非只使用關鍵詞或代理搜尋技術,它將自身建立在進階PageRank™(網頁級別)技術基礎之上。這項專利技術可確保始終將最重要的搜尋結果首先呈現給用戶。網頁級別可對網頁的重要性進行客觀的分析。用於計算網頁級別的公式包含5億個變數和20多億個項。網頁級別利用巨大的網絡連結結構對網頁進行組織整理。當從網頁A連結到網頁B時,Google就認為「網頁A投了網頁B一票」。Google還對投票的網頁進行分析。Google複雜的自動搜尋方法和結構設計被認為可以避免任何人為感情因素提供公正的搜尋結果。隨着搜尋引擎最佳化(SEO)和各種針對PageRank的交換連結的行為的流行,Google的PageRank及公正性也越來越受到人們的質疑。
用戶能自訂搜尋引擎。他們能設定一個預設語言或使用"SafeSearch"過濾技術,設定在每頁上被顯示的結果多少。Google受爭議的放置永久cookie在用戶的機器上以儲存這些資訊,這使他們能夠了解過去用戶的搜尋內容。任何一次搜尋請求(只有頭10個關鍵字被查詢),每次最多查詢頭1000個結果(以每一頁最多100個結果的方式顯示)。
儘管它有極大的索引數目,仍然有相當多數量的資料庫的數據只能是從網站訪問到,而不是藉由連接。這所謂的深網暫時不能被Google資料庫所覆蓋,舉例來說包含了圖書館的目錄,官方的法定(政府)公文,電話簿等。
(關於PageRank™的介紹,參見Google的Why Use Google頁 (頁面存檔備份,存於互聯網檔案館))
Google跳舞是一種經常被討論的現象,Google跳舞指的是Google月底大量更新資料庫和演算法的幾天時間,因為可以發現,這幾天對Google搜尋關鍵字如www.yahoo.com得到的結果數是不一樣的。在跳舞期間,一個站點的等級可能在短時間裏戲劇般的改變,而且不同的Google伺服器(舉例來說:www.google.com, www2.google.com, www3.google.com, www.google.co.uk, www.google.com.hk 等)可能為相同的關鍵字提供不同的結果。跳舞似乎當是googlebot機械人抓取網頁期間隨即發生的。快速更新的網站,進階別的網頁和新聞網站是最經常被檢查的,雖然新聞不一定如此。小的調節在每月里持續進行以確定網頁級別。在一些情況下,可能需要二到三個月讓新建頁面出現在搜尋結果里。從2003年的夏季開始,每月的搜尋,索引和等級更新被不間斷的持續更新所取代。這種改變大大減少了Google搜尋結果的不穩定性。2003年11月15日,Google似乎進行了有史以來最重要的一次演算法升級,後來被稱為「佛羅里達更新」。在這次更新中,幾乎所有商業領域的關鍵詞都受到了影響,尤其是一些熱門的關鍵詞,Google搜尋的結果頁完全變了個樣兒,很多頭一天還排在首位的網站被遠遠甩到了500名之後。
Google目前的主要挑戰之一是,它的演算法和結果越是得到網路用戶的信賴,商業網站為了利益而暗中破壞結果的風險就越戲劇般的增加。一些搜尋引擎最佳化公司已經開始嘗試使用各種不同的技巧提升Google網頁評級,以使他們客戶的網站更多的被搜尋到。Google已經設法減少了一些已知的使用這種方法的網站的Google頁面評級。
由於Google實際上已經成為國際上最流行的搜尋引擎,很多網站管理員十分熱衷於跟蹤他們網站在Google上的左側排名,並試圖解釋他們排名變化的原因。現在已有不少網站提供排名Google搜尋引擎最佳化(Search Engine Optimization,SEO)服務,如在一些高流量的討論區內加入商業網站的連結,從而使該網站在Google的排名提高。這種措施的確有一定成效,但這種收取客戶金錢,在第三者的討論區上展示廣告,對討論區的讀者造成困擾,也侵害了討論區的商業利益。
還有一種被普遍採用的技術是很多網站使用一個相同的關鍵字連接到某一個特定的網站,以使用戶在Google搜尋這個關鍵字的時候,這個網站的排名會出現在結果的較前面。這種方法被稱為Google炸彈。現在Google演算法更新的頻率非常快,據猜測,現在演算法公式中涉及的變數有300多個,PageRank™在整個Google演算法中的影響力已經下降到20%左右,最終平衡的演算法中最重要的變數所佔的比例不會超過10%,單純靠技術手段提升排名的網站已經禁不住時間的考驗。
SearchWiki是Google搜尋引擎Web 2.0化的一個體現,讓登錄的用戶得以參與搜尋結果的評定。在每個搜尋結果中新增了「調升」、「移除」與「評論」的按鈕:「調升」允許用戶將某搜尋結果提升到前方;「移除」則可以刪除某搜尋結果;「評論」則可以針對某搜尋結果留下意見。為防止惡作劇與破壞損害了搜尋結果可信度,以上的變動都會記錄下登錄用戶名,而且其他登錄用戶也能看到誰做了什麼改變。
典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓用戶參與評定以集用戶群力加強搜尋結果有效度的想法,其具體實現即為Wikia Search。
2022年4月底,Google表示用戶可以要求該公司將他們的地址和電話號碼從搜尋結果中刪除。[6]
除了搜尋網頁工具,Google還提供搜尋圖像、網上討論區、新聞、影片、當地搜尋、地圖、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。
Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子郵件服務,但仍包括搜尋功能;Google Browser Sync不提供任何搜尋工具,旨在組織用戶的瀏覽時間。
Google即搜即得(Instant Search)是Google於2010年9月8日發佈的一個新的搜尋技術[7],是一項搜尋增強功能,能夠使用戶在輸入內容的同時顯示搜尋結果,而不需要點擊搜尋按鈕或者按下確認鍵。這樣一來,用戶在輸入內容的同時就可瀏覽到相關的搜尋結果頁,大大節約了搜尋消耗的時間[8]。
Google即搜即得可以在用戶即使不知道要尋找什麼,其聯想查詢也對搜尋操作有引導幫助,最熱門的聯想查詢詞語會以灰色的文字形式直接地顯示在搜尋方塊里,這樣當用戶一看到所需的搜尋結果時,就可以停止輸入了。[9]而用戶也可以選擇停用這一功能。[10]
對於大多區域、語言,Google即搜即得可以在應用Android 2.2+或者iOS 4+系統的流動裝置上作為測試版功能來使用。[11]
色情或其他有冒犯性的搜尋關鍵詞不會被納入即搜即得。出版物2600: The Hacker Quarterly編譯了Google Instant不會搜尋的關鍵詞列表[12],即Google Instant不會給出含有這些關鍵詞的即搜即得搜尋結果。[13][14]
Google在搜尋結果中提供即時預覽功能,可在點擊搜尋結果前預覽對應的網頁。用戶在搜尋結果右側的灰色箭頭滑鼠懸停,右側空白處便會以圖片的形式給出相應的網頁即時預覽。在部分預覽中,預覽圖片上的相關程度較高的部分文字會突顯於顯示網頁上,從而幫助用戶更好地了解查詢字詞在網頁中將要出現的位置。[15]
預覽中還包含兩個連結,一個是快取網頁,另一個是類似結果。[15]
不過,有些搜尋結果可能不會提供預覽。[15]
Google針對Android及iOS系統的流動裝置,提供下載包含流動搜尋、Google助理等多樣服務的Google app[註 1],在Android系統搭載Google Play服務下內建並可更新[17][註 2]。
2015年4月,Google宣佈實施移動搜尋演算法調整的工作,Google會優先顯示對移動端進行優化的網頁內容。這個調整全面影響所有網頁的移動搜尋排序。[18]截至2018年12月,在所有搜尋結果中,超過一半的網頁使用流動優先索引,這意味着谷歌搜尋結果更偏重流動端網站,而不是PC端網站。[19]
inurl: | 搜尋網頁連接中包含的關鍵詞 |
site: | 搜尋特定域名的網頁 |
link: | 搜尋連結到指定網址的網頁 |
2009年1月31日晚間10時46分(UTC+8)左右,Google搜尋引擎的中英文等搜尋的結果全部加上了「這個網站可能會損害您的電腦。」。其間,Google的網站管理員中心無法訪問,顯示「Server Error(伺服器故障)」。並且有短暫的修復,之後問題仍然存在。此現象約至11時18分(UTC+8)結束,前後至少30分鐘。後Google在官方網誌中證實,這是人為失誤,由於惡意網址庫中不慎包含了地址「/」,導致所有包含「/」的網址皆被認為包含可能傷害電腦的軟件。[21]在這個故障後,Google News也出現了一些微小的問題。
2013年8月26日,幾名巴勒斯坦的黑客劫持了「Google巴勒斯坦」的域名然後使其重新導向至他們的網站,並在其網頁上寫了抗議文字。[22][23]
2021年1月22日,澳大利亞政府擬定一項法案,要求Google、Facebook等公司向澳大利亞當地的新聞出版商付款後,才能展示新聞內容。澳洲議會在2月25日正式通過備受爭議的《新聞媒體與數字平台強制議價法》(News Media and Digital Platforms Mandatory Bargaining Code)。美國網絡巨頭谷歌曾警告,一旦新法實施,該公司會將其搜尋引擎服務撤出澳大利亞。[24]因此,在澳大利亞地區的Google搜尋頁面上出現黃標警告[25],目前該警告標識已移除。
2021年7月6日,香港政府修訂《個人資料(私隱)條例》從而打擊人肉搜尋行為。Facebook、Google及Twitter公司警告香港政府,若繼續推動修訂個人資料條例,將會停止在香港提供服務。[26]10月8日,私隱條例修訂生效。[27]
Google.com曾經多次被中國官方以未公開理由封鎖。2009年6月18日,中央電視台《焦點訪談》節目批評谷歌的搜尋詞語聯想的功能傳播色情低俗資訊。在輸入普通的詞語如「母親」時聯想到淫穢內容,一時間谷歌備受中國官媒指責。而據谷歌Trends功能顯示,6月10日來自北京的IP惡意刷入近百次黃色詞語,使黃色詞彙搜尋量猛增,17日後此關鍵詞逐漸回落至0。2009年6月24日21時左右,北京的互聯網用戶無法訪問Google.com和Gmail,但使用代理伺服器等手段(俗稱翻牆)可以正常訪問,約兩小時後,Google服務恢復訪問[28]。
2010年1月14日,Google旗下的Gmail遭到可能來自中國的黑客入侵,並企圖下載中國人權活動人士的電郵。Google後來宣佈,Google.cn的搜尋服務將關閉,轉由香港域名面向中國大陸用戶提供簡體中文服務。
此後,中國大陸用戶訪問Google時,常被防火長城干擾[29],並於2014年開始完全無法登入[30]。
Google可以搜尋很多的語言,並且提供了多種語言的介面[31]。
為了達到幽默效果,Google還提供了以下幾種語言的介面:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.