深网,即深层网站(英语:Deep web),是指不能被标准搜索引擎索引的全球资讯网内容。与深网相反的术语是表网,任何人都可以使用网际网路存取。

深网可以直接透过的URLIP位址存取,但可能需要输入密码或其他安全资讯才能存取实际内容[1][2]。这类网站用途包括网路邮件网路银行、限制存取的社群媒体页面和资料以及使用者必须付费的服务,如随选视讯、网路杂志和报纸等。

名词

2009年,深网与暗网这两个名词首度被混为一谈,当时讨论了深网概念以及自由网黑暗网路上发生的非法活动[3]。这些犯罪活动包括个人密码、造假身份证件、毒品、枪支和儿童色情交易[4]

从那时起,在媒体报导丝绸之路之后,媒体开始使用深网作为黑暗网站黑暗网路的同义词,导致了长期的混乱[5][6]Wired记者Kim Zetter和Andy Greenberg建议使用不同的方式使用这些术语。虽然深网是指无法利用传统搜寻引擎存取的任何网站,但暗网只是深网的一部分,被刻意隐藏并且无法利用一般浏览器和方法进入[7][8][9][10][11]

命名

伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到,吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些没有被任何搜索引擎索引注册的网站[12]。伯格曼还引用法兰克·加西亚在1996年1月的一篇文章[13]

这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我称之为隐形网。

早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。[14]

现在普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中[12]。2001年,电脑科学家迈克尔·伯格曼将当今全球资讯网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表网大几个数量级[12]

深网资源

防止网页被传统搜索引擎索引的方法可以被分类为以下一个或多个:

  1. 被限制存取的内容:以技术方式限制访问其网页的网站,例如Robots.txtCAPTCHAs或是禁止搜寻引擎建立快取[15]
  2. 非HTML或文本的内容:图像或影片等多媒体或是特定档案格式无法被搜寻引擎处理。
  3. 私人网站:需要注册或是登入的网站。
  4. 软体:某些内容刻意隐藏在一般的网路上,只能使用特殊软体如TorI2P或其他程式存取。例如Tor让使用者匿名访问.onion网址的网站,以隐藏他们的IP位址。
  5. 未被连结的内容:未被其他网站连结或很少连结的网页,这可能防止被网路爬虫存取。
  6. 网站档案管理库网站时光机这类网站内容的网页无法被搜寻引擎编入索引[16]

抓取深网内容

研究人员探寻了如何自动抓取深网内容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亚·莫利纳(Hector Garcia-Molina)[17][18]发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。[19]

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(由Google于2005年首次开发并由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:

  1. 为输入搜索选择关键词允许的输入值,
  2. 确定是否只接受特定的值(例如时间),以及
  3. 选择少量的组合生成适合纳入网站的搜索索引网址。

2008年,为了方便Tor隐藏服务的使用者存取和搜寻隐藏的.onion网域,亚伦·斯沃茨设计了Tor2web—一个能够利用普通浏览器存取的代理应用程序[20]

参见

参考资源

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.