Loading AI tools
множество веб-страниц Интернета, не индексируемых поисковыми системами Из Википедии, свободной энциклопедии
Глубо́кая сеть (также известна как «Неви́димая сеть», «Глубо́кая паути́на», «Глубо́кий интерне́т», англ. deep web) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами.
Термин произошёл от соотв. англ. invisible web[1]. Наиболее значительной частью глубокой паутины является Глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн-базам данных[2].
Не следует смешивать понятие Глубокая паутина с понятием Тёмная паутина (от англ. dark web), под которым имеются в виду сетевые сегменты, хотя и подключённые к общей сети Интернет, но требующие для доступа определённые программные средства.
В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками (например, тупиковые веб-страницы, динамически создаваемые скриптами на самих сайтах, по запросу, на которые не ведут прямые ссылки), а также сайты, доступ к которым открыт только для зарегистрированных пользователей и интернет-страницы, доступные только по паролю.
Поисковые системы используют специальных поисковых роботов, которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются, занося их содержимое и гиперссылки на них в свои базы данных. Найдя на проиндексированной веб-странице ссылки на другие страницы, поисковый бот переходит по ним и индексирует содержимое каждой из найденных страниц, находит новые гиперссылки и переходит по ним для индексации; в результате переходов по ссылкам, ведущим за пределы индексируемых страниц, количество проиндексированных веб-страниц постоянно увеличивается. Попасть на веб-страницы, на которые нет ссылок с других страниц, поисковый бот не может, в силу чего содержимое этих страниц не индексируется. Как следствие, не зная URL сайта или веб-страницы «Глубокой сети», обычный пользователь попасть на них не сможет.
Также в «Глубокую сеть» попадают сайты, владельцы которых добровольно отказались от индексации поисковыми системами (например, с помощью файла «robots.txt»), а также сайты и веб-страницы, защищённые авторизацией от просмотра информации третьими лицами. В таком случае, не зная логин и (или) пароль к веб-странице, невозможно в полной мере просмотреть её содержимое или пользоваться веб-сайтом.
Размер глубокой паутины неизвестен. Существуют относительно достоверные оценки общего числа сайтов, ведущих к онлайн-базам данных: около 300 тысяч таких сайтов во всём Вебе в 2004 году и около 14 тысяч в Рунете в 2006 году[3][4].
В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов. Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.
Одним из популярных сервисов, работающих с данными глубокой паутины, является UFOseek, изначально предназначенный для систематизации данных о паранормальных явлениях[5].
Хоть и не всегда возможно напрямую найти контент определенного веб-сервера, чтобы он мог быть проиндексирован, всё же можно получить доступ к такому сайту (из-за компьютерных уязвимостей).
Чтобы обнаружить контент в Интернете, поисковые системы используют веб-сканеры, которые следуют за гиперссылками через известные номера виртуальных портов протокола. Этот метод идеально подходит для обнаружения контента во всемирной сети, но зачастую неэффективен при поиске контента глубокой сети. Например, поисковые роботы не ищут динамические страницы, которые являются результатом запросов к базе данных из-за неопределенного количества этих самых запросов. Было отмечено, что это может быть (частично) преодолено путем предоставления ссылок на результаты запроса, но это может непреднамеренно раздуть популярность для члена глубокой сети.
Существует несколько поисковых систем, которые получили доступ к глубокой сети. У Intute прекратилось финансирование и теперь он является временным архивом по состоянию на июль 2011 года. Scirus закрылся в конце января 2013 года.
Исследователи изучали, как можно автоматически сканировать глубокую паутину, включая контент, доступ к которому можно получить только с помощью специального программного обеспечения, такого как Tor. В 2001 году Шрирам Рагхаван и Гектор Гарсия-Молина (Stanford Computer Science Department, Стэнфордский университет) представили архитектурную модель скрытой поисковой системы, которая использовала ключевые слова, предоставленные пользователями или собранные из интерфейсов запросов, для запроса и сканирования глубокого интернета.
Коммерческие поисковые системы начали изучать альтернативные методы для сканирования глубокого интернета. Протокол Sitemap (впервые разработанный и внедренный Google в 2005 году) и mod_oai — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокого интернета на определенных веб-серверах. Оба механизма позволяют веб-серверам размещать на них доступные URL-адреса, что позволяет автоматически обнаруживать ресурсы, которые напрямую не связаны со всемирной сетью. Система навигации по глубокому интернету от Google вычисляет представления для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Полученные результаты учитывают тысячу запросов в секунду для глубокого веб-контента. В этой системе предварительное вычисление представлений выполняется с использованием трех алгоритмов:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.