Remove ads
электронная поисковая система по книгам от Google Из Википедии, свободной энциклопедии
Google Книги (англ. Google Books, Google Print, Project Ocean) — масштабный проект американской транснациональной корпорации Google, запущенный в 2004 году и направленный на оцифровку и публикацию в интернете миллионов печатных произведений. Основная идея заключалась в том, чтобы сделать все когда-либо напечатанные книги доступными для чтения и поиска в интернете, обеспечив пользователям неограниченный доступ к знаниям. В 2010 году Google сообщила, что, по её оценкам, в мире насчитывается более 129 млн печатных изданий, которые компания планирует полностью оцифровать за 10 лет.
Google Книги | |
---|---|
URL | books.google.com |
Коммерческий | да |
Тип сайта | онлайн-библиотека |
Язык (-и) | многоязычный |
Владелец | |
Начало работы | 2005 |
Страна | |
Медиафайлы на Викискладе |
Бо́льшая часть коллекции поступала на оцифровку из университетских библиотек. В обмен на бесплатный доступ к книгам, университеты получали бесплатные электронные копии, а Google — материалы для улучшения поисковой системы и создания обширной коллекции цифровых материалов. Компания сотрудничала с более чем 40 крупнейшими библиотеками, включая библиотеки Мичиганского, Гарвардского, Стэнфордского, Оксфордского университетов, а также Нью-Йоркскую публичную библиотеку. Часть коллекции поступала от издателей и авторов, предоставляющих Google разрешение на оцифровку материалов в обмен на доход от контекстной рекламы или от увеличения продаж благодаря росту спроса на электронные книги.
Компания проспонсировала разработку специальных аппаратов для сканирования книг, которые с помощью высокоточных камер могли обрабатывать до 1000 страниц в час. Встроенное программное обеспечение исправляло искажения, корректировало цвет и контраст, а также преобразовывало сноски в цитаты, что впоследствии позволило системе ранжировать книги по релевантности. При этом операторы переворачивали страницы вручную. К 2019 году в рамках проекта было оцифровано более 40 млн произведений.
В 2005 году Гильдия Авторов[англ.] и ряд других издателей подали коллективный иск против Google[англ.], обвинив компанию в несанкционированном сканировании защищённых авторским правом материалов. Судебный процесс продолжался до 2016 года, после чего суд принял решение в пользу Google, определив, что сканирование материалов соответствует принципу добросовестного использования. Однако из-за нерешённых правовых споров оцифровка значительно замедлилась. По состоянию на 2023 год остаётся неясным, продолжает ли компания оцифровывать библиотечные издания.
Со времён аспирантуры в Стэнфордском университете сооснователи Google Ларри Пейдж и Сергей Брин задумывались об оцифровке огромных коллекций печатных изданий и предоставлении к ним широкого доступа[1]. Эти идеи — оцифровка, доступность, возможность поиска по всем текстам мира — побудили Брина и Пейджа создать «поисковый робот», который впоследствии лёг в основу поисковой системы Google[2].
В 2002 году стартовал проект под кодовым названием «Проект Океан» (англ. Project Ocean), в рамках которого сотрудники компании Google анализировали возможность массовой оцифровки всех печатных изданий. Впоследствии проект переименовали в Google Print, а затем — в Google Books[3][4]. Основная идея заключалась в оцифровке всех книг мира — свыше 125 млн[5]. По подсчётам Google, около 20 % из них находились в общественном достоянии, остальные были защищены авторским правом, однако уже не издавались. Google обратился к крупнейшим университетским библиотекам с просьбой предоставить бесплатный доступ к их коллекциям, а взамен предлагал бесплатные отсканированные копии[5][6][7]. Предполагалось, что это будет беспроигрышная стратегия для двух сторон — библиотеки получают электронные версии сотен тысяч книг, а поисковая система Google улучшает качество и релевантность результатов поиска[8]. Помимо этого, Google инициировал партнёрскую программу для издателей и авторов, в рамках которой правообладатели могли разрешить Google сканировать полный текст книги[9]. Взамен они могли получить доход от контекстной рекламы или увеличения продаж от роста спроса на электронные книги[9]. Масштабная оцифровка началась в 2004 году[10]. Полное сканирование всех материалов планировалось завершить за 10 лет[6].
Проект был представлен в октябре 2004 года на Франкфуртской книжной ярмарке[11][9]. Предполагалось, что Google будет сканировать только общедоступные материалы из Оксфордской и Ньй-Йоркской публичных библиотек, а также часть коллекций в библиотеки Гарвардского университета. Библиотеки Мичиганского и Стэнфордского университетов разрешали оцифровку лишь произведений в общественном достоянии[9]. В декабре 2005 года проект переименовали в Google Books[12].
К июню 2010 года было оцифровано 12 млн книг, написанных примерно на 480 языках. На тот момент Google планировала завершить работу к 2020 году, создав виртуальную коллекцию из 4 млрд страниц или 2 трлн слов. К 2014 году число оцифрованных книг достигло 25 млн, а общие инвестиции в проект составляли 400 млн долларов[5]. В 2015 году Google заявила, что отсканировала 30 млн томов, что было сравнимо с крупнейшими библиотеками мира, например, Библиотекой Конгресса, насчитывающей около 37 млн книг[13]. Однако из-за судебных разбирательств[англ.] оцифровка сильно замедлилась[13][14]. К 2019 году было оцифровано свыше 40 млн печатных произведений[15].
Google заключила договоры с более чем 40 библиотеками по всему миру, включая библиотеки Гарварда[16], Стэнфорда[17], Мичиганского[18], Корнеллского[19] и Колумбийского университетов[20], Нью-Йоркскую публичную библиотеку[21], Бодлианскую библиотеку[22], Австрийскую национальную библиотеку[23], Баварскую государственную библиотеку[24], Мадридского университета Комплутенсе[25], Гентского университета[26], Библиотека Каталонии[27], Библиотека Принстонского университета[28], Виргинского университета[29], Висконсинского университета в Мадисоне[30].
Проект Google Книги преследовал несколько амбициозных целей. Создатели стремились защитить тысячи важных публикаций от исчезновения из-за утраты печатной версии или прекращения издания[31]. Они намеревались создать всеобъемлющую цифровую библиотеку мировых знаний, включающую информацию из всех когда-либо вышедших книг[1][10]. Такой подход позволил бы обеспечить равный доступ к культурному и интеллектуальному наследию, требуя для чтения любого из материалов лишь доступ к интернету[1].
Google стремилась создать единый каталог всех печатных произведений и дать пользователям возможность искать по нему поиск с помощью ссылок и тегов. В то же время компания не ставила целью открыть полный доступ ко всем оцифрованным книгам, чему объективно мешали ограничения, связанные с авторским правом[8][9].
Google стремилась при оцифровке произведений создавать качественные изображения минимального размера, чтобы даже пользователи в отдаленных местах без доступа к интернету могли использовать полученные материалы[3]. Руководителем оцифровки был назначен американский информатик Дэн Клэнси[англ.][1]. Он принял решение оцифровывать книги путём фотографирования, а не сканирования[5][3].
Перед началом оцифровки Google вместе с партнёрской библиотекой разрабатывали подходящую выборку книг, принимая во внимание их ценность и состояние. Затем книги перевозили на грузовиках в специально оборудованные центры, где на расстоянии от 6 футов (1,8 м) до 8 футов (2,4 м) друг от друга были установлены станции оцифровки[5][3]. Каждое устройство было изготовлено на заказ и могло обрабатывать до 1000 страниц в час. Каждый печатный материал закреплялся на специальном стенде, а вверху устанавливались 2-4 камеры и инфракрасный свет для автоматической коррекции кривизны страниц в книге. После встроенный в систему лидар помог определить точное расположение книжных листов в пространстве, а специальное программное обеспечение «распрямляло» искривлённые страницы. Большинство книг не имели цветных фотографий или другой существенной информации о цвете. Используя методы интерполяции камеры уменьшали битность изображения и так уменьшали размер изображения[3][32].
Программное обеспечение было способно распознавать оптические символы, преобразуя изображения в текст, устранять искажения, корректировать цвет, настраивать контраст, а также учитывать сноски на другие книги, что впоследствии позволило системе ранжировать книги по релевантности[5]. Страницы переворачивались вручную специалистами, прошедшими специальную подготовку. Использование человеческого труда было необходимо для аккуратной работы со старыми материалами[33][3][5]. Подобная модель позволила Google сократить стоимость оцифровки одной книги до 10 долларов. Согласно расчётам компании, каждый оператор мог оцифровывать до 50 книг в день[3]. С течением времени сканеры продолжали совершенствоваться, новые версии выпускали каждые полгода[14].
После фотографирования камеры автоматически передавали полноценные изображения на связанный компьютер через FireWire или USB-соединение. Затем файлы загружались на серверы Google для дальнейшей обработки[3]. Сами книги возвращали сотрудникам библиотек, которые занимались их регистрацией в базе данных и возвращали обратно на полку. При этом библиотеки проверяли случайные выборки полученных файлов, чтобы убедиться, что они соответствуют необходимым требованиям контроля качества. Google предоставляла университетам доступ к системе загрузки всех цифровых файлов, созданных на их основе коллекций, а также разрешала переиздание материалов через их собственные онлайн-сервисы[3].
В 2008 году была создана партнёрская сеть HathiTrust, первоначально включавшая 13 университетов, каждый из которых планировал оцифровывать свои коллекции благодаря Google Books[34]. Организации сети договорились создать общий репозиторий для хранения оцифрованных книг. Материалы в открытом доступе доступны для онлайн-чтения[35][14].
Качество оцифрованных материалов часто подвергалось критике. На некоторых страницах видны пятна от табака, червоточины, пылинки и даже отпечатки цветов, зажатых между страницами. Из-за ошибок оптического распознавания некоторые страницы были преобразованы в нечитаемые узоры. Однако самой распространённой погрешностью были руки операторов, случайно попадавшие в кадр во время перелистывания страниц[36][37]. Некоторые страницы были пропущены или появлялись несколько раз[38].
Примерно 36 % оцифрованных книг содержали ошибки в метаданных, что значительно превышает уровень библиотечных онлайн-каталогов[39]. Старые журналы иногда не содержали никакой информации о метаданных, необходимых для идентификации отдельных статей. Поэтому в 2007 году Google Scholar инициировал отдельную программу для научных журналов[40].
Некоторые исследователи критиковали Google за слишком узкий выбор коллекций для цифровизации, считая, что есть перекос в пользу изданий на английском языке и, соответственно, другие языки оказываются недостаточно представлены. В конечном итоге, это искажение может повлиять на качество и направление будущих исследований[41][42].
Американское авторское право контролирует использование копий произведений в цифровой сфере. Распространение электронных копий книг должно осуществляться под надзором правообладателей[43]. Основная критика и правовые проблемы проекта Google Книги были связаны с тем, что компания начала сканировать книги без получения разрешений у издателей и авторов[6][13][5].
В сентябре 2005 года группа из трёх авторов совместно с коллективом издателей, включая Гильдию Авторов[англ.], подали два коллективных иска против компании Google и HathiTrust за «масштабное нарушение авторских прав»[44][5][45].
Согласно иску, каждый истец утверждал, что имеет авторские права как минимум на одно произведение, находящееся в библиотеке Мичиганского университета. Целью иска был запрет оцифровки произведений и использование уже созданных копий без получения согласия их владельцев. Защита Google строилась на концепции справедливого использования — юристы компании утверждали, что документы являются преобразованными, поскольку компания не просто занималась оцифровкой, но и встроила систему поиска по ключевым словам[44][6]. Месяц спустя подобный иск против Google подала и Ассоциацию Американских Издателей[англ.][46][6].
В 2008 году Google, совместно с Гильдией Авторов и Американской Ассоциацией Издателей, подготовили мирное соглашение. Согласно документу, Google должен был заплатить 125 млн долларов за сканирование защищённых авторским правом книг. При этом компания сохранила бы за собой возможность выкладывать материалы на своём сайте, а авторы и издатели смогли бы получать часть доходов от рекламы и других сборов. Количество отображаемого текста для пользователей было бы ограничено до 20 %, однако пользователи могли получать доступ к полному тексту за определённую плату. Для университетов и библиотек была предложена подписка, позволяющая их пользователям получить доступ к оцифрованным коллекциям[47]. По условиям соглашения, все авторы и издатели должны были отправить Google до июня 2010 года запросы на отказ от сканирования в будущем и удаление уже отсканированных книг[48][49].
Согласно американскому законодательству, чтобы утвердить мирное соглашение при коллективном иске, большинство участников группы должны были согласиться на новые условия в течение полугода. Однако несмотря на согласия двух сторон, урегулирование иска значительно затянулось из-за смены главного судьи[48]. Само соглашение вызвало критику со стороны ряда организаций и авторов. Они опасались, что соглашение приведёт к дисфункции системы авторского права, так как любой последующий общественно важный проект будет опираться только на доктрину справедливого использования, в то время как сама правовая система авторского права останется неизменённой[50]. Высказывались опасения, что внедрение подобной системы даст Google слишком много власти в сфере культуры[51][52][53]. Против соглашения выступили Microsoft, Amazon и Yahoo!, а также ряд других заинтересованных групп, включая Архив Интернета. Они посчитали, что соглашение между Google и книжными издателями противоречит конкурентному праву. Организации даже объединились в Open Book Alliance[англ.], чтобы совместно высказать свои опасения Министерству юстиции США[54].
Из-за большого количества возражений и критических замечаний стороны были вынуждены переработать условия договора и в ноябре 2009 года представили «Соглашение о примирении 2.0». Документ ограничил сферу действия иностранными книгами, которые зарегистрированы в Бюро авторского права США или опубликованы в Великобритании, Канаде или Австралии. Он предоставил правообладателям право вести переговоры о доле доходов дал Google больше свободы в установлении цен. При невозможности установить правообладателя средства делились согласно доктрине cy-près[англ.][55][56]. Согласно этому соглашению, Google мог бы открыть к просмотру до 20 % книги, чтобы побудить к покупке , а также продавать книги по ценам, определяемым алгоритмом или отдельным правообладателем[5]. Это урегулирование позволило бы Google стать крупнейшим в мире магазином электронных книг[57][58].
Период рассмотрения коллективных исков и возражений был установлен по ускоренному графику: возражения должны были быть представлены до 28 января 2010 года, а слушания должны были пройти 18 февраля[48]. Хотя новая версия соглашения получила меньше жалоб, многие авторы и издатели продолжали критиковать предложенные условия. Министерство юстиции США также выступало против, утверждая, что мирное соглашение по-прежнему не учитывает все антимонопольные вопросы[59]. 22 марта 2011 года суд отказал в принятии изменённого соглашения[60][61][62].
Когда не удалось достичь соглашения, Google продолжил оцифровку документов, а издатели начали вкладывать финансовые средства в бизнес по продаже электронных книг[14]. Гильдия авторов решила отказаться от поиска мирного соглашения, так что судебные разбирательства продолжились. В мае 2012 года суд присвоил делу статус группового иска, утверждая, что организации отстаивают условия класса. Поскольку иск представлял целый пласт сообщества (издателей и авторов), к нему применялась особая система американской правовой системы — в таком случае, суд имеет право «расширить» нормы законов, при условии согласия судьи и отсутствии возражений со стороны Министерства юстиции[5][63]. Новые требования, выдвинутые Гильдией Авторов, предусматривали выплату компанией 750 долларов за каждую неправомерно отсканированную книгу в рамках проекта[64]. Однако 4 ноября 2013 года суд отклонил иск о нарушении прав, заявив, что использование Google произведений было «добросовестным использованием» в соответствии с законом об авторском праве[65][66][67][68].
В апреле 2014 Гильдия подала апелляцию на это решение. Она также начала лоббировать в Конгрессе создание некоммерческой организации, подобной ASCAP, которая будет оцифровывать и лицензировать книги своих авторов для всех библиотек, школ и других организаций, решивших платить абонентскую плату[69][13]. 16 октября 2015 суд снова подтвердил решение в пользу Google, а в ответ на это Гильдия авторов подала очередное ходатайство (Certiorari) с просьбой пересмотреть это решение[70]. В октябре 2015 года апелляционный суд США постановил, что масштабные усилия Google по сканированию миллионов книг для онлайн-библиотеки не нарушают закон об авторском праве, отвергнув доводы авторов, что проект лишает их доходов[71].
Затянувшийся на 11 лет судебный процесс завершился в апреле 2016 года. Верховный суд США постановил, что не будет принимать апелляцию со стороны Гильдии авторов[72][73][74][75]. Формально в деле победила Google, поскольку компании позволили продолжать показывать отрывки из оцифрованных книг. Однако читатели не получили доступ к обширной цифровой библиотеке, а авторы и издатели лишились возможности постоянно получать доход продажи произведений. Отсканировав около 25 млн книг и вложив в проект порядка 400 млн долларов, Google не смогла полноценно запустить проект. Работы по сканированию были практически остановлены. Полный доступ к оцифрованным Google материалам по-прежнему невозможен[76].
В 2009 году Французское издательство Éditions du Seuil отсудило в Парижском суде €300 тысяч компенсации, а также €10 тысяч в день за книгу до удаления из баз данных Google[77][78][79].
В 2010 American Society of Media Photographers[англ.] подало в суд на Google за незаконное копирование материалов, содержащих защищённые авторским правом изображения[80].
В 2009 году китайская писательница Мянь Мянь подала в суд на Google за нарушение авторских прав. Её рассказ «Кислотные любовники» был оцифрован и попал в Google Books. Писательница потребовала возместить ей ущерб в размере 61 тысячи юаней (8900 долларов). Это стало первым гражданским иском против Google в Китае[81][82]. Также в 2009 году Китайское общество по защите авторских прав писателей обвинило Google в сканировании 18 тысяч книг 570 китайских писателей без разрешения[83].
В основе проекта Google Books лежит утопическая идея о создании библиотеки, содержащей информацию о всём мировом знании. Google планировал создать общедоступную коллекцию, содержащую информацию о всех когда-либо опубликованных материалах[8]. Согласно исследователям, предложенные для мирного урегулирования соглашения внесли большой вклад в развитие системы авторского права. Несмотря на отсутствие консенсуса, они показали слабые стороны и консерватизм американской системы авторского права, а также её неспособность приспособиться к новой информационной среде[43].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.