Google图书(英语:Google Books)是一个由Google研发的搜索工具,它可以自Google所扫描、经由光学字符识别(OCR)、存储的数字化数据库中搜索资料。此服务于2004年10月在法兰克福书展发布,命名为Google Print。当用户使用关键字搜索,Google图书搜索的结果索引会显示在Google网络搜索服务的上方。用户还可以在Google图书搜索搜索书籍。点击Google图书搜索的结果索引打开页面,使用户可以查看书籍中的页面以及内容相关的广告,链接到出版商的网站和书店。Google以限制网页的浏览数量,来阻止书籍被打印和保护文字内容的复制著作权,并追踪用户使用记录,作为通过各种准入限制和保障措施的依据。[1]
Quick Facts 网站类型, 持有者 ...
Close
Google图书搜索允许公有领域的作品和内容,免费全文浏览,并提供PDF的格式下载。对于在美国境外的用户,Google必须确保其没有触犯到用户所在国家的法律,根据Google图书搜索支持小组的成员说法:“一本书是否属于公有领域往往是一个棘手的法律问题,我们会谨慎处理,直到我们确定本书已进入公有领域。”[2]
关于扫描方面,许多书籍使用Elphel 323相机扫描,这种相机每小时可以照1,000页。[3]
而Google的这个项目受到极大称赞,因为它可能成为前所未有、全球最大的网上主体的人类知识,[4][5]但它仍有着有关侵犯著作权上的批评。[6]
Google图书扫描图书的目的,并不是给人类阅读,而是用于训练人工智能[7]。
Google曾表示,他们目前一天可扫描三千本书籍。到2007年3月为止,Google已经数字化100万本图书。Google拒绝透露项目开支,但《纽约时报》在2008年时估算其花费了约500万美元。[8]在2008年10月28日Google说,通过此项服务,他们有700万本的图书被搜索,其中包括扫描的20,000个出版商的合作伙伴[9]。在这700万册图书当中,有100万本在出版商正式授权下提供“完全预览”服务,另外100万属于在公有领域,其余500万是绝版或商用。[10]
- 微软在2006年开发了一个类似的项目,名叫Live Search Books。它持续进行了一段时间,直到2008年5月取消[11]。所有的Live Search Books的资料,现已存在Internet Archive。Internet Archive是非营利性的,它是继Google之后第二大图书扫描项目。截至2008年11月已有超过100万全文公有领域的作品被扫描上网。
- Europeana主宰约300万份的数字对象,其中包括影像、照片、绘画、音频、地图、手稿、印刷书籍、报纸等,这些文件超过一千项是由欧盟自过去两千年的欧洲历史搜集而成的。[12]
- 十二月:Google公布扩张Google Print项目,初期称为Google Print Library Project[13]。Google宣布与几所知名大学和公共图书馆建立伙伴关系,包括密歇根大学、哈佛大学(哈佛大学图书馆)、斯坦福大学(Green Library)、牛津大学(博德利图书馆),以及纽约公共图书馆。根据新闻稿和各大学图书馆长所言,Google项目在十年内数字化并提供约1,500万册的Google图书搜索服务。Google动作之迅速引发了争议,出版商和作者协会质疑这不仅是针对公共领域的图书,同时也挑战了著作权。
- 九月至十月间:两起对Google提出的诉讼控诉Google公司不尊重著作权,未能妥善补偿作者及出版商。其一是集体作者诉讼代表(作家协会Authors Guild控诉Google,2005年9月20日);另一是五个大型出版商和美国出版商协会Association of American Publishers控诉的民事诉讼(McGraw Hill 控诉Google,2005年10月19日。)[6]
- 十一月:Google将Google Print正式改名为Google图书搜索。[14]这个方案使出版商、作者及他们在此服务中的书籍改了名,称为“Google Books Partner Program”(见Google Library Partners (页面存档备份,存于互联网档案馆)),并且与图书馆的合作关系就成为了Google图书馆计划。
- 八月:加州大学系统宣布它们将加入图书搜索数字化的项目。[15]
- 九月:马德里Complutense大学图书馆成为加入Google图书项目的第一个西班牙语图书馆。
- 十月:威斯康星大学麦迪逊分校宣布,它与威斯康星州历史学会的图书馆,将加入图书搜索数字化项目。合并后,图书馆馆藏变为720万册。
- 十一月:弗吉尼亚大学加入该项目。该库包含超过5万册和1,700多万份的手稿、珍贵书籍和文件。[16]
- 一月:得克萨斯州大学奥斯汀分校宣布将加入图书搜索数字化计划。至少有一万册数字化将是由该大学的13个图书馆定位。
- 三月:巴伐利亚州图书馆宣布与Google建立合作伙伴关系,来扫描超过100万份在公共领域,和绝版的德语以及英语、法语、意大利语、拉丁语和西班牙语作品。[17]
- 五月:一本数字化项目的书,被公告为Google及县立、洛桑大学图书馆所纳入。[18]
- 五月:根特大学的Boekentoren图书馆,将参与Google图书数字化项目,且将把19世纪的图书制成法国和荷兰的语言并上线。[19]
- 六月:合作委员会(Committee on Institutional Cooperation)宣布,其12个成员图书馆未来六年将参与扫描1,000万本书。[20]
- 七月:庆应义塾大学成为Google在日本的第一个图书馆合作伙伴,他们将数字化至少12万本公共领域的书籍。[21]
- 八月:Google宣布,它将数字化达50万本有著作权的书籍,也将数字化在康奈尔大学图书馆的公共领域书籍。Google还将提供一个系统,可将数字化复制的所有作品扫描并纳入大学自己的图书馆。[22]
- 九月:Google新增功能,允许用户在公共领域共享片段的书籍。
- 九月:Google推出一项新功能,名为“我的图书馆”,允许用户创建个人化的图书馆。他们可以运用标签、审查、利率、或全文检索来选择图书。[23]
- 十二月:美国哥伦比亚大学成为数字化公共领域的伙伴。[24]
- 五月:微软逐渐衰微,并打算结束其扫描项目。该项目扫描了75万份书籍和八千万篇杂志文章。[25]
- 十月:出版业和Google经过两年的谈判后达成协议。Google同意以补偿作者和出版商,来换取将数以百万计的图书提供给公众。[6]
- 十一月:Google和合作伙伴的图书扫描项目达到了700万大关。其中一百万已达成“完全预览”模式,另外一百万已是可完全浏览和下载的公共领域的作品。[26][10]
出版业与作家协会批评该项目列入片段的作品是侵犯著作权的行为。2005年秋季,作家协会和美国出版商协会分别控诉Google。Google反驳说,该项目的每个项目皆是合理使用,并且在这数字时代,每一个字都有对应到其出版索引。[6]2006年6月,在诉讼之后,法国出版商宣布它打算控诉法国Google。[30]2006年底,德国控诉被撤回。[31]
2007年3月,Google被告侵犯著作权法的图书搜索服务。微软的副总兼法律顾问托马斯·鲁宾(Thomas Rubin)批评Google一再任意复制作品,并且总是直到有人出面指证才会停手。[32]2008年11月28日,作家协会、出版界和Google签订了和解协议,Google同意支付总共1.25亿美元,包括诉讼费用及建立图书权登记处。该解决方案将在2009年5月得到法院的批准。[6]解决的反应有好有坏,其中一个与Google合作的图书馆表示,如果Google无法找到“更合理的条款”,它会选择撤回与其合作的关系。[33]
弗吉尼亚大学的副教授Siva Vaidhyanathan,以法律观点研究一已出版的见解[34],之后他指出Google该项目构成了危险的理论——合理使用,因为索赔的使用其实是不合理的,它可能会导致司法限制这一权利。[35]而之后作家协会控诉Google没有去法院,导致合理使用争端得不到解决方案。
Google许可的公有领域作品也是一个令人关注的议题。[36]一些出版作业是在公有领域进行的,例如美国联邦政府创造的所有作品,但那些作品仍被视如其他著作权保护的作品般对待,导致它们在1922年之后遭禁。[37]
一些欧洲政治家和知识分子批评Google有语言帝国主义倾向,理由是因为绝大多数的书籍都扫描成英文,这会导致英文成为世界代表性的自然语言,如此一来受欢迎的语文学例如德语、汉语、俄语、法语则会渐渐不被重视,并不公平。在这些批评声浪中出面表达意见的是法国国家图书馆馆长Jean-Noël Jeanneney。[38]
当Google图书大量扫描一些过期学报、杂志时产生了一个问题,就是其扫描时并没有办法将元数据(metadata)也一并扫入。这使得Google学术搜索只好开办自己的数字化计划,并放置认同这个项目的出版社的过期期刊文章。[39]
Kelly, Kevin. Scan This Book!. New York Times Magazine. 2006年5月14日 [2008-03-07]. (原始内容存档于2021-01-25). When Google announced in December 2004 that it would digitally scan the books of five major research libraries to make their contents searchable, the promise of a universal library was resurrected. ... From the days of Sumerian clay tablets till now, humans have "published" at least 32 million books, 750 million articles and essays, 25 million songs, 500 million images, 500,000 movies, 3 million videos, TV shows and short films and 100 billion public Web pages.
Copyright infringement suits against Google and their settlement:
The original lawsuits in 2005:
Hafner, Katie. History, Digitized (and Abridged). New York Times. March 10, 2007 [2008-04-10]. (原始内容存档于2020-11-22). Google, on its own, is digitizing books at the Library of Congress, which has its hands full with other items. ... In its quest to scan every one of the tens of millions of books ever published, Google has already digitized one million volumes. Google refuses to say how much it has spent on the venture so far, but outside experts estimate the figure at at least US$5 million. The company has also been scanning and indexing academic journals to make them searchable, and is working with the Patent Office to digitize thousands of patents dating back to 1790.
Siva Vaidhyanathan,. “The Googlization of Everything and the Future of Copyright,” University of California Davis Law Review volume 40 (March 2007), pp. 1207–1231, pdf (页面存档备份,存于互联网档案馆)