BookCorpus

BookCorpus （也称Toronto Book Corpus ）是一个数据集，包含互联网上收集的约 11,000 本未出版书籍的文本。它是用于训练OpenAI的GPT初始版本的主要语料库^[1]，并用作包括谷歌的BERT^[2]在内的，其他早期大型语言模型的训练数据。该数据集包含约 9.85 亿单词，涵盖了多种类型的书籍，包括浪漫小说、科幻小说和奇幻小说。

多伦多大学和麻省理工学院的研究人员在 2015 年的一篇题为“Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books”的论文中介绍了该语料库。作者将其描述为“由尚未出版的作者撰写的免费书籍”^[3]^[4]。该数据集起初托管在多伦多大学的网页上。原始数据集不再公开，但多伦多大学创建了一个镜像版本 BookCorpusOpen。虽然在 2015 年的原始论文中没有记录这个网站，但现在已知的删除语料库书籍的网站是Smashwords 。