BookCorpus (也称Toronto Book Corpus )是一个数据集,包含互联网上收集的约 11,000 本未出版书籍的文本。它是用于训练OpenAI的GPT初始版本的主要语料库[1],并用作包括谷歌的BERT[2]在内的,其他早期大型语言模型的训练数据。 该数据集包含约 9.85 亿单词,涵盖了多种类型的书籍,包括浪漫小说、科幻小说和奇幻小说。
多伦多大学和麻省理工学院的研究人员在 2015 年的一篇题为“Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books”的论文中介绍了该语料库。作者将其描述为“由尚未出版的作者撰写的免费书籍”[3][4]。 该数据集起初托管在多伦多大学的网页上。 原始数据集不再公开,但多伦多大学创建了一个镜像版本 BookCorpusOpen。 虽然在 2015 年的原始论文中没有记录这个网站,但现在已知的删除语料库书籍的网站是Smashwords 。
参考
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.