出门问问序列猴子通用文本数据集由来自网页、百科、博客、问答、开源代码、书籍、报刊、专利、教材、考题等多种公开可获取的数据进行汇总清洗之后而形成的大语言模型预训练语料。它将不同来源的HTML、TEXT、PDF、EPUB等各类格式的数据统一整理为JSONL格式,并进行了仔细的筛选、去重、清洗和价值对齐,从而形成了一份覆盖全面、规模庞大、安全可信、质量上乘的预训练语料,具备处理细致、价值对齐、简洁易用等特点。
-
处理细致
- 序列猴子通用文本数据集经历了语言判别、正文抽取、格式标准化、多尺度去重、基于规则及模型的多重数据过滤与清洗、多维度数据质量检验等精细化数据处理环节,因而能更好地满足后续的模型训练需求
-
价值对齐
- 出门问问注重文本数据集的内容与中文主流价值观的一致性,在数据集构建过程中通过算法和人工评估相结合的方式,提升了文本内容的纯净度
-
简洁易用
- 序列猴子通用文本数据集采用统一、简洁的数据格式,可快速应用于大语言模型训练等场景
序列猴子中文通用开源数据集(以下简称序列猴子数据集)是从序列猴子通用文本数据集的中文数据集中抽取 13,000,000 份数据而得到,面向公众开放。
序列猴子数据集以 JSONL
类型文件提供。文件的每一行都是格式统一的 JSON
类型的文本。其中,JSON
的格式为:
{"text": "<文档>"}
其中的<文档>
是从不同来源得到的清洗之后的文本数据。
序列猴子数据集的下载链接如下:
序列猴子数据集的 MD5
摘要信息如下。在下载完成后,可以通过对比该摘要信息来验证下载数据的完整性。
ffacae345d22ab4f1464221d8ecf92c6
比如在Linux系统上,可使用如下命令来计算下载后数据的 MD5
摘要信息:
md5sum <下载后保存的文件路径>
为降低传输和存储带宽要求,序列猴子数据集以 *.tar.bz2
格式的压缩包形式来提供。请在下载完成之后进行解压,以得到最终的开源数据。
比如在Linux系统上,可使用如下命令来进行解压:
tar xvfj <压缩包文件>