大哥麻烦给个数据样本参考一下 #5

kingpingyue · 2024-03-05T01:53:29Z

大哥麻烦给个数据样本参考一下，我想了解一下数据处理部分

jiahe7ay · 2024-03-05T06:44:13Z

"text":xxxxx<Im_end>xxxx （最长为512）im_end来区分两个文本，我是尽量填充到最大长度的

kingpingyue · 2024-03-05T06:59:27Z

就是例如一篇文章，我怎么把这篇文章处理成可以训练模型的数据，代码我没太看懂

kingpingyue · 2024-03-06T03:13:54Z

input_ids = [np.array(item) for item in outputs["input_ids"]]

这句我没看懂是为什么

kingpingyue · 2024-03-14T00:53:52Z

为啥要转np.arrary啊

jiahe7ay · 2024-03-14T02:03:20Z

如果词表大小小于 65535 用uint16存储，节省磁盘空间，否则用uint32存储

kingpingyue · 2024-03-14T02:14:14Z

哦哦其实 input_batch = [] input_batch.append(input_ids)类似，指定数据类型会节省磁盘空间

Provide feedback