里程碑:40TB数据达成!
MNBVC项目通过23个月的努力,在2024年12月1日成功实现了最初看似遥不可及的目标——数据集规模达到了42.77TB,超越了40TB的目标,达到了106.9%。这一成就标志着我们在开源中文语料集工作上的坚定承诺和不懈努力。
我们的数据集包含了0.58TB的多模态数据和42.19TB的纯文本数据。纯文本数据部分,我们从8个不同的代码仓库收集了27.85TB的数据,这些数据不仅包括代码,还有代码仓库里的各种文档和书籍,并且特别针对中文编码做了转码和保留,为模型训练提供了丰富的语境。此外,我们还从其他多种来源收集了14.92TB的数据,确保了数据的多样性和全面性。
回想起来,在项目启动时,全球最大的开源语料集The Pile仅有825GB,而开源中文语料集的规模更为有限。面对ChatGPT的挑战,我们毅然设定了一个雄心勃勃的目标——达到40TB的数据量,这在当时看来几乎是不可能完成的任务。然而,正是这个大胆的目标,激励了整个里屋社区和更广泛的中文开源社区,大家齐心协力,一步一个脚印,最终实现了这一壮举。
回顾,23个月以来,我们每个月都干了些什么:
◆ 【MNBVC】2024年10月月报,老龙被点了200个骷髅后恼羞成怒,下令开发AI替代论坛成员回帖,结果开发出来的AI太 (22) (2)
◆ 【MNBVC】2024年9月月报,有论文证明了对AI大模型来说最好的语料是论坛语料。 (2)
◆ 【MNBVC】2024年8月月报,院士写的论文里用了MNBVC语料集。 (2)
◆ 【【MNBVC】2024年7月月报,项目里真假老外越来越多了,这些德国人法国人日本人韩国人都开始提供自己语种数据,怎么办? (12)
◆ 【MNBVC】2024年6月月报,我们开源了原神星铁语料,阿里qwen2登顶开源LLM榜首,openai崩了,英伟达崩了 (23)
◆ 【MNBVC】2024年5月月报,很多四五十岁的里屋网友开始写代码了(差点忘了说,本月拿到了糗事百科全部数据) (8)
◆ 【MNBVC】2024年4月月报,一下子多了很多数据,分析不过来了,缺人整理 (8)
◆ 【MNBVC】2024.3月报,感谢神秘岛smder论坛网友们的支持 (25)
◆ 【MNBVC】2024年2月月报,汪洋大海项目遭遇重大挫折,因为几个bug,代码语料小组组长引咎离职 (20)
◆ 【MNBVC】2024年1月月报,托诸位的福,补上了数据这一环,国内大模型水平追上来了。 (9)
◆ 【MNBVC】新年快乐!里屋MNBVC项目一周年汇报来啦!感谢所有里屋众的支持和关注! (50)
◆ 【MNBVC】12月份月报,这一年,里屋干的很棒!大家干的很棒! (17)
◆ 【MNBVC】11月份月报,到年底了,秀个肌肉,图多杀猫 (18)
◆ 实名血泪控诉龙骑兵光把妹不干活,还雪藏了一个法国大波波(17f更新大bb视频)。【MNBVC】里屋超大规模语料集10月份月报 (20)
◆ 【MNBVC】里屋超大规模中文数据集8月份月报 (11)
◆ 【MNBVC项目】7月份月报。。。。。。求赞求三连 (11)
◆ 【MNBVC】超大规模中文语料集6月份月报月报月报月报月报月报月报月报 (14)
◆ 里屋MNBVC项目5月份的月报来了。。。。。。。。。。。。标题要长长长长长长长长长长 (22)
◆ mnbvc项目4月份的月报来了。。。。。。。。。。。。凑字凑字凑字 (12)