• 里程碑:40TB数据达成!

    MNBVC项目通过23个月的努力,在2024年12月1日成功实现了最初看似遥不可及的目标——数据集规模达到了42.77TB,超越了40TB的目标,达到了106.9%。这一成就标志着我们在开源中文语料集工作上的坚定承诺和不懈努力。 我们的数据集包含了0.58TB的多模态数据和42.19TB的纯文本数 ...

    2024-12-01