凡事贵在坚持——MNBVC项目整整20个月了。

在去年年初的时候,里屋发起了一个神秘的AI开源项目——MNBVC。

https://www.mnbvc.org

通过20个月的努力,里屋的MNBVC项目已经达到了34.6Tb的数据量。

凡事贵在坚持。

里屋用里屋本身,以及MNBVC项目,在身体力行的向大家表达着这样的态度。

回顾过去,里屋的MNBVC项目从一开始大家似懂非懂,各种质疑,到今天已经20个月了。这20个月里面,里屋MNBVC项目组日拱一卒,坚持不懈的持续推动项目进展。

作为一个纯粹的基础技术资料库的建设,不是一个面向普通用户的产品,还是一个用爱发电的开源项目,我们每一个人在这其中都面临着新的挑战,要学习新的东西,也会迎来新的收获。

现在,业内越来越多的专业人士都开始了解到MNBVC项目的价值,这对于我们所有里屋众来说,都是非常欣喜的鼓励。

由院士为通讯作者的一篇论文里使用了MNBVC语料集(见4.1节)。这项研究由国家自然科学基金重大研究计划-中国下一代人工智能的可解释性和通用性(No.92270001)资助,有人评论这篇论文是“月度最佳论文”。以往引用MNBVC的论文很多,但是这篇规格比较高,这也表明大家的工作切切实实在助力中国科研的发展。工作助力了院士的研究工作,这值得大家喝酒时吹个牛了。

华盛顿大学、salesforce、斯坦福大学等开源了一个迄今为止最大的多模态开源数据集MINT-1T。而MNBVC开源的由糗事百科为主的多模态数据集规模也到了人家的一半。这个月我们继续新增了100G的多模态语料,由里屋网友 @jooyi 提供的剧本杀数据组成。感谢剧本杀店老板 @jooyi 的支持。

我们的做事方式和欧美学术圈不同,欧美学术圈都是做了一个工作,写几篇论文放出来,然后就去忙别的了。我们是持续不断的搬砖,也许当前世界最大多模态开源数据集的荣誉不属于我们,但时间站在我们这一边。

20个月来,我们每个月坚持更新月度报告,向大家公开MNBVC开源项目的进展情况。

欢迎更多从事大模型算法研究和训练的朋友,以及所有对中文大模型发展有兴趣的朋友,都能够加入MNBVC开源项目;

https://mnbvc.253874.net

相关日志:公众并不理解反常识的AI大模型。