公众并不理解反常识的AI大模型。
看到个新闻:《中国据报要求AI公司大模型强制审查 确保体现社会主义核心价值观》联合早报
顿时觉得很有趣。
预训练生成式大语言模型的人工智能,也就是现在我们日常常说的“LLM”(大语言模型),“GPT”(预训练生成式模型)或者俗称AI(人工智能)的东西。
这玩意确实有点新鲜,也很学术。在网络上很多人各式各样的科普下,公众对今天的AI有了各自的理解。应该说大多数人都能对AI的理解做到八九不离十,但是每个人都有每个人的偏差,甚至偏差的部分可谓离题万里,驴唇不对马嘴。
著名的物理学家费曼曾经说过:“如果你觉得你理解了量子力学,那么你就不理解量子力学。”
因为那个年代(其实到今天也一样),离经叛道的量子力学有几个和传统物理学完全不一样的特性:
抽象性和远离经验:量子力学描述的对象非常抽象,与我们的日常经验大相径庭。
无法回答的“为什么”:试图解释量子现象的根本原因,会遇到极大的困难。
其实今天的AI也不逞多让。无论是一千多亿的参数,还是数万张显卡(计算卡)的硬件投入,都超过了普通人对于计算机技术的常识理解能力。以及,很多很多人,特别是一些认为自己对AI的发展负有不可推卸的管理责任的人们,很难理解为什么我们说我们其实不能预测一个AI接下来会生成什么内容。
要求AI的“准确率”本身是反 AI的,这一点我看到很多国内的投身AI行业的互联网大佬也难免会犯这样的错误。
我们面对今天很多难以理解的新事物总是免不了依靠他人可科普来“顾名思义”,或者通过自己的直觉来想象新技术的可能性。但是对于一个AI算法行业的工程师们都还在吵来吵去的新玩意,你说一些媒体记者或者不从事研发的行业大佬们,想要完全避免闹笑话也就变得不那么容易了。
比如说开头的新闻中写道:
另一名北京顶尖人工智能起步公司的员工说,公司的基础模型在回答问题时非常不受约束,所以进行安全过滤极其重要。要进行安全过滤,首先要从清除训练数据中有问题的信息,并开始构建敏感关键词数据库。
这就比较离谱。我觉得他可能是没搞清楚大模型训练的这个语料的数据吨位到底是个什么概念。
用我们里屋的MNBVC数据集来说,MNBVC已经有33TB的已经初步清洗过的纯文本语料了。
用大家比较熟悉的四大名著来做计量单位比较的话,《三国演义》的字数约为60万字。33TB字节相当于33000000000字节。1个字节约等于8个位。因此,33TB字节相当于33000000000/8=4125000000个汉字。由于《三国演义》的字数约为60万字,因此33TB字节的文本数据相当于4125000000/600000=1660万本《三国演义》。
33TB字节的文本数据相当于约1660万本《三国演义》。
这是一个估算值,实际数值可能略有不同。
你要是用人工去审核这些内容很显然是不可能的。假设你有1600个读书能力超级强的人一天能审完一整本《三国演义》,那么这1600人的团队要干1万年才能审完。不过以MNBVC项目的进度来说,到今年年底我们能再给他们多整出几百万本《三国演义》。。。。。
如果用简单粗暴的关键词过滤,很显然也没机会。能通过电脑的算力来处理这么大的数据,只能通过AI来实现。
但是我们正是因为还没有高智商的AI才需要建设大规模语料集来训练AI,在我们训练出来厉害的AI之前,是没有AI能被我们用来审核这么大规模的语料数据的……
这就死循环了不是。
最后,就算我们有AI来做审核,比如我们可以偷偷摸摸的用ChatGPT来干。但是,如何让领导信任AI的审核结果呢??
这还是一个难以回答的问题吧。
btw,前不久有个投资人跟我说:“你们做的那个MNBVC数据集,价值不是很大呀。”
这里我也顺便解释一下。语料对于今天的大模型的重要性本身是毋庸置疑的。事实上我们现在能够看到的所有大模型,无论是ChatGPT,还是Gemini,还有国内的文心一言、通义千问……等等等等,无一例外遵循的大模型训练法则都是模型基座(算法)+语料+算力(计算卡),这三大要素缺一不可。
很显然,即使没有我们做的开源语料集MNBVC,各家大厂的大模型也都训练出来了,因为他们都投入了数千万甚至上亿元的成本在他们自己的大模型的语料准备上。我们如果要求一个百十来个行业内的有责任心的社区伙伴们,在一起利用业余时间用爱发电,用一年时间做出来的通用开源语料集,能够和各家大厂投入数千万甚至上亿元的私有语料集在一些细节质量上相提并论,本身也不太现实是不是?
而且,即便如此,这2023年的百度云智大会上,作为中国大模型AI训练的领先企业百度,依然把MNBVC作为通用开源语料集的贡献摆在了第一位:
开源和闭源之间本来就没有非此即彼的冲突。MNBVC项目本来也是我们以社区之力响应行业内专家的呼吁而发起,力求为中文AI建设贡献一点我们的自己的力量。单纯的商业价值,本来也不在MNBVC项目的考量之列。
无论如何,对于所有做中文AI大模型训练的团队来说,你再也找不到第二个数据体量相当的开源语料集了。
到今天(2024年7月19日),MNBVC语料集的数据吨位已经超过了33T 。