• 超越跑分,我们该如何评价AI大模型的智商?

    随着越来越多的模型性能接近GPT-4,几个主要的评测手段都已经无法进行有效区分。 1, MMLU,分数均80+分,已缺乏区分度。 2, MT-Bench,裁判员是GPT-4,能力不足以分辨模型之间的能力差别。 3, Arena Elo:主要是普通对话类任务,让Elo分数受到和人类对齐程度的极大 ...

    2024-05-21