零零发Blog

IT白话

超越跑分，我们该如何评价AI大模型的智商？

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。 1， MMLU，分数均80+分，已缺乏区分度。 2， MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。 3， Arena Elo：主要是普通对话类任务，让Elo分数受到和人类对齐程度的极大 ...

2024-05-21