【人工智能】大语言模型评估基准七宗罪 | Jason Wei | 思维链作CoT作者 | 成功与否的标准 | 评估基准的七个错误 | 面临的挑战 | 测试集污染

  Рет қаралды 6,731

Best Partners TV

Best Partners TV

Күн бұрын

在大模型时代,我们该如何来评估大语言模型的性能呢?我们比较熟悉的有像 MMLU、GSM8K等一些评估基准,但是这些评估基准真的完美吗?OpenAI科学家、同时也是思维链的提出者,Jason Wei,在他最新的一篇博客中进行了深入的研究。在博客中,Jason Wei首先列举了几种成功的评估基准,然后总结了评估基准不成功的常见原因,一共七条,包括样本数量少、评估基准太复杂等等,他把这些形容是评估基准的七宗罪。
PS:个别英文单词发音录制的时候不太准确,后期处理时重新用机器朗读了一下,请多包涵。
博客原文链接:www.jasonwei.n...
#人工智能 #llm #modelevaluation #benchmark

Пікірлер: 18
@ching5614
@ching5614 3 ай бұрын
終於知道LLM的Ai的考試科目,數學/邏輯/程式語言/.....。
@unidentifieduser5550
@unidentifieduser5550 3 ай бұрын
大飞让机器人念 human eval, 哈哈哈,听的笑死我了。不过非常佩服大飞的严谨!
@muru603
@muru603 3 ай бұрын
你错了,其实视频里这个是大飞的数字人😉
@bestpartners
@bestpartners 3 ай бұрын
真人真人,得对粉丝负责,不能搞个数字人来糊弄大家
@01174755
@01174755 3 ай бұрын
5樓是天才
@987x9
@987x9 3 ай бұрын
看来出题比解题要简单点
@Guavaava
@Guavaava 3 ай бұрын
那肯定啊。而且验证答案也比做出答案简单
@scchen2011
@scchen2011 3 ай бұрын
慢了一步!
@unidentifieduser5550
@unidentifieduser5550 3 ай бұрын
大飞可以去找一下有没有什么开源的语音模型,可以模仿大飞的语气更自然的说出“humaneval”。
@bestpartners
@bestpartners 3 ай бұрын
其实可以克隆一下,实在是懒得弄了,哈哈,大家都担待一下🙏
@skyacaniadev2229
@skyacaniadev2229 3 ай бұрын
😮我以为大飞是故意的😂
@muru603
@muru603 3 ай бұрын
这种评估,跟手机跑分差不多,看看就得了
@dertee
@dertee 3 ай бұрын
原来humaneval不是人类在eval啊。。。。。。
@alexyoung3609
@alexyoung3609 3 ай бұрын
第一✌
@bestpartners
@bestpartners 3 ай бұрын
感谢支持!
@michaelwtreww
@michaelwtreww 3 ай бұрын
这个博客的链接大飞甩一个吧
@bestpartners
@bestpartners 3 ай бұрын
发了的,在视频简介里
@michaelwtreww
@michaelwtreww 3 ай бұрын
中国高考老专家出题😂
How AI 'Understands' Images (CLIP) - Computerphile
18:05
Computerphile
Рет қаралды 199 М.
Zombie Boy Saved My Life 💚
00:29
Alan Chikin Chow
Рет қаралды 36 МЛН
AI, Machine Learning, Deep Learning and Generative AI Explained
10:01
IBM Technology
Рет қаралды 168 М.