【人工智能】大语言模型评估基准七宗罪 | Jason Wei | 思维链作CoT作者 | 成功与否的标准 | 评估基准的七个错误 | 面临的挑战 | 测试集污染

How AI 'Understands' Images (CLIP) - Computerphile

【人工智能】AI能取代科学家解决科学问题么 | Stephen Wolfram | AI预测还很糟糕 | 科学也是一种数据压缩 | 计算不可约性 | 如何发现有趣

Булли больше на улицу не выпускаем? 🌥 #симбочка #симба #булли

老公说在家无聊，想出去打牌，我不让他去，就陪他在家这样玩#夫妻搞笑视频#惊不惊喜意不意外 #万万没想到 #逗比夫妻日常 #这操作都看傻了

Zombie Boy Saved My Life 💚

Сбежать от Granny : Nuggets Gegagedigedagedago пытается удрать от страшной бабульки !

【人工智能】大语言模型评估基准七宗罪 | Jason Wei | 思维链作CoT作者 | 成功与否的标准 | 评估基准的七个错误 | 面临的挑战 | 测试集污染

Рет қаралды 6,731

Best Partners TV

Best Partners TV

Күн бұрын

在大模型时代，我们该如何来评估大语言模型的性能呢？我们比较熟悉的有像 MMLU、GSM8K等一些评估基准，但是这些评估基准真的完美吗？OpenAI科学家、同时也是思维链的提出者，Jason Wei，在他最新的一篇博客中进行了深入的研究。在博客中，Jason Wei首先列举了几种成功的评估基准，然后总结了评估基准不成功的常见原因，一共七条，包括样本数量少、评估基准太复杂等等，他把这些形容是评估基准的七宗罪。
PS：个别英文单词发音录制的时候不太准确，后期处理时重新用机器朗读了一下，请多包涵。
博客原文链接：www.jasonwei.n...
#人工智能 #llm #modelevaluation #benchmark

Пікірлер: 18

@ching5614 3 ай бұрын

終於知道LLM的Ai的考試科目，數學/邏輯/程式語言/.....。

@unidentifieduser5550

@unidentifieduser5550 3 ай бұрын

大飞让机器人念 human eval, 哈哈哈，听的笑死我了。不过非常佩服大飞的严谨！

@muru603 3 ай бұрын

你错了，其实视频里这个是大飞的数字人😉

@bestpartners 3 ай бұрын

真人真人，得对粉丝负责，不能搞个数字人来糊弄大家

@01174755 3 ай бұрын

5樓是天才

@987x9 3 ай бұрын

看来出题比解题要简单点

@Guavaava 3 ай бұрын

那肯定啊。而且验证答案也比做出答案简单

@scchen2011 3 ай бұрын

慢了一步！

@unidentifieduser5550

@unidentifieduser5550 3 ай бұрын

大飞可以去找一下有没有什么开源的语音模型，可以模仿大飞的语气更自然的说出“humaneval”。

@bestpartners 3 ай бұрын

其实可以克隆一下，实在是懒得弄了，哈哈，大家都担待一下🙏

@skyacaniadev2229

@skyacaniadev2229 3 ай бұрын

😮我以为大飞是故意的😂

@muru603 3 ай бұрын

这种评估，跟手机跑分差不多，看看就得了

@dertee 3 ай бұрын

原来humaneval不是人类在eval啊。。。。。。

@alexyoung3609 3 ай бұрын

第一✌

@bestpartners 3 ай бұрын

感谢支持！

@michaelwtreww 3 ай бұрын

这个博客的链接大飞甩一个吧

@bestpartners 3 ай бұрын

发了的，在视频简介里

@michaelwtreww 3 ай бұрын

中国高考老专家出题😂

How AI 'Understands' Images (CLIP) - Computerphile

18:05

How AI 'Understands' Images (CLIP) - Computerphile

Computerphile

Рет қаралды 199 М.

【人工智能】AI能取代科学家解决科学问题么 | Stephen Wolfram | AI预测还很糟糕 | 科学也是一种数据压缩 | 计算不可约性 | 如何发现有趣

14:59

【人工智能】AI能取代科学家解决科学问题么 | Stephen Wolfram | AI预测还很糟糕 | 科学也是一种数据压缩 | 计算不可约性 | 如何发现有趣

最佳拍档

Рет қаралды 8 М.

Булли больше на улицу не выпускаем? 🌥 #симбочка #симба #булли

00:41

Булли больше на улицу не выпускаем? 🌥 #симбочка #симба #булли

Симбочка Пимпочка

Рет қаралды 6 МЛН

老公说在家无聊，想出去打牌，我不让他去，就陪他在家这样玩#夫妻搞笑视频#惊不惊喜意不意外 #万万没想到 #逗比夫妻日常 #这操作都看傻了

00:15

老公说在家无聊，想出去打牌，我不让他去，就陪他在家这样玩#夫妻搞笑视频#惊不惊喜意不意外 #万万没想到 #逗比夫妻日常 #这操作都看傻了

琴琴qin

Рет қаралды 15 МЛН

Zombie Boy Saved My Life 💚

00:29

Zombie Boy Saved My Life 💚

Alan Chikin Chow

Рет қаралды 36 МЛН

Сбежать от Granny : Nuggets Gegagedigedagedago пытается удрать от страшной бабульки !

00:32

Сбежать от Granny : Nuggets Gegagedigedagedago пытается удрать от страшной бабульки !

Фани Хани

Рет қаралды 4,1 МЛН

AI, Machine Learning, Deep Learning and Generative AI Explained

10:01

AI, Machine Learning, Deep Learning and Generative AI Explained

IBM Technology

Рет қаралды 168 М.

【人工智能】直觉的力量 | 杰弗里辛顿最新对话 | Sana AI峰会 | 回忆AI生涯 | Ilya的能力和直觉 | 缩放法则 | 多模态 | 语言与认知 | 神经网络 | AI情感 | 反向传播

14:33

【人工智能】直觉的力量 | 杰弗里辛顿最新对话 | Sana AI峰会 | 回忆AI生涯 | Ilya的能力和直觉 | 缩放法则 | 多模态 | 语言与认知 | 神经网络 | AI情感 | 反向传播

最佳拍档

Рет қаралды 15 М.

【人工智能】中国大模型行业的五个真问题 | 究竟应该如何看待国内大模型行业的发展现状 | 模型 | 算力 | 数据 | 资本 | 商业化 | 人才 | 反思

18:25

【人工智能】中国大模型行业的五个真问题 | 究竟应该如何看待国内大模型行业的发展现状 | 模型 | 算力 | 数据 | 资本 | 商业化 | 人才 | 反思

最佳拍档

Рет қаралды 35 М.

降低hallucination技巧｜人类和机器的区别｜ChatGPT不好用可能是你的问题｜如何做一个合格的降临派｜大语言模型技术深度访谈3/3

30:56

降低hallucination技巧｜人类和机器的区别｜ChatGPT不好用可能是你的问题｜如何做一个合格的降临派｜大语言模型技术深度访谈3/3

课代表立正

Рет қаралды 4,1 М.

【人工智能】AI将会带来软件民主化 | Scott Wu | Cognition创始人&CEO | 三块IOI金牌得主 | Devin AI | 工程师效率5倍提升 | Coding Agent的未来

11:46

【人工智能】AI将会带来软件民主化 | Scott Wu | Cognition创始人&CEO | 三块IOI金牌得主 | Devin AI | 工程师效率5倍提升 | Coding Agent的未来

最佳拍档

Рет қаралды 8 М.

Horizontal Comparison and Evaluation of the Top Ten Domestic and International Language Models

16:15

Horizontal Comparison and Evaluation of the Top Ten Domestic and International Language Models

贯一智能科技

Рет қаралды 1,7 М.

【OpenAI】为何解雇Sam Altman | 前OpenAI董事会成Helen Toner爆料OpenAI宫斗内幕 | 不知ChatGPT发布 | AI治理与监管 | AI诈骗 | AI未来

14:14

【OpenAI】为何解雇Sam Altman | 前OpenAI董事会成Helen Toner爆料OpenAI宫斗内幕 | 不知ChatGPT发布 | AI治理与监管 | AI诈骗 | AI未来

最佳拍档

Рет қаралды 15 М.

【人工智能】互联网”种树“，大模型”包林“ | 杨植麟 | 月之暗面CEO | 第一性原理 | 摩尔定律 | Scaling Law | AI发展的挑战 | 创业经验

12:58

【人工智能】互联网”种树“，大模型”包林“ | 杨植麟 | 月之暗面CEO | 第一性原理 | 摩尔定律 | Scaling Law | AI发展的挑战 | 创业经验

最佳拍档

Рет қаралды 7 М.

【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

38:45

【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

最佳拍档

Рет қаралды 69 М.

How Disney Vacations Became Too Expensive For Many Americans

18:14

How Disney Vacations Became Too Expensive For Many Americans

CNBC

Рет қаралды 875 М.

Булли больше на улицу не выпускаем? 🌥 #симбочка #симба #булли

00:41

Булли больше на улицу не выпускаем? 🌥 #симбочка #симба #булли

Симбочка Пимпочка

Рет қаралды 6 МЛН