ChatGPT 是Reinforcement learning with human in the loop. 说白了,就是要有大量的人工去评分哪些是“更符合人类习惯的回答”。(这里面还涉及到information theory的一些东西)。 然后用另一个模型,接受这些人工评分,然后给出最终reward。ChatGPT 的language model 再基于这个reward,进行policy update。 我猜测,百度GPT的问题大概可能出在“人工标注”上。如果进行这些工作的人,文化水平太低,那么自然会把一些低俗,抬杠,恶意搞笑的回答给予高评分。也就是说,数据的label就有问题,而不是算法的问题。
@tinyfoolvoice Жыл бұрын
没错, ChatGPT 是Reinforcement learning with human in the loop做的,但是,这首先是因为GPT3和3.5已经蕴含了海量的人类知识库。GPT3和3.5如果没有chatgpt的话,确实没办法保证每次输出的都是很好的结论。但是这个起点是至关重要的。 如果你用gpt2来做这个起点,来做ChatGPT,效果就会差很多。这个核心问题解决不了,就是沙上建塔。当然忽悠国内的一些普通用户是可以的,但是产品能力差的多
说起背后的原因,我突然想起华人杨小凯教授提出的后发优势和劣势理论(Curse To The Late Comer)----出来混,欠的债迟早是要还的。PS:杨小凯教授关于电商方面的内容因为他早逝而没能看到,但是他的大的政治经济框架是没问题的。总结的说是国家机会主义(私有产权和专利制度的保护前期不保护后期也不提倡)+民众机会主义(抄袭+拷贝+偷盗知识产权,民粹主义和滥用工会如民众在整个经济没有发展起来之前,不停的索要好处--在权威下被打压)这两种的合体。