【一句话总结】
本期播客深度呈现了OpenAI核心工程师翁嘉毅(Jiayi Weng)从清华少年到GPT系列模型背后“RL Infra架构师”的真实成长路径,揭示了一个拒绝内卷、主动重构评价体系、以开源为慈善、以工程为杠杆撬动AI范式演进的技术理想主义者如何用“卖铲子”的务实主义,在AGI风暴中心静默奠基。
【关键观点】
- •**工程能力已成为AI时代最稀缺的底层生产力:** 在大模型研发中,算法创新已让位于系统级工程能力——谁能在单位时间内更高效地迭代、修复Infra层的Bug、提升吞吐与稳定性,谁就真正掌握模型训练的命脉;教一个研究员写代码远比教一个工程师做科研更难,这标志着AI研发范式已从“idea驱动”全面转向“infra驱动”。
- •**真正的技术影响力源于对信息平权的执着践行:** 从清华开源全系课程作业、打造广为流传的强化学习框架「天授」、到免费签证查询系统「退学Online」,翁嘉毅将代码视为一种非营利性慈善,其底层逻辑是打破知识垄断与资源壁垒,让能力不输但信息闭塞者获得平等起点,这种“开源即正义”的实践构成了他区别于功利主义技术精英的核心标识。
- •**个人评价体系的自主重构是抵抗异化的精神锚点:** 面对GPA、PhD、顶会论文等外部强加的单一标尺,他早年即清醒构建起以“GitHub Star数、竞赛名次、实际项目影响力”为三支柱的自我坐标系,并坚持“最低必要投入GPA”,将认知带宽全部导向能产生真实世界反馈的创造,从而在高度竞争环境中守护主体性与长期动能。
- •**OpenAI的成功本质是高密度人才×极致执行×组织一致性共振的结果:** 其爆发并非源于天才构想,而是由顶尖直觉(如Alec)指明方向、谷歌级工程方法论(Barrett/Liam引入)保障高速迭代、Sam Altman级商业与政治执行力兜底融资与生存,三者缺一不可;而组织膨胀后“context不一致”导致的Infra腐化,正成为其持续领先的最大结构性挑战。
- •**AGI的终极瓶颈不在算力或算法,而在人类组织的有限带宽:** 当前大模型尚未榨干Scaling Law潜力,真正卡点是Infra中尚未被发现的深层Bug与跨团队协作导致的系统熵增;未来破局点或将是一个具备“无限上下文”的AI Agent,它能替代人类CEO完成全局信息同步与决策,从而突破生物脑的Context容量极限——这是技术演进倒逼组织形态革命的必然逻辑。
【全文纪要】
[00:00:00] **主持人:** 很多这个model release都有我的名字,这个就是因为我在OpenAI的内部搭了整个post training的RL infra,所以整个post training的RL infra你是最核心的贡献者了,是的。因为我觉得应该打破信息差,信息差是一个就是如果你在清华生存的话是一个很有用的东西,但是我应我觉得每个人都应该平等的拥有这个信息,哪怕当时有了现在的认知,那还是做不出来没有。 [00:00:26] **主持人:** 没有,我不想发paper,我觉得发paper完全没有意义。矿方当时说要搞一个呃,AI lab,就是后面的DeepSeek,对我当时是拿了offer。如果你想进工业界,那么读PhD就是浪费生命,教一个researcher。 [00:00:45] **主持人:** 如何做好 engineering,要远比教一个 engineer 如何做好 research 来的难。每家的 infra 都有不同程度的 bug,然后谁修 bug,谁修的 bug 越多,那谁的模型训的就越好。Hello 大家好,本期嘉宾翁嘉毅,他与。 [00:01:03] **主持人:** 他于2022年加入 OpenAI,并且是 OpenAI 一系列模型背后的核心贡献者。从 ChatGPT、GPT-4o 再到 GPT-5,你能看到的每一个模型跃迁背后都有他的身影。而他的核心贡献可以被总结为三个关键词:强化学习、post training、infra。 [00:01:19] **主持人:** infra,但对我来说,翁嘉毅不只是把模型做得更强的人。在加入 OpenAI 之前,他就已经用开源和代码影响过无数人。从在清华开源作业与资料试图打破信息差,到开源强化学习框架天授,做出免费签证查询系统,他把代码工具视作一种慈善。在这期播客,我们会从翁嘉毅的童年聊起,到清华与 CMU 的求学之路,再到2022年加入 OpenAI 之后的亲身经历,站在世界 AI 风暴中心的他看见了什么?这里是 Why Not TV Podcast,现在请和我一起进入翁嘉毅的世界。 [00:01:55] **主持人:** Hello,佳艺,欢迎你来到 Why Not TV Podcast。Hello,hello,啊,这这个我觉得这期很奇妙的一点就是我在给你准备这期的 outline 的时候,我用的是 GPT-5 的 deep research,然后就相当于是你自己在背后作为核心开发者的产品和模型,然后他们自己在做 deep research,想这些问题来采访你,是背后他们的生产者,是他们的 developer,我觉。 [00:02:21] **主持人:** 我觉得这个是一个比较奇妙的闭环。今天我们会谈到很多部分,从你的童年成长、清华的本科经历,到CMU读研,再到2022年加入OpenAI至今的所有的核心开发的经历。我想先从最早你的童年开始,能不能给我讲讲你你觉得你小时候是一个什么样的小孩?我小时候特别喜欢这个学奥数,奥数,对,我我从一年级开始就开始学奥数,嗯嗯,就是因为。 [00:02:50] **翁嘉毅:** 开始的时候,呃,我爸妈让我去听了这个进修校的一个奥数课跟语文课,然后我对语文完全不感兴趣,但是我对奥数就非常感兴趣,然后我就进去了,然后从一年级开始就一直上到六年级,然后初中也是,然后我发现就是我做数学题做的比谁都快,小学的时候,对,小学的时候就是比如说别别人口算题,像二年级的时候口算题可能还没做完,就是可能写到一半,然后我就已经做完了,嗯,就是那种不用过脑子的,嗯,可能用现在时髦话说就是season one啊,对,直接直接表。 [00:03:26] **翁嘉毅:** 表层意识直接过,然后直接看一眼出来答案那种,然后然后就是这个让我这个做数学题非常有成就感,因为我我觉得我是一个就是学习还算相比于其他人算比较偏慢的人,呃,怎么说呢,就是。 [00:03:45] **翁嘉毅:** 学一个新的东西,我经常要花别人呃两到三倍的时间。但现在其实还还是这样,就是比如说我读一段代码,我我就需要比别人花很多的时间去理解这个整个整个整个内容,整个 context 啊,然后。 [00:04:01] **翁嘉毅:** 但是我一旦理解之后,我用的就非常快。呃,有一个我呃不太恰当的例子就是比如说我我这个小时候经常不是要背书嘛,嗯,背一个课文,嗯,然后我就是呃在睡觉之前,我想想尽所有方法,然后能能够磕磕巴巴的就是呃。 [00:04:24] **翁嘉毅:** 完整的背出来,然后哪怕有很多停顿,然后你只要想起来都好,然后睡一觉,然后第二天醒醒来发现这个倒背如流。嗯,我当时的想法是就是因为我我需要花更多的时间,所以说我需要呃比别人提前学东西,呃,所以所以当时我就是在。 [00:04:47] **翁嘉毅:** 呃,初中的时候开始看高中数学,然后就是直接直接问这个初中的数学老师这个说各种高中数学的一些问题,然后他也非常热心呃回答我,然后我也非常感激。初二的时候就已经把高中啃完了,然后初三就开始学微积分。 [00:05:04] **主持人:** 数学,你你天生你就觉得你做的快,然后比别人都快,但同时呢,你又觉得你学东西慢。我感觉应该就是呃,我需要更长的时间构建我的知识树。就是呃,正常来说,这个知识树是比如说有个根,然后往上拓展,然后再往上拓展,再往上拓展,然后好几层。然后你每一次比如说拿这个最顶层的这个这个解。 [00:05:32] **翁嘉毅:** 结论去应用到这道题当中,然后你要从头到尾过一遍,然后你要慢慢慢慢想出来。但我可能就直接建立一个链接刷 cut,然后直接上去,然后就不用反应了。所以你是从小就意识到我好像比别人更聪明,呃,没有,没有,没有这种感觉,没有。 [00:05:51] **主持人:** 所以你只是说你好像你只是觉得你对这事儿感兴趣,那你愿意提前学数学这个事儿的这个这个里里面的核心兴趣是哪儿来的?呃,我想投资未来哦,我想投资我自己的未来。 [00:06:07] **翁嘉毅:** 所以你在初二的时候,你就意识到我这个时候学提前学高中数学是一种投资未来。对呃,对于我的未来的一些学习生涯是有帮助的。呃,与其说我现在浪费时间在这个刷题上面,那不如学一点对未来有用的东西,然后后面的收益可能更多。 [00:06:27] **主持人:** 这个是你父母给你讲过类似的不是?OK,我父母无所谓,我父母就根本不不是怎么不是怎么关心我是怎么学的,但我还是特好奇为什么你初中的时候就有投资未来的这种想法,因为你你我相信你那时候肯定学有余力对吧?对,嗯,你为什么不去玩啊?为什么不去打篮球打游戏?你为什么想着我要学高中数学,我要怎么怎么样?嗯,首先是因为对这个感兴趣,就是我我觉得这个呃这。 [00:06:57] **翁嘉毅:** 这个这个初等数学太无趣了,然后这个稍微怎么说稍微稍微有意思一点的数学更呃能引起我的兴趣。那是谁让你有了这种兴趣吗?是天生的吗?对数学呃可以算是吧,或者说你还是说是小学的时候你因为这事儿有成就感,所以你就呃你可以这么认为,就是有一个初始的成就感,然后初始的 reward,然后。 [00:07:23] **翁嘉毅:** 然后慢慢慢慢慢慢的,然后你就会慢慢慢慢把这个你数学这方面的这个技能树慢慢慢开始点,因为你每点一次你都会有一个正反馈,然后再点一次再有正反馈,然后你就会一直在这个上面走。嗯,但像比如说打篮球,我我试过,但是没有正什么正反馈,就是我我经常被我舍友这个按着打。对,然后然后然后体育,嗯,我练过跆拳道,我觉得跆拳道还可以,但是这个跆拳道一打实战我就被对手揍着了。对。 [00:07:56] **主持人:** 所以反而是这种正反馈,像你本身也擅长,然后你对这个也不排斥,慢慢慢慢就变成了一种自发的内生的兴趣了。对,嗯,所以其实倒不是家庭环境,而是就是你自发而产生的是吧?是的,是的。那这是数学,你初中的时候提前学高中的数学,那你高中的时候为什么又对编程产生了兴趣呢?呃,我编程是初一开始的,对,初一,对,编程初一开始是因为那个就是小升初的时候我去了时代中学,然后它是一个私立校,然后但是私立校的话有一个这个编程兴趣班,然后然后我然后然后就抱着。 [00:08:32] **翁嘉毅:** 抱着玩,我我能理解高中有兴趣竞赛,但其实初中搞编程是应该不对升学没有太多用,对不对?呃,是的,是的,没有太多用。那这个事儿也是你自己找的兴趣班,还是你父母给你找的?我父母觉得这个可能对我挺有意思的。 [00:08:49] **翁嘉毅:** 然后我就试了试,然后我觉得还可以。好,那我们聊你高中。嗯,高中我觉得其实我最感兴趣的是你OI省选NOI的经历,能给我们讲讲吗?为什么要搞竞赛呢?因为升学压力还是有的。嗯,呃,你如果不搞竞赛那。 [00:09:09] **翁嘉毅:** 这个对于非北京的人员来说,想上清华北大是非常难的,这个难如登天。所以当时是因为升学压力搞的OI啊,是的,是的,就是呃,大部分是因为升学压力,因为我之前就已经在搞数学竞赛跟OI了,然后我高一的时候其实花了一点时间去做数学竞赛。 [00:09:30] **翁嘉毅:** 拿到了一些还可以的名次,但是如果再往上的话,就是嗯省选数学竞赛的省选,然后我们学校是没有那个基础的,然后自己学也很困难,所以说我就放弃了,并且我对这个再往上的这个就省选往上的数学题,嗯,我觉得我非常困难,因为我没有那么早的去接触,然后我觉得学习起来非常累。你说你哪怕初中就开始学高中数学都不够早,呃,初中开始学高。 [00:09:58] **翁嘉毅:** 高中数学竞赛可能够早一点,嗯,对,就是我没有那么提前,对,所以所以说我掂量了一下还是放弃了,你就去搞呃OI信息学竞赛,搞搞OI了,能给我们介绍一下就是,嗯,靠信息学竞赛然后升学这个一般是要经过什么什么步骤,先省选,然后是什么样的流程?呃,先NOIP,然后就是相当于一个普及组,呃,不是提高组,NOIP提高组的一个这个省里面的一个选拔赛,差不多是十月,然后后面是呃弄完是每个省都有每个省不同的选拔标准,要选出来省队去参加国赛,然后省省选的话,福建是有两轮,一轮在寒假,一然后还有一轮在四月份。 [00:10:44] **翁嘉毅:** 然后选完之后,然后就是五六月应该有一个清华或者北大夏令营可以二选一,呃,可以拿一些这个优惠条件,至少当时是这样的。然后是在七月到八月去搞NOI的这个国赛。 [00:11:03] **主持人:** 那给我们讲讲你在这个过程中啊是怎么样的?第一轮、第二轮、第三轮,这个 NOIP 还好吧?这个 NOIP 就是已经因为因为这个从初中开始搞的,所以说还好。然后省选,省选这个高一的时候就是连省选都没过,就是完全不会做,几乎不会做。然后高二的时候会做一点点,就是会乱搞,然后会一些这个这个 heuristic 方法,就比如说这个有一题叫这个最小双元覆盖,然后我当时搞出来七十分,我刚刚好像是全场最高,因为我做出来这一题后面就是进了省队,但是进完省队之后就是呃。 [00:11:46] **翁嘉毅:** 后面的就是清华夏令营,感觉还可以,就是拿到了一个降六十,无条件降六十,有条件本一线,这个怎么理解?就是高考的成绩直接会给你加六十,如果你没有保送的话,然后。 [00:12:03] **翁嘉毅:** 如果这个线过了清华当年的录取线,那么清华就会要你。然后有条件本一是说,呃,如果在 NOI 比赛里面,呃,考到了前一百五十名,应该是银牌线。 [00:12:20] **翁嘉毅:** 那么就有本一,如果你只要高考的成绩过了本一,那么就无条件录取。但是如果你是金牌的话,那你就连这个都不用了,你直接保送。你当时拿到NOI的那个有条件本一了吗?呃,unfortunately没有,就因为就是呃,这个是又是一个黑历史了,就是我是当时的福建省队的倒数第一。 [00:12:43] **主持人:** 嗯哼,福建省内就只有当年只有一个铜牌,就是我,然后剩下的人都银牌以上。这事儿的失利对你的升学有影响吗?当时嗯,还是有挺多影响的,因为我当时毕竟高二下半年没有搞文化课,然后我对于我的未来也不是很确定,我不知道我到底能高考考多少分。呃,有些之前的例子,比如说像。 [00:13:09] **翁嘉毅:** 有有学长就是把六十分加分全部用完了,然后然后就真真的是一点都不剩,然后我觉得这个万一我也这样怎么办就很危险,然后我对于这种不确定性非常害怕,呃,但是想了想我觉得呃,我应该也没有那么差吧。 [00:13:30] **翁嘉毅:** 然后还是还是就咬牙选了这个六降六十,所以你当时另外一个选择是更保险一点的,呃,更保险的原因就是直接可以在呃NOI现场,然后签一个上海交大的本一线录取,所以当时这个是一个呃很艰难的决定啊,也还好吧,就是主要是嗯,首先心态方面这个当时毕竟很很难过,然后对未来不确定性呃就是。 [00:14:00] **翁嘉毅:** 自己感到很害怕,然后但是这个家人鼓励还是让我选择了这个呃选这个清华六十。那当时是不是弄完OI搞完竞赛之后到高三你就不碰这些东西了,就all in高考?呃,也没有,就是会可能会偷偷的碰,就是像比如说。 [00:14:20] **翁嘉毅:** 我觉得我对这个代码的优化有特别的追求,就是我会呃,我我当时甚至练成了就是比如说在i那个iPad上面直接,呃,因为Safari它是没有代码编辑器的,然后我就直接这个用iPad键盘直接裸打代码,然后直接交,然后没有编译,然后。 [00:14:43] **翁嘉毅:** 那个那一段经历其实我觉得也很锻炼自己的思考能力,因为呃它需要你对于整个整个题目或者整个逻辑有个完整的认知,然后哪里错了你要能快速的定位到是哪里错了。 [00:14:59] **翁嘉毅:** 然后它会很锻炼你的这个反应能力的,呃,然后我觉得这个对于我来说是一个很好的锻炼,但对你来说当时其实不需要这种锻炼,呃,是的,是的,是的,是,只不过就是就是自己很感兴趣,就比如说当时这个 O I 还有一个叫常数优化,嗯嗯嗯,呃,就比如说这个呃有一个算法,这个虽然时间复杂度可能都是 n 平方,然后但是这个实际的它的这个前面是带了一个常数的,然后这个 O I 的这个评测都是会有这个结果,就比如说按照这个跑测试点的时间来排序,然后跑的最快的那么就就排。 [00:15:40] **翁嘉毅:** 就排第一,然后如果跑一样快,那么按照代码长度的长短,然后所以说这个我会同时 optimize 这两个指标,然后然后这个刷这个东西就感觉很有意思,很有意思,虽然说没什么用,但是很有意思。嗯,对你真是搞这个的圣体,因为你真喜欢这个东西是吧?你从中能获得快乐。对,嗯嗯嗯,那我们来聊聊清华,呃,如果我跟你说你在清华2016年开始读本科。 [00:16:10] **主持人:** 你直接跟我说有没有什么现在想起来哇特别比如说大一大二刚进去值得回忆的事儿,第一个浮上你脑海的是什么?真有的话就是我我把我所有的作业都开源了,因为不同的人对这件事情有不同的看法。 [00:16:27] **翁嘉毅:** 呃,像比如说有些学长学姐是呃比较反对这件事的,但是我觉得我应该做这件事儿。我当时做一个把这个我所收集到的所有的呃这个上古作业、上古材料,然后全部在 GitHub 上开源了,除了那些有版权问题的我没开源,然后剩下的我没有版权问题的都开源了,为什么? [00:16:52] **翁嘉毅:** 因为我觉得应该打破信息差,信息差是一个就是如果你在清华生存的话是一个很有用的东西,但是我应我觉得每个人都应该平等的拥有这个信息。你现在回去,你现在回去随便抓个计算机的学弟问,问这个你认不认识这个捐这个新戏楼的人,哪怕他把他的名字放在戏楼上面,你认不认识他? [00:17:21] **主持人:** 不认识,你认不认识温嘉义?应该认识,因为毕竟这个大家都看我的作业活的,这个这个这个比捐比这个捐楼有用,是吧? [00:17:37] **主持人:** 此处弹幕应该闪过加一,如果我用过看过你的作业,就应该在这时候发个弹幕了啊。呃,但为什么,为什么你会把你的作业开源?这个里面本质为什么和信息差有关系?呃,我想打破这个信息差,就是我不想让后人重蹈覆辙,就是经常疲于奔命,就是很多人其实他不是很擅长搜集东西的。 [00:18:01] **翁嘉毅:** 但是他其实很有能力的,但我呃其实呃就如果能够给这些人有一个信息平权的机会的话,那他可能在清华会活得更好。所以你的信息平权是指知不知道往年的作业这种信息和学长学姐问过以前会考什么重点这种信息,呃以及作业以及老师没有规定不能放出来的作业。 [00:18:25] **主持人:** 嗯呃,不然的话你会经常会花可能十几二十个小时,然后你又不敢问助教,然后你就不知道怎么做,然后你就会花一些巨大巨大块的时间,然后去一直在钻牛角尖,然后反而对整个学习是很没有帮帮助的,收益很低。 [00:18:50] **翁嘉毅:** 但这样的话,就是如果我我当时觉得,如果我把做我自己的作业开源的话,那么我可能会帮到一些这样的例子,然后可能会帮后面更多的一些学弟学妹,用更多自己的时间来去做他们更想做的事情,而不是。 [00:19:09] **翁嘉毅:** 要脑就是做这些没有什么浪费生命的事对,所以你这事做成了,现在你的作业应该在清华已经成为一个很广为流传的 GitHub repo 啊,是吧?嗯嗯嗯,那这个之外呢,我看到你应该大一大二大三多久开始入门科研啊,这些什么什么时候开始的?嗯嗯,这个应该是大二吧,然。 [00:19:34] **翁嘉毅:** 然后后面就是呃就是问学长说这个有没有哪个推荐的实验室,呃当时有就学长跟我说了三个名字,呃朱军老师,然后汤继老师,还有崔鹏老师,呃我默认这个按排序,按按照每个人牛逼程度排序,呃当然可能不是这样的,但是我当时就是按照这个这个排序。 [00:20:00] **主持人:** 你以为先后顺序啊?对对,我以为先后顺序,然后就报了一个计算机的学术新新兴计划,然后后面就是应该是全录取了,然后我就选了朱军老师,然后大二的时候就跟朱军老师呃,就是先见了一面,然后就是问说有什么方向,有三个方向,呃,贝叶斯。 [00:20:25] **翁嘉毅:** 呃,对抗网对抗生成网络就干,还有一个强化学习,强化学习对,呃,就是三个方向。然后我当时其实想搞的是干,我觉得这个这个图像非常有意思,呃,但是我不知道哪个是干,然后我就选了二哦,什么叫不知道哪个是干?我当时真的什么都不知道,我就是个小白,对,然后然后我就误打误撞选了二哦,没有什么特别的,就是我我觉得我觉得二哦应该是搞那个图像的东西,就就这样,对。 [00:20:53] **翁嘉毅:** 对,所以是一个相当 random 的,你对,是的,是的,是的,但是后面搞二又呃发现这个这个是个打游戏的东西,嗯呃觉得挺有意思的,然后就一直搞下去了,嗯,对,但是实际上呃就是我最开始想法是我其实有三个大的方向,我其实都挺喜欢的,一个是人工智能,就是 AI,然后另外一个是图形学,还有一个是网络安全。 [00:21:23] **翁嘉毅:** 呃,网络安全我觉得这个哈克非常酷。那我在大学的时候,其实业余时间也搞了很多网网络安全的相关的东西,然后还给学校修了不少的这个校园网的 bug,比如说,呃,比如说这个修了一下这个这个免费下成绩单的这个这个一分钱下成绩单的这个事儿,就是成绩单下一次要这个十块钱,就是我跟另外一个学长发现了一个 bug,然后然后呃就是可以一分钱也可以不要钱下载,然后后面就是呃下载几次之后,然后把这个 bug 给修了,对,就是直接反馈给这个学校教务部门。所以你是很享受这种 hacking 的过程,对,所以网安是一种 hacking,我其他的呢,呃,图形学的话我感觉也是个 hacking,对现实世界的 hacking,就是你可以以自己的呃视角去构建你脑中想象的场景,然后这样会让你觉得你是上帝,你是神。我其实当时最感兴趣的还是图形学。 [00:22:26] **翁嘉毅:** 因为我我在呃初中的时候看过一个电影叫创,呃tron,就是呃那个那个什么创战记的那个那个它是一个那个呃科幻片,然后它的那个电影特效就非常厉害,然后就就把我当时看的非常震撼,然后我我想着如果有一天我能做出这种。 [00:22:52] **翁嘉毅:** 特效或者说我可以像创这样构建一个自己的虚拟世界,那是呃就是我我我觉得我就圆满了,对,然后我觉得图形学是实现这个的一种手段,对,然后所以说我当时就特别感兴趣图形学,然后呃我在大二的时候就上图形学,嗯,然后我当时就是。 [00:23:18] **翁嘉毅:** 因为特别喜欢,所以说我花特别多时间去做图形学的大作业,然后当时应该是拿了呃全班唯一为为二的A加,对,然后发明了一个新算法,能够减少这个呃迭代的这个收敛的次数,以及这个用了一堆的这个算力来跑了就渲染一个。 [00:23:45] **翁嘉毅:** 巨高清的图就是应该十六K的图,然后然后当时就是在我之前是完全没有人炫一个十六K的图的,然后并且十六K的图完全没有噪点。那当时那么感兴趣图形学,后来继续下去了吗?嗯,没有,因为我觉得就是如果你要搞科研的话,那还是。 [00:24:10] **翁嘉毅:** 呃,专心比较好,不能这个脚踩两条船。因为你当时已经去对朱林老师那儿,我我已经去朱林老师那儿,对,有有个项目是搞那个呃,威斯洞姆,就是一个洞姆,是一个差不多九十年代一个游戏,然后当时是有一个比赛想把这个呃,用用一个神经网络来去在一个固定的地图里面,然后把这个游戏打通关,就是有个出生点,有个有个终点,然后你要去在这个地图里面去杀怪,然后去捡血包,然后避障,然后去最终到这个呃终点,然后去通关。所以这个其实是你强学习的入门第一个 project 是。 [00:24:54] **翁嘉毅:** 拿了冠军,是的,所以当时你是很享受做强学习科研了没有?为什么?呃,很不享受,因为这个,因为首先这个这个这个task这个环境呃太过于单一了,然后你要疯狂的去overfit。 [00:25:10] **翁嘉毅:** 嗯,然后呃,就是就是你要用各种各种技巧防止它训练的时候崩了,以及呃,你即使训练没崩,然后你也不知道你怎么调参才能调对,这个是真的炼丹,这个这个比CV来说,这个这个它的这个调参难度可能要难上十倍一百倍,然后都是玄学,你必须要用一些非常heuristic的方法去避免一些corner case。 [00:25:39] **翁嘉毅:** 所以你当时就意识到那段时间的RL研究全靠heuristic和调参,是的,是的,就是改算法其实没有那么本质。然后呃,因为因为我呃,当时的那个任务呃,过于单一了,然后。 [00:25:58] **翁嘉毅:** 大部分大部分情况下都是不能 work 的。当时的任务第一个当然是 vis doom,那后面是不是就什么像 atari d mine control suit?呃呃,我觉得 majo co 跟 atari 要比 vis doom 还要简单,对 vis doom 算难的了。但是呃,在这种 case 上面,就对于人类而言它是一个简单的 task,但是对于 AI而言它是一个非常非常难的 task。 [00:26:26] **翁嘉毅:** 因为它需要大量的知识,需要就比如说这个什么是障碍物,这个对于人来说这个不需要反应的,但是对于二来说就是呃或者对于AI来说,这个是完全两个不同的难度了,对对,所以你在当时。 [00:26:44] **翁嘉毅:** 就有很清晰的认知,认识到了环境太单一,呃的算法不是瓶颈,这个是你做中你就会发现,就太多挑战,害太多人对,所以说我不是很享受这个科研的过程,嗯,我然后我会就是我有意识的把我的重心放到了如何帮助这一类的科研更顺利进展的。 [00:27:11] **翁嘉毅:** 过程上,所以我会呃就是在大四的时候,我会想着这个造一套这个 RL infra,嗯呃或者说 RL 的小小 library,能够更方便的让这些想在这个领域卷的人去卷。 [00:27:27] **翁嘉毅:** 对,呃,这样的话就是呃,我我觉得我非常擅长这个事儿,我非常擅长这个这个呃,类似软件工程的这个这个方面的东西,然后可以重构代码,让代码看的更好更好用,然后用户体验做好,呃,但是呃,至于这个东西怎么调,我非常有有这种生理上的反应,你不是不擅长,你就是不不喜欢,不想排斥做这个事儿,是吧?是的,这也就是你大四做天授,天授我们等会儿着重聊,是的,所以你大二开始搞科研,搞了V Stone,然后到了大三是不是面临一个申请暑研?是的,当。 [00:28:04] **翁嘉毅:** 当时是什么样的节奏和状态?申请鼠源为了为了还是为了大四的申请,然后呃发了一堆的套磁信,然后但是也没有什么结果,然后后面还是这个我导师帮我联系的呃联系到了优刷搬走,然后然后我就过去了,对。 [00:28:27] **翁嘉毅:** 其实我那段时暑研做的也没有那么的成功。我们当时的是在米拉对吧?对,是在米拉。当时是一八年,呃,不对,一九年,一九年的暑假。一九年的暑假的时候,首先呃,一优莎是一九年的应该是四月还是五月拿了图灵奖。 [00:28:50] **翁嘉毅:** 然后我是在那个之前审的,呃,所以还好。然后后面的话就是,尤少给我们,呃,给我跟带我的 postdoc 的任务是做一个类似于 MOE 的东西。MOE 对,呃,当时还没有 NLP 的 MOE,是的,嗯,跟首先这个跟 RL 又没有任何关系,嗯,呃,其次就是纯这个 language model 就 transformer,然后并且当时没有 MOE。 [00:29:18] **翁嘉毅:** 我们不知道 MOE 是什么,怎么 work,但是它有一个 MOE 的 idea,就是呃有一个这个 router,然后可以选择不同的这个 path,然后然后让我去实现。所以他招了一个做 RL 的人去做 NLP。呃,是的,我觉得很奇怪,但然后我需要花呃 again,就是我我不擅长学东西,然后我花了很长时间去入门这个 transformer NLP 这个东西,然后然后。 [00:29:46] **翁嘉毅:** 然后看着这个搓一个东西,但是搓一个东西出来也没有什么好的效果。然后因为现在回过头来看,这个你这个东西要 work,首先你要有算力,你要有很强的这个工程能力,然后你要 scale up。 [00:30:03] **翁嘉毅:** 当时这个一个人就就几块卡,这个这个搞不出来 scale up 的东西,所以说你肯定搞不出来,哪怕方向是对的,那你也是搞不出来的。但其实你有没有觉得好像冥冥之中命运就是在把你往 open ai 现在的这条技术路线上推?你先搞了 rl,然后又说让你搞 nlp,这两个 pieces 你全部都冥冥之中就你就在 open ai 之前你就全部都有过这个,嗯,你。 [00:30:27] **翁嘉毅:** 你要真这么说,强行这么说也可以啊,就就是马后炮是没有用的。嗯,对,在当时其实我知道你完全get不到,对,嗯,未来,所以你当时对NLP什么看法,在经历了那个暑假之后,嗯,我觉得NLP task都是太分散了,然后呃,当时其实很多人就在想如何把阿尔派在这个。 [00:30:54] **翁嘉毅:** language model training 上面,因为当时这个问题是还没有解的,因为 transformer 直接在强化学习上面跑的话,它会崩,它很容易崩,然后大家都没有想出来这个东西到底该怎么防止它不崩,然后后面证明了就是你的环境要嗯是一个这个纯的一个环境,然后呃你的 reward 需要一个是是一个很强的 reward,什么叫纯的环境?呃比如说 tax only。 [00:31:27] **主持人:** 嗯,纯文本。嗯,那那之前大家做的不纯的环境是呃,比如说你用 transformer 做一些 Atari decision 啊,比如说你把图像弄成一一些 embedding,但是或者说你把这个 Atari 的这个内部的游戏的音这个信息结构化表示,然后塞到 transformer 里面,然后再跑。 [00:31:50] **翁嘉毅:** 对,而且transform是一个这个随机数理化的transform嘛。当时首先我没有足够多的context,我对于这个领域没有足够的认识,所以呃我做起来就是非常挣扎。呃这个我觉得我我如果现在回过去来直接来帮助我,到时候我那可能还是这个样子。你是觉得就是当时。 [00:32:20] **翁嘉毅:** 就处在一个怎么都不可能把东西搞 work 的一个,是的是的是的,因为算力不够,然后这个对于这个当时的一些认知 MOE 的认知也不够,然后呃,你哪怕就这么说吧,哪怕当时有了现在的认知,那还是做不出来。 [00:32:40] **翁嘉毅:** 因为 engineering 不够,然后呃 computer 也不够,对,嗯,受限于当时的这个资源,嗯,就是做不出来。那当时可能暑研结束了,然后就回到清华开始准备申请。对,当时那那当时是什么样的状态,就是会压力很大吗?当时嗯,其实挺就是整个人状态其实不大好,因为暑研没搞出来这个。 [00:33:08] **翁嘉毅:** 周围的同学这个比如说去三本,呃,去CMU暑研,然后都搞出来很多东西,然后发paper都有,一作paper。呃,通常来说你是要发个一作paper的,不然的话你会被别人刷下去,这个就很卷,没有办法。所以说,嗯,我做完暑研,然后其实只拿了个一个推荐信,但是我也不知道推荐信里面写的什么样,呃,然后。 [00:33:33] **翁嘉毅:** 嗯,就是挺没有底的。申请结果怎么样?后来,呃,我是对着PAD申请的,嗯,但是我只拿到master。因为那个时候我大二,OK,你申请的时候我应该刚刚刚刚大一大二,然后每年知乎上都有那种一九。 [00:33:52] **主持人:** 一九fall你的申请结果怎么样?二零fall当时我就看到了你的回答啊,然后我印象还挺深刻的。当时你就因为我看你履历啊,说图灵奖强推怎么怎么样,结果最后我当时看到你申请结果不好,就没升到PhD。当时我就觉得哇,这么竞争这么激烈,你自己作为当事人经历那样的申请期,对你来说是一种挫败吗?呃,可能还有一点吧,但是。 [00:34:20] **翁嘉毅:** 后面来看也还好,就是嗯,首先我在当时的那个环境,我确实会很大程度上受当时的小环境的影响,PhD是要比Master好的。 [00:34:37] **翁嘉毅:** 这个应该是整个清华内部的那种氛围,那种鄙视链。是的,这个这个是没有很这个,如果你身在其中,你是很难摆脱这个影响的。然后呃,即使是国外的 PhD跟master,跟国内的 PhD跟master都是一样的,就是 PhD要好于master,因为大家会有一种固有的认知说这个学历越高越好。 [00:35:02] **翁嘉毅:** 对于今后的这个发展会更好,呃,但是很多时候这个是不成立的,呃,真的取决于嗯到底干了什么。呃,然后当时的话我确实是有一点失望的,然后嗯我我其实也花了一段时间来调整自己,然后后面觉得我我。 [00:35:23] **翁嘉毅:** 我一直以来应该是都是想做一些就是呃让自己与众不同的事情,就说你当时在可能在尽力的挣脱出固有的那种评价体系,是的是的是的,嗯,是的,呃,就是我我我一直以来就是觉得就是GPA不是唯一的一个评价体系,你需要自己在大学里面找到适合自己的评价体系,然后为这个评价评评价体系去去奋斗。 [00:35:54] **翁嘉毅:** 呃,去让自己开心。你即使在GPA拿了第一,那么你可以跟往年比一比,跟这个就是其他学院比一比,跟其他学校比一比,这个这个反正有的是人。就是他并不能说你有多么好,我觉得应该这么看,就是从一个需求方的角度看,就比如说呃,如果如果你的最后目的是找工作,那么。 [00:36:25] **翁嘉毅:** 找工作的人会看重什么?他会看重更看重你的这个相关的经验,他不会看那么看重你的GPA,因为这个对他来说没有意义。如果你是有呃当前这份工作很匹配的经验,那么可以其实可以抵好好几年的工作经历,哪怕你是一个new grad都没有问题。 [00:36:48] **翁嘉毅:** 嗯,因为因为招人最主要的目的是招进来能用能干活,所以你在本科时候认识到这一点,呃,我在后面认识到了这一点,就是我在master的时候认识到这一点,但你本科其实还是在那个评价体系下面,我本科我尝试挣脱这个评价体系,但是我挣脱了一点还没有完全挣脱出来,那一点是什么?呃,就是我意识到了应该要创。 [00:37:17] **翁嘉毅:** 创造自己的评价体系,而不是用其他人提供的评价体系。我采用了非官方的评价体系,呃,就是我的导师给我推荐的评价体系,就是我我一直记得这句话,就是计算机系的评价体系,就他认为的有三个指标,呃,一个是论文,一个是比赛,还有一个是 GitHub 的 star。 [00:37:43] **翁嘉毅:** 三位数以上,然后我觉得这个这个是确实是有意义的,因为它给我了一个完全不一样的想法,就是不一样的领域,我我其实可以在开源社区搞一些事情,然后。 [00:37:59] **翁嘉毅:** 让我有一些跟别人与众不同的地方,嗯,这样对于自己的长期的发展是更好的,而不是说这个你你就是花很多时间去学GPA,呃,就是刷GPA这种事情,这个我有同感,我觉得我在本科的时候。 [00:38:19] **主持人:** 我也是很早我就意识到,GPA,特别是本科的GPA,是一个三年之后、四年之后你都不用写在简历上的东西,是的。但是呢,那三年、四年里面的本科生又不得不把自己百分之八九十的精力放在这上面,因为无论你是找工作,还是申请出国,还是要保研。 [00:38:41] **翁嘉毅:** 都是看GPA,对你是怎么处理这个矛盾的?就是一个三年内重要无比的东西和一个三年之后完全不重要的东西。呃,我会最低限度的投入,投入就是我会花时间最低限度的时间来让它达到我想要的这个要求,这个标准。呃,再往上一点我都不愿投。 [00:39:07] **翁嘉毅:** 对,多一分都不想花时间啊。对,多一分都不想花时间,够用就行,够用就行。就是就你你你这个这个其实挺简单的,你就算一下这个,就比如说在期末考之前算一下这个,你你你现在已经多少分了,然后你就你就可以安排一下这个这个考试到底要复习要不要复习。对,也就是说你觉得如果现在GPA够了,你宁愿那个课考六十分,你就不管了。啊,是的,这个是我我一直以来都是这样了。 [00:39:33] **翁嘉毅:** 对,然后呃,可能六十分不太够,就是比如说这个八十七分,八十七分是B加,然后这个我就很满足了。对,我你觉得你挣脱了这种吗?因为比如说你出国这种选择是那种评价体系给你带来的,是那种氛围给你带来的,呃,不是当时的氛围其实已经是就是呃,在国内读书比国外好一一八一九年。 [00:40:00] **翁嘉毅:** 呃,一九年已经是了,嗯,对,一九就是差不多,清华会有百分之只有百分之二十左右,但我们那届更少,因为科委的,然后只有百分之五去出国。你应该是一九年十二月申请季,对不对?对,所以你应该是还在等offer的时候就科委的了,对,然后你应该比如说拿到offer之后,美国领事馆就关了,对。 [00:40:26] **主持人:** 你还是坚持要出国?呃,是这个是一个很难的选择,因为当时应该是有 COVID 有有疫情,然后呃,国际政治局势又不很动荡,嗯,那你个人的未来还要和这两个息息相关,对,呃,那种不确定性下,你当时是什么样的状态? [00:40:45] **翁嘉毅:** 嗯,我觉得我当时可能更专注于手头上的事儿,比如说呃在家里写天授,在家里写这个退学online,写这个visa查询系统,这个这个我我就是只是把转移注意力,不要天天去关注一些宏大的国际叙事,而是专注于手头上的事情,这样可能让自己内心更平静一些。好,那我们就聊聊那段时间的两个项目,第一个是天授,第二个是退学online,我们先聊聊天授吧,天授刚刚其实你已经讲了,天授呃你说动机是因为你觉得当时环境太overfit了,然后RL其实。 [00:41:24] **翁嘉毅:** 算法的创新没有那么重要,啊,反而是这个infra或者说这个好的一个implementation,给我们讲讲为什么做天手。起因是就是首先我在一九年十二月我就有一个很内心有一个强烈的冲动,就说我其实已经写了很多的RL的一些实验的代码了,我为什么不把它们整合一下,然后让自己的实验跑得更好。 [00:41:50] **翁嘉毅:** 这个是出发点,然后我在二月就二零年二月份的时候,一月一月放假,然后二月就看了一下这个呃rllib的代码,就是在ray下面的rllib,然后我本来第一步想的是用rllib来看看能不能改一改,然后来去支持我自己的实验,然后我看了一个月,太复杂了。 [00:42:15] **翁嘉毅:** 抽象太多了,然后这个这个这个一个 rllib 有快几十万行代码,然后就是完全不可能接受,然后我又根本不知道我要改的东西我该怎么实现,然后然后就决定哎不干了,就直接重新手撸。 [00:42:34] **翁嘉毅:** 推倒重来,对,推倒重来。我我特想知道,就是你当时做这个事儿,其实还有功利的考虑吗?因为很多人那段时间就是想做一个不拉不拉policy optimization的neurips paper,没有,我不想发paper,我觉得发paper完全没有意义。跟我们讲讲为什么,为什么你已经挣脱出这种评价体系了?首先我已经有paper了,啊,我我我觉得多一篇少一篇对我而言没有任何意义,然后呃,并且我申请已经够用了。 [00:43:01] **翁嘉毅:** 然后,呃,比赛我也有了,呃,GitHub 三位数可能算有,就比如说我自己搞那个课程 repo,但是那个是不是正儿八经的,那我还是想有个正儿八经的三位数。是,好,那就是天授,当时看了 RL Live 之后不好用。 [00:43:20] **翁嘉毅:** 不好用,然后你当时对 paper 没兴趣,对,嗯,但你对开源代码是很有兴趣的,对,你对一个好用的能够推动这个领域前进的一个开源代码非常感兴趣,对,嗯,做这个事有多难?当时做天授很简单,两周,只要两周,第一版。 [00:43:39] **主持人:** 没有一般有什么算法?好多算法就是就是你对着那个那个就paper实现一下就好了。OK,对,就就是如果你把抽象搞对的话,那么实现算法就是可能就是呃二十行不到二十行不到一个算法。那为什么你两周就能搞出来一个第一版,而rllib能写几十万行?我觉得可能是因为它最开始设计有有一点问题,然后因为可能。 [00:44:09] **翁嘉毅:** 可能像呃合作的人多了,然后大家都往里面贡献代码,然后最后就变成了项目,整个项目会逐渐的腐化。所以你是一个人守路的,对。所以这种一个人高效的迭代,然后做做好一个顶层设计之后就去执行,对,你觉得反而会迸发出更更大的力量,是的,就是我觉得代码可能呃或者说一个项目吧,这个更多的。 [00:44:38] **翁嘉毅:** 有用的东西是consistency,一一致性。如果这个项目是从头到尾都是一致性的话,那他们就是一个,它就是个好项目。像比如说很多这个项目的腐化都是由于呃不一致性,就比如说两个人或者。 [00:44:59] **翁嘉毅:** 或者说十个人,十个人的话就是一每个人写了一点代码,但是每个人其实都不太知道对面到底写了什么东西。嗯,然后有一些 assumption,有些假设就是没有办法去及时的传递,然后会导致比如说像这个代码在很多地方去复制粘贴,或者说一些不好的行为,然后不断导致这个代码越越变越膨胀,然后去腐化。 [00:45:25] **主持人:** 你觉得当时天授呃一炮而红吧,可以说挺受欢迎的。你觉得天授做对了什么事儿?我觉得他抓住了用户需求,就是 researcher,或者说当时的。 [00:45:42] **翁嘉毅:** 呃,科研的干活的人,呃,其实都有一个需求,说这个有没有好用好改的 RL 个框架,他能直接用。然后因为天授整个代码短,呃,然后抽象做的还可以,就是你知道如果研究一下,然后你会发现你如果改这个地方就一定会对。 [00:46:06] **翁嘉毅:** 呃,而且只有这个一个地方能够改,并且呃,就是如果你要支持你的这个 feature 的话,你只有改这个地方才能支持。对啊,就是说别人想改什么地方,你的设计已经把它设计好了,对,就只能改这。是的,嗯,是的。然后,然后像这个呃,就是应用性做的还可以,然后想跑什么算法都有。 [00:46:32] **主持人:** 所以当时 Py Torch 第一版是你一个人写的,对后面他们会慢慢变成一个更多人的 project 了吗?它就变成一个开源的东西了,还是是的,内 在维护,呃,变成开源的东西,组内其实没什么人来维护,对,就是直接 open source 了。那那那你是怎么避免天授? [00:46:51] **翁嘉毅:** 不发生你刚刚所说的很多人在一起这种不consistent这种腐化的问题了。呃,初期的话是因为我有足够的时间,所以说我可以一个人把所有东西全部包了,然后这个肯定是consistent的。那虽然说这个呃现在看来不太好,呃,对于长期发展不太好,但是对于当时的还说还是够用的。 [00:47:14] **翁嘉毅:** 然后后期的话,就是因为我的重心,因为呃,我入职之后可能就没什么时间了,然后我会直接转移给把把整个呃维护权转移给就是社区的人,然后如果他们觉得是对的,那他们就做,就是如果有一个拍板的人。 [00:47:34] **翁嘉毅:** 那么这个事情应该就是consider现在来看五年了,天寿成为一个社区的fashion,你觉得现在腐化了吗?有一点确实有一点,因为呃我的我的context跟呃继任继任者的那个context还是有点不一样的,所以说他会呃重写我的一部分代码。 [00:47:56] **翁嘉毅:** 嗯,就是我们俩其实没有那么的consistent,所以说还是会有一些孵化的问题,但是我觉得为就是长远来看就是可以接受的,嗯,对。第二个project,我也是用户退学,你你为啥你你你你不是当时我大二嘛,但后来我对我数研的时候也要预约签证然后。 [00:48:21] **翁嘉毅:** 然后当时也是需要找最近的时间,OK,然后对当时为什么做这么一个这这么一个事儿,我自己有需求啊,就是就是跟这个做天授差不多,就是我我觉得我我的需求我应该我找了一圈,我不知道有有什么东西能够满足我的需求,所以说我就手撸了一个,就是不然没有办法,因为当。 [00:48:42] **翁嘉毅:** 因为当时你应该处在一个一会儿这个领事馆也关,那个有领事馆也对啊对啊对啊,然后实时的知道哪儿有签证的。然后然后我我觉得我我有这个需求,就像比如说最最开始我我有收集这个上古学长的这个作业的需求,我觉得很多人应该有这个需求,所以说我就开源了。然后就我我有查签证的需求,然后我就这个写了一个这个签证的这个爬虫,然后我就开源了,然后然后直直接免费给大家使用。 [00:49:10] **主持人:** 这个很受欢迎啊,我昨天晚上看总点击量一百多万,还是当时当时就一百多万,现在现在可能一千多万一千多万了吧。但是很很早之前就已经关了,就是因为COVID过了之后,然后也没有那么需没有没有那么多需求了,所以呃,并且这个美国领事馆升级了这个网站,然后当当时的那个爬虫用不了了,然后我我也没时间写了,嗯,对,嗯嗯,所以他完成了他的使命。 [00:49:39] **主持人:** 其实某种程度上,这俩都不是太功利的project,是的,对吧?是的,第一个你也不是为了申请,那是已经发生在你申请之后了,对你大可以那段时间,虽然说co不能旅游,但是你大可以干点其他的放松的,对啊,是啊,是啊,然后退学也是一样,对吧?也可以自己弄完之后,所以你还是有一种很内在很强烈的冲动想要去创造一些你觉得有用的自己需要的事儿,然后把这个东西分享给所有人,是的。 [00:50:07] **翁嘉毅:** 就是我想做一些就是呃能够这个产生影响力的事情,就是哪怕是亏钱也行。嗯,就是比如说做慈善,呃,我觉得这个做这个这个天寿根做这个退学online都是做慈善,嗯,对,就是完全non profit的。 [00:50:32] **翁嘉毅:** 嗯,然后做这种慈善项目让我感觉非常满足,所以相比钱,其实 impact 会让你更满足,是的。你觉得你对 impact 的这种这种追求多久来的?高中的时候。 [00:50:50] **翁嘉毅:** 高中的时候为什么会和Impact相关系?可能说来有点奇怪,就是我高中的时候突然某一天,高三的时候有个idea,就是突然从我脑子蹦出来,有可能是呃,就是未来的某个时候这个往过去的我发送一些信息,然后我意识到一些东西,就比如说如果人生是一场游戏的话,那么你的游戏的结算分数是呃,记得你名字的数量的人。 [00:51:22] **主持人:** 没了没了。 [00:51:25] **翁嘉毅:** 那意味着什么?意味着你需要被更多的人认识。所以你是高中突然有一天你就意识到了,是的,这个东西很重要,我想要让在我死之后,在我死的那个瞬间记得我的名字的人越多越好。是的,直到今天你还是以这个度量标准,嗯,可以算是。 [00:51:47] **主持人:** 那我想再往深了问问,为什么这个重要呢?呃,我当时不觉得这个很重要,但是我尝试了几次发现这确实是我想要的东西。就是如果我的做的东西能够给他人带来好处的话,那么我我就是首先我自己认可做我做的东西,其次他人也认可我做的东西,然后我会从大他人那边得到一些正正反馈,这个可以和直接和。 [00:52:14] **翁嘉毅:** 名望名气fame打画画画等号吗?呃,不太行,因为有一些名望名气可能是不好的。嗯哼,就比如说你你坐上了什么什么位置,那你确实很有名望,但是实际上就是这个名望,呃,在别人看来可能对别人的收益可能不是那么多,就是有可能是负面的。 [00:52:38] **翁嘉毅:** 呃,我想要的是那种就是,呃,当然我我觉得这个你不可能对所有人都好,这个是个很难做到的事情,但是我就是我可以尝试的力所能及的对呃我身边的人好,做一些对大家有益的事。所以这个度量标准是做一些对大家有益的事儿,让更多的人记得你,对。 [00:53:04] **主持人:** 如果我要挑战一下这个观点,我会说:“那你为什么不自己过得开心就好了?你为什么需要别人记得你?你你觉得自想让别人记得自己,想要很多人用你觉得你造出来有用的东西,这个冲动本本源是什么?是你害怕被忘记吗?不是,嗯。”我觉得人生其实也可以算作一种体验,就是你既然都已经来到这个世界上了,那你为什么不就是。 [00:53:40] **翁嘉毅:** 就不要浪费了这段旅程。对,但是为什么不浪费这段旅程?得让别人记得你。嗯,我我发现这有一种很很有趣的张力啊,因为你刚刚第一点说你想挣脱一些外部的评价标准,嗯嗯,比如说GPA啊,比如说高考或者怎么怎么样,别人觉得PhD比Master好,但另外一方面你给自己的这个内生的这个intrinsic的这个标准,又是外界的对。 [00:54:07] **主持人:** 对你的认同,但这个认同并不是官方的认同,就是不是既有评价体系的认同,是是共识。OK,所以你想要摆脱的是嗯。 [00:54:25] **翁嘉毅:** 现有体系和陈规的那种评价体系,对,但你更想要的是每一个人发自内心的给你点赞,是的,所以这个点赞可以变成你的 GitHub 的那个 star,对,可以变成退学的点击量,对,可以变成比如说你现在 Google Scholar 的 citation,也可以变成你现在 Open AI 的 model 每天做多少次 inference,对,嗯。 [00:54:52] **主持人:** 你会担心你的这样的标准会变成新的一种陈规吗?嗯,就是那可能以前上一辈的人是拿GPA评价年轻人,嗯,那当你成为再上一辈的时候,你就拿impact评价下一辈的年轻人。我只是对我自己这么要求的,我不会对别人这么要求,所以你并不觉得你的标准是可以放之四海而皆准的,是的,是的,所以你不喜欢那种被外部的标准推着走,是的。 [00:55:20] **翁嘉毅:** 那会不会出现你自己的标准推着你走的这种情况呢?目前还没有吧。就是你如果发出现这种情况,你可以改,你可以改自己的评价标准。所以你虽然你有你的标准,但是你不是这个标准的奴隶,就你有你 impact 的标准,是的,就是哪怕不会为他所困。对,但就比如说我,我其实在呃很长一段时间,我其实都没有这个开源项目了,但是我也不会觉得这个是一个很困扰我的事情。 [00:55:50] **翁嘉毅:** 我倒觉得不担心,我觉得Open AI的model就是最好的,是某种程度上你可以这么认为。对,嗯,因为评价体系是一个很简单直接的一个操作,能够快速的筛选人,所以说呃,它这个社会发展方式就会收敛到这种呃策略上,所以说短时间内是无法改变的,哪怕你是这个评价体系。 [00:56:16] **主持人:** 在绝大多数人看来,你都是胜出者和受益者。其实你也不喜欢这个评价体系啊。是的,就是其实应该更更个性化。这是清华,然后在一个风雨飘摇的疫情的那段时间啊,你申请到CMU,应该本来预计是应该要2020年九月入学的。对,当时应该疫情第一学期过去了嘛,上网课就直接在家上网课,一直在家上上了一年,对。 [00:56:44] **翁嘉毅:** 对,嗯,但当时其实你是不是一入学就得想着找工作的事儿了?对,那个过程什么样的过程?那个过程就是我开始的时候吊儿郎当的,然后就投了应该是投十八家,然后最后只收到这个 Google 跟这个 AutoML,就是陈天奇老师的公司。然后当时想着如果我手上只有这两个 offer,那我肯定去 AutoML,我不想去 Google,因为去 Google 没什么意思。这个。 [00:57:13] **翁嘉毅:** 这个意思是怎么评判呢?嗯,就是你在大厂当螺丝钉,然后做一些自己不是那么喜欢的事儿,就比如说前后端,然后后面就稍微想明白一点,然后后面就再去面试,然后拿了当时的换方,换方当时说要搞一个呃AI lab,就是后面的DeepSeek,对,我当时是拿了offer,对,然后但是我没有去。 [00:57:42] **翁嘉毅:** 没有去,然后你去了 Open AI 是的,所以其实现在看起来,如果开天眼的话,你当时面临的选择是 DeepSeek versus Open AI 是的,所以当时哪怕是换方那个,也不是去搞量化,而是搞 AI,呃,换方那个就是搞 RL Inf。 [00:57:59] **翁嘉毅:** 啊,对,如果我没有其他 offer 的话,那我会选择红方。其他 offer 是指 octo 之外的其他,呃,不是,是比如说 open ai 跟我当时应该还有英伟达,英伟达,英伟达也是搞 roc 的,然后费尔其实也是,但是费尔最后由于一些流程原因把我拒了。ok,所以你当时面临的选择应该是换方 open ai。 [00:58:26] **翁嘉毅:** 英伟达、TikTok,嗯,对,嗯,Fair可能有,然后在这样的选择下面,你最后选择了Open AI,对,这个选择是怎么做的?嗯,我觉得就是因为,因为我要强调的是这个是before Chat GPT,对,对,所以你当时其实你是不知道Chat GPT is coming的,啊,对,对,对,对,所以这个选择是怎么做的?呃,首先我觉得这个Open。 [00:58:51] **翁嘉毅:** Open AI之前一直在做强化学习,Open AI跟Deep Mind是就是当时IO里面搞得最好的两两个research lab。然后我觉得如果我能进,那是就是也我我我其实当时没有想着这事儿,我没有想着这个我我能进这事儿,然后。 [00:59:14] **翁嘉毅:** 呃,我能进我觉得就已经非常好了,然后呃,然后我觉得就是我能够有一个机会来体验,就是世界上最前沿的一些 research 它到底是怎么做的,而不是像这个呃就是小作坊一样,就是比如说在学校里面,然后就几个 PhD 手搓一个东西,然后然后。 [00:59:37] **翁嘉毅:** 然后没有一些方法论,然后去做一个项目,就我感觉非常变扭。然后我想去学习它到底是怎么样有个方法论去进行一些工业界的研究的。那你当时去 OpenAI 的话,应该是直接是 John Schumann 的组,是的,就是 John Schumann 招的我啊,是他面试的你,对,就。 [01:00:00] **翁嘉毅:** 我非常感激他,就是我非常感激他能给我这样一个机会。哪怕他离职了,就是他离职的那一天,我还难过的一个下午,然后把电脑关了,然后什么都不干。嗯嗯,所以他当时其实是很欣赏你的,对,嗯。 [01:00:17] **主持人:** 为什么为什么你又问过他吗?有就是因为他觉得就是呃,首先呃,他觉得我 GitHub 非常漂亮啊,他他其实也认可我这个评价体系,嗯,对,然后呃,因为因为他这个应该是他的评价体系的一个指标,然后之前也没有人意识到,然后并且就是招这么一个有良好的呃。 [01:00:46] **翁嘉毅:** 工程能力的一个这么一个人进来的话,对于任何的项目都是有益的。所以你们面试有什么有趣的故事吗?你有怎么 impress 他们?嗯,就是可能最后一轮面试就是他出一道题,然后出了一道非常 end to end 的一个题,然后很开放性,然后然后他给我三个小时,然后我花了两个小时就做完了。 [01:01:10] **翁嘉毅:** 就从头开始写一个东西,然后然后我就做完了,然后然后我就跟他说,就展示了一下,然后说这个就虽然展示的过程中出现了一个 bug,然后但是我现场修了一下,然后也没什么问题,然后反正就是呃,可能他认为我既有一些工程能力,然后同时确实呃实力还可以,呃,然后就把我招了,嗯嗯。 [01:01:38] **翁嘉毅:** 然后,然后他的这个面试题只给两个人测过,一个是我,还有一个是应该还有一个是 Andrew,就是现在做 Codex 那个人。嗯,对,你们俩都通过了,对,都通过了,所以通过率是百分之百啊,是的。 [01:01:56] **主持人:** 好,我我我们马上聊 OpenAI,但是在 OpenAI 之前,我其实特好奇你当时找工作的时候考虑过读 PhD 吗?没有,为什么?因为你接触了一些工业界的人会发现,就是读 PhD 就是。 [01:02:12] **翁嘉毅:** 如果你想进工业界,那么读PhD就是浪费生命。你完全可以以Master为跳板,然后来凑够PhD进工业界的标准。比如你可以在Master,或者说你可以在本科的时候攒够采备选,然后做出一些能够让你与众不同的一些项目,然后让你可以跟同时期的PhD candidate同台竞技。 [01:02:40] **翁嘉毅:** 然后再看看有什么你可以做的,能够让对方挑选 master 的你,而不是 p 另外一个 p h d。嗯呃,我觉得是想清楚差异化这个是很关键的。所以你很早就想清楚,我未来一定是工业界,对,因为我。 [01:03:00] **翁嘉毅:** 我觉得学术界教书或者当教授太卷了,然后不是我想要的东西,然后我还要去为了一个项目去拉 funding 啊,然后嗯,那还不如就是感觉限制很多。那比如说我们是我们是个公司,我们要招,然后有同样的 master,有同样呃有 PhD,你会不会觉得这两种? [01:03:28] **主持人:** 他其实培养的能力都不太一样,因为 PhD 更多要培养你的学术的能力,对吧?对,你要怎么写好一个 paper,把故事讲圆,对,然后画图画的漂亮,然后把这个宣发做好,你觉得这事儿重要吗?对于一个公司来说,嗯,那某种程度上有锻炼,但是那如果和像你这样比较极致的工程能力相比,你你觉得这两种能力在现在这个 AI 的时代。 [01:03:51] **翁嘉毅:** 会怎么评判这两者谁更有价值?呃,现在的时代那当然是工程能力越好就更有价值,呃,但是放在当时那个时间点的话,那还真不好说,就是,所以我当时的做法是我两个都尽量去满足你,既反正也发过paper,对,然后开源的infra work你也做的很popular,工程能力也够强。 [01:04:16] **翁嘉毅:** 那为什么现在你觉得已经很明显了,工程能力是第一位的?呃,我来引用一句我同事说的话,就是呃,我同事之前也是阿O的一个 PhD,然后搞了一个很出名的阿O的framework,然后他说的一句话就是。 [01:04:36] **翁嘉毅:** 教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来的难。 [01:04:48] **翁嘉毅:** 呃,是因为是这样的,就是呃,目前的一些这个就是 research lab 一些这个探索前沿探索,它其实拼的都是呃 infra 的正确性,如果你 infra 正确,那么就是看你单位时间内你能迭代多少次。 [01:05:07] **翁嘉毅:** 因为你反正idea,你大家大大不了找人讨论一下,然后idea就出来了,然后你就验证,你只要能验证好,然后你就相当于这是你的research work,然后你其实不要又动那么多脑子,就是动脑子的人可能是因为已经在这个领域浸染了很久的人,就比如说呃,Alec,然后。 [01:05:25] **翁嘉毅:** 然后他在呃这个领域从一开始 GPT 一的时候就开始弄了,然后他可能有很很很很强的这个 research 的直觉,那他动脑子比普通的 PhD 动脑子更有用,然后你就找他讨论就好了,就是 idea 非常便宜,然后你要做的就是你在单位时间内能够验证多少有效的 idea。 [01:05:53] **翁嘉毅:** 并且要是正确的infra,正确的结果,对快速的迭代是的,而现在的PhD不具备这个能力,或者说呃没有以这个为重点,因为这个对他来这个对他们而言不重要,因为我认为目前的学术培养体系在于如何有好的一个学术的方向。 [01:06:19] **翁嘉毅:** 但是这个方向其实公司里面也有人会有,因为你只要在这个领域工作比较长的一段时间,你就会有一些研究直觉,然后你就会意识到什么是好的,什么是不好的,什么是该做的,什么是不该做的。所以 idea is cheap, yeah. [01:06:38] **翁嘉毅:** 而有一个很强的 engineering skill,把那个 infra 搭对,快速的迭代,这个事儿你有了之后,你验证 idea 可能 agent 都能搞。是,嗯,因为我的认知范围内是每家的 infra 都有不同程度的 bug,然后谁修 bug 谁修的 bug 越多,那谁的模型训的就越好。 [01:07:03] **翁嘉毅:** 所以 Llama train 不过 GPT 是因为 Llama 的 bug 太多,maybe 我不知道,但是我我可能会这么猜测。所以你很清楚的在很早的时候你就意识到了整个这个 pipeline 要 work,关键不是你的那些算法的创新,而是正确的超参,正确的 infra,好的 system 的让你快速的迭代。是的,然后呃,并且我不是很愿意去做这个 research 调参这个事儿。 [01:07:32] **翁嘉毅:** 对这个这个来说没有对我没有任何吸引力,我我吸引我就是我更喜欢卖铲子。你喜欢有一个 playground,你把根基搭好让别人去玩,别人去发论文,对你不管对嗯,然后别人发论文的时候可以可能可以带上我啊,对,然后然后你们就发现就是 open 很多这个 model release 都有我的名字,这个就是因为我在 open i 的内部搭了整个 post training 的 RL infra。 [01:07:58] **翁嘉毅:** 所以整个Post Training的RL Inference是最核心的贡献者了,是的。然后大家因为大家在之前都是用这个整个Post Training RL Inference来去训这个RLHF的模型,所以每发一个大的release,每发一个大的这个模型的话,这个我的名字就得放上去。所以你可以算是哦,每个Open AI背后的model都有你啊,因为你喜欢卖铲子。对,然后然后并且我是卖卖铲子这个最面向客户的那一位,因为这个RL是这个整个Inference的最顶端。 [01:08:31] **翁嘉毅:** 生态会很高,对,所以说这个如果太底层的话,你也这个这个名字可能也不太,如果写个 data loader 或者 storage 是的,可能没有那么那个是的,但你 RL 每个人都想要的一个东西是的,是的,是的,好聪明啊,我我之前也想过就是我的职业技术生涯应该怎么发展,然后我我当时定了又定了一个指标。 [01:08:55] **翁嘉毅:** 我要最大化我在 open i blog 上出现名字的次数。你真的很会给自己写 reward 啊?对,然后然后这个 reward 那你你需要做什么呢?那你肯定是先 in法,因为你如果做这个单个的。 [01:09:12] **翁嘉毅:** 单个的 research 这个这个不能 scale up,然后如果你做 infra 的话,大家都用你,那所以说你可以 scale up,嗯,对,然后并且我又擅长写 RL infra,那所以说这个这个是一个非常非常适合的机会,这事儿基本上你进了清华之后,这事儿就是你的主线, RL infra,对。 [01:09:32] **主持人:** 在今天,你还会鼓励,因为你你已经过了这个选择了。但我们这个播客的很多观众可能还在本科,可能在硕士,他们还在犹豫工业界 versus 学术界的这个选择。你会怎么帮他们去思考这个过程,特别是在2025年,在这样的格局下面?长远来看,我还是觉得学术界没有,就是现代学术界应该要被重构。 [01:10:00] **翁嘉毅:** 但现在对自己的未来有抱负的那波年轻人,他们希望像你这样做出impact啊。那他到底是去读个PhD还是尽早进入工业界?我觉得还是尽早进入工业界比较好,因为读PhD的话,你不知道你PhD毕业之后会发生什么事情,有可能毕业之后呃,这个这个范式已经来了,然后你会发现这个你做的东西可能就没什么用了。 [01:10:27] **翁嘉毅:** 如果你的你的目标函数就是进这个AI Lab的话,那么你要先弄清楚一点是,AI Lab到底需要什么样的人。 [01:10:42] **翁嘉毅:** 如果他们更需要 infra 的人,那么你就多做一些 infra 的活,哪怕你没有 PhD degree 也没有关系,因为更重要的是看你的这个经验呃能不能 match,有没有用。所以现在你觉得 AI Lab 最需要什么样的人?我觉得还是 infra,对,infra 是一个无底洞,就是呃 research 的话就是有 research 直觉的就那些人,因为。 [01:11:11] **翁嘉毅:** 你从ChatGPT出来之后,然后这个在这个行业里面干了比如三年以上的人就屈指可数。然后呃,当前的问题还是在于infra,你能不能scale up,你scale up有多少,就是单位时间内你能迭代多多少次,然后这取决于了,就直接决定了你的这个这个生产效率。那听起来。 [01:11:41] **主持人:** 不是对PhD特别友好的一个场景,现在是的,可能这个也牵扯到一个gap,我觉得这个你有,你我们俩都有很深的体会,就是因为RL的研究学术界就是对着Atari、Mojo这几个task是overfit,是的,调过来调过去就是比你我在一百k的时候谁分数高,对,但是工业界个完全不care这个,工业界做的事是用RL去解决真实的问题,是啊。 [01:12:08] **翁嘉毅:** 然后我意识到这一点,然后当我在22年的八月意识到这一点的时候,我就已经逐步的停止了天授的开发了,因为因为天授还是针对的这些 toy benchmark。对,然后我觉得我应该投入更多的时间到更有意义的事情里面,比如说在混安内部搞好 RL infra。 [01:12:32] **翁嘉毅:** 所以我就主要的精力都是在呃就是维护啊或者开发这个 RL infra。其实啊,你这个认知其实在22年是很算是很超前的,绝对不是共识。对,你为什么当时没有打破信息差,写一篇blog来劝我别搞啊?我害怕我把这个东西说出来,这个open i会说我这个泄密之类的东西,万万一呢?就虽然说也没有那么泄密,但是。 [01:13:03] **主持人:** 嗯,对吧?好,呃,我们聊彭于晏。 [01:13:11] **主持人:** 我我特别好奇啊,就是刚刚咱们已经提了很多了,但是你在Open AI啊,你是世界上极少数从Chat GPT三点五、GPT四、GPT四V、GPT four o、GPT four point five到GPT five背后所有的核心贡献者都有你,可能有的人贡献了前半部分,有的人贡献了后半部分,但是你是从头到尾一直都在啊。 [01:13:34] **翁嘉毅:** 你最主要的贡献我会说是三个词,强化学习、post training和infra。对,嗯,这些技术和背后的故事我们等会细聊,但是我想先问第一个问题,可能会很好回答也很不好回答,什么是强化学习?如果有反馈。 [01:13:54] **翁嘉毅:** 如果你可以把一个环境建模,然后去环境中得到反馈,那这个这个循环就是强化学习,通过那个反馈让他越学越好,是的。那么第二个关键词是post training。 [01:14:10] **主持人:** 什么是一个大语言模型的post training啊?当时还没有post training呢。当时这个这个我我这这个当时这个team叫RL,然后当时根本没有什么pre train post train的这个区分啊。所以你刚进Open AI的时候还没有这个事儿对?但是你刚进Open AI的时候Chat GPT已经是主线了吗? [01:14:30] **翁嘉毅:** 不是,当时刚进 OpenAI 的时候,就是呃,就只有那个 John Shuman 下面的 RL team,然后再去做一个这个 Web GPT 之后的一个版本。Web GPT 是一个用呃一个三点五的模型去做,应该是做这个 browsing。但是当时这个 browsing 如果直接用三点五做的话,那效果可想而知就很不好,因为这个 browsing 需要 to call。 [01:14:59] **翁嘉毅:** 然后所以说我们当时就退而求其次,先把这个用户交互的这个体验先做好。那唯一的要解决就是 chat,然后 chat 就可以通过这个 instruction following 这个方式去解决,用 R H 呃 R H F 的方式对。 [01:15:17] **翁嘉毅:** 所以你当时进去的时候,三点五这个模型已经内部都有了。呃,对,然后有,但是当时的PPO的那个pipeline非常不好用,然后呃,当时其实我们用的最广的是三点五的SFT,然后在那边迭代了好几次。 [01:15:36] **翁嘉毅:** 然后后面后面才有四,然后后面后面这个四呃,Greg写了一个专门的这个呃infra来去支持如何用这个四GB四的这个训练的infra去支持强化学习的训练,所以你加入的时候是22年七月。 [01:15:59] **翁嘉毅:** 对,那个时候三点五已经是整个Open AI all in了嘛,因为距离release还有几个月对吧?对,你们内部当时能想象Chat GPT有这么大规模的成功吗?没有,你当时能够,当然你可以内测那个model对吧?对,你有意识到这个是要game changing的东西吗?没有。 [01:16:17] **翁嘉毅:** 你也没有当时感觉到,因为我我觉得就是我呢可以看看得出来很多不足的东西,就是呃我第一次用可能会觉得说哦,OK,这个是个会说话的模型,那也就这样吧。然后用了几次发现这可能能够帮我解决一点代码上的问题,那也就这样吧,但也不能帮我解决那么多,然后我用了几次也没有那么想用,因为。 [01:16:44] **翁嘉毅:** 它能帮我解决的问题有限,因为你已经提前知道了这个东西,然后并就是你有一个循序渐进的这个过程,然后你也不觉得它那么突然。但是呃,比如说我呃后面展示给就是发布之后展示给身边的人看之后,然后他们就觉得很突然,然后这个我这是我没想到的,嗯,对,嗯。那当时 OpenAI 已经整个公司在22年七月 all in ChatGPT 了吗?没有,就只有我们组在做,就是你你可以看这个就是 ChatGPT 的这个那个 blog,它往下拉,然后它有一个 contributor,然后周书满应该是排第一位,然后后面的十二个人一直到赵胜佳。 [01:17:26] **翁嘉毅:** 呃,然后为止这个照商家之前,然后教授们因下一个是Barrett,然后Barrett到照商家的名字就是我们组的所有人。那是什么时候你意识到我在Open I的工作真的引爆了这个东西?呃,可能就是发Chat G P,当时我在开Neurips。 [01:17:49] **翁嘉毅:** 他十一月三十号发的,然后十二月,然后然后当时就是过了几天之后,然后发现这个就我周围身边的人都在讨论这个 ChatG P 这个这个事情,然后他们觉得很有用,然后然后并且还把这个 OpenAI 的服务器打爆了好几次,对那。 [01:18:09] **翁嘉毅:** 就是跟我当时退学一样,就是我退学的服务器也被打打包好几次,然后那那可能就是产生了这种那个自需求对自宣发的效应,嗯,对,就是就是大家都都是自来水。 [01:18:26] **主持人:** 会自发的为你宣传产品,那那这个是肯定是一个很好的投入的东西,就投入值得你投入精力的一个东西。其实听起来这个从你加入 OpenAI 做这个事儿,包括 OpenAI 内部能够推出 ChatGPT 这种东西,好像都不是谁计划出来的,是的,可能是一系列的。 [01:18:49] **翁嘉毅:** 半偶然半必然的因素,而且滑水反应是的,而且当时就是发那个Chat GPT也只是为了就是能够看看能不能收集一些这个这个真实的世界的这个用户数据,然后收完之后可能五天之后关了,如果没人的话,就我们我们期待可能是一开始有有什么一万两万,然后后面就跌回,然后就没了,就这样。然后实际的curve呢是啊,实际上是就是指数,对,好。 [01:19:17] **主持人:** 好,这是这是Chat GPT突然当时的爆款的成功。嗯,我还特好奇你刚去Open的时候什么体验?这个公司给你的初初初印象是什么样?我感觉是一个大号的一个一个一个实验室吧,没有,其实没有我想象中那么这个这个有方法论。 [01:19:37] **翁嘉毅:** 但是很多就是有很多很强的 research 直觉的人在里面,然后他可以指明方向,然后就做就好了。但是从从这个 Barrett Look 跟 Liam 来之后,这三个人从 Google 来之后,然后加入装修门的 RL team 之后,然后我们组就变了,就开始这个,嗯,这个。 [01:20:00] **翁嘉毅:** 引进这个谷歌的先进生产力来开始迭代,对,就是谷歌还是非常牛逼的,就是呃,有一张图是这个这个单位时间的迭代次数以及成功率,然后这个东西是一个这个正比,所以单位时间迭代的越多,你的成功率就线性的往上走,对,这个其实也是一个阿尔法的cur法。 [01:20:23] **翁嘉毅:** 因为 RL 就是不断 trail and error and trail 嘛,就是呃你不断尝试,然后尝试到一定次数,然后你就可以达到你的那个目的。那其实很多生活中的这样 case 其实都是 RL。所以当时你们引进的那个先进生产力是一种哲学理念,是的,就是。 [01:20:42] **翁嘉毅:** 就是说,我们先不要去想什么天才的 idea,天才的算法是的,我们把 infra 打好,对 infra 让我们从一周迭代三十次到一周迭代三百次,对,差不多。我看到过一个采访,有人问 Sam Altman。 [01:20:59] **主持人:** Open AI成功的原因是什么?他说,在一个我们之所以Open AI呢可以做出杰出的科技创新,是因为在一个人才密度极高的小团队里面,任何平庸的表现都是不能被容忍的。是你赞同这样的说法吗?呃,我赞同,因为人才密度如果上去的话,那然后你可以自发的涌现出一些意想不到的东西,然后。 [01:21:20] **翁嘉毅:** 然后,但如果比如说换一个环境,就比如说这个大家都是很平庸的话,那可能就是个人自扫自扫门前雪,然后就做完自己的就好了,然后就呃可能会拖延。对,当时你去的时候,Open I应该是个几百个人的公司,呃,我是二百八,你是二百八,对,现在Open I应该上几千人了,呃,三千多了,三千多,所以十倍了,对,呃,三年的时间,是的。 [01:21:46] **翁嘉毅:** 那你觉得 OpenAI 还能保持曾经的这种小而美的团队做出硬核创新的风格吗?我觉得这个概率是下降,但是没有下降那么厉害。对,但你总是可以划分出来一个小团队,然后去专门去做一些研究。但你觉得 OpenAI 的领导层有什么比较有意思的努力能够在这方面避免的比较好吗?还是能够让小团队然后人。 [01:22:13] **翁嘉毅:** 人才密度,然后硬核的创新,呃,比如说简化一些这个组织架构啊,然后把一些不合理的一些 meeting 全部给取消掉啊,然后呃,就是我觉得主要还是组织架构更重要一些。什么是一个高效的、利于硬核创新的组织架构?信息流通通畅,怎么理解?比如说。 [01:22:40] **翁嘉毅:** 今天有一个决策,然后可以无损的传达到下面,然后下面有有做什么最新的进展,然后可以无损的传达到上面。 [01:22:50] **主持人:** 不然的话,你可能上面做决策的跟下面干活的这个可能就是想的完完全不同的两个方向,然后劲不往一处使。OP I是怎么做到这个好的信息流通的?首先,像Sam跟Greg呃,他们会有专门的呃,就Sam的话会之前是会有专门的一个呃。 [01:23:11] **翁嘉毅:** 呃,研究助理来去帮他去了解最新的一些公司内部的研究进展。Greg,那不用说了,就是他infra整个infra这个底下几乎都是他参与过的,对,所以说他他们俩对于这个技术是非常熟悉的,然后所要做的就是保持技术的敏感性。 [01:23:32] **翁嘉毅:** 呃,至少要知道这个当前做这个东西呃到了什么地步了,然后有什么最新的进展,然后会有什么用。所以这个事儿得是一把手、二把手这样的人,他得愿意栽进去钻研到细节里面,了解到公司的每一个毛细血管。我觉得管公司跟管代码库其实也有很很类似,就是consistency,嗯,你如果不consistent的话。 [01:24:03] **翁嘉毅:** 就不一致的话,那么你可能就是就就像一个人,这个比如说就像一个拼砖的人类,这个他的身子动了,但是脚没动,那就很奇怪。好,那我们聊聊post training,我们从先从三点五开始聊吧,但是实际上三点五的这个p p o其实也没有调通那么多,我是先调通了四。 [01:24:26] **翁嘉毅:** 因为三点五当时是用旧的那套印刷,然后新的印刷是这个24年八月刚刚好,然后我就先在新的印刷上调通了这个第一版的 PPO,然后用四跑的,然后就是应该是22年九月的时候啊,这个很有意思,所以当时三点五出来的时候其实内部四早就有了,对,而且 RLHF 是先在四上调 work 的,是的,然后再在三点五上成呃成立的,呃。 [01:24:52] **翁嘉毅:** 呃,是的,但是实际上其因为其他组其实也帮我们踩了不少坑,我们就用了这个已有的一些 pipeline,能能怎么用怎么用,但是主要还是自己就主要的一些东西,还像比如说,比如 model 怎么 train 啊,那还是自己 train,然后数据怎么收集也是自己收集的,然后像这个 infra 到底出什么问题也是我们自己好。那在当时想把 r u h f 搞 work 有什么关键的挑战和突破?我觉得就是。 [01:25:24] **翁嘉毅:** 你应该怎么去衡量这个性能是什么样的?因为谁都不知道这个性能应该是什么样的。你的意思是你训练了很多个 check point 之后,你不知道是不是变得更好了。对,就比如说这个单一的 reward 是会发生这个 reward hacking 的,有可能它的这个 reward saturate 就变成一条直线,就慢慢慢慢涨上来,然后变成一条直线,但是。 [01:25:50] **翁嘉毅:** 真实的情况是,这个人如果人类有个 reward 的话,那他可能先上去,然后再慢慢慢往下掉,这就是 reward hacking。然后所以说,呃,你没有办法知道哪一个 checkpoint 是真的比其他的 checkpoint 好,嗯。 [01:26:07] **翁嘉毅:** 嗯,所以说呃,选checkpoint其实也是个技术吧,但是我我们其实没有花太多时间去选checkpoint,就是直接呃建了一堆这个sampling based eval,然后来看一下每个benchmark上面到底是什么样的,然后但是更多的就是那个。 [01:26:24] **翁嘉毅:** 那个那个benchmark其实只是个数,然后如果它过了一个数就就就就好了,就呃也没有也不能说它好,也不能说它坏,因为你每次跑一个model,然后它的那个这个这个方差就非常大,嗯,就很。 [01:26:41] **翁嘉毅:** 嗯,很有很多噪音。那最后是怎么解决的?最后就还是就是你真的拉下来看一看,然后跟他交互几次,然后看一下,就比如说对于自己的一些这个体验是什么样的,然后多找几个人来看,然后来大家投票。所以就是 eval r l h f 还是用 h f 来 eval,是的是的,只能是这样,就没有办法了。 [01:27:02] **翁嘉毅:** 因为当时技术就是就是没有办法,嗯嗯嗯,所以这个是你相当于第一次在工业级的 level 上大 RL infra。对,你觉得这样的就是大模型需要的这种大规模的 RL infra 和你曾经搭过的像天授这样的 single task 或者 toy task RL infra 的区别在哪?呃,我觉得区别非常大,因为呃。 [01:27:28] **翁嘉毅:** 呃,toy task的bottleneck在于环境,因为它的模型很简单,你不管是训练还是采样这个action,呃,都是非常便宜的。但是RL infra的话,就是你的模型很大,但是环境非常简单,环境就是一个prompt,然后但是模型采样的话你要考虑如何高效的采样了,然后训练的话你要考虑高效的训练,因为这个东西是可能对于提供环境提供这个prompt这个可能就几微秒,但是。 [01:27:58] **翁嘉毅:** 但是这个跑一遍这个 inference 跑一遍 training 那可能就是好好几百秒或者是几千秒也有可能,就是如果你 GPU 少的话。那你觉得未来的这些 model 比起三点五比起四有什么新的挑战?嗯,就对于 RL Infra 这一块来说,我觉得还是性能上面或者说 scale up 如何 scale up,就是说怎么能够用更多的 GPU,怎么能够更高效的吞吐。啊,对对,是的是的。 [01:28:28] **翁嘉毅:** 那就是牵扯到不单单是 RL 的部分,还有模型的 inference。对,就可能更 end to end 的一些,就呃,并且就是会深入到一些这个实现细节当中,然后去做一些 end to end 的优化。那其实你做的是一个相当 intersection 的一个部分,就是既有 RL,你得懂 RL,然后你得懂 ML Cs,对,然后你还得懂 language model 是怎么 inference 的,对吧?这些你得明白,是的,嗯。 [01:28:56] **主持人:** 可能不在那个位置,说实话,学校的学生是学不了这种东西的啊。是的,就是对吧?那个那个位置非常锻炼人,然后还很累啊。然后然后然后后面就是就是我我其实有一段时间就是做的确实非常累,然后还进了一二就是。 [01:29:13] **翁嘉毅:** 就是就是加班加太狠了,然后脑子疼,然后受不了了,然后就到医院看了一下,但是医院医生说没什么事儿。你那个时候工作强度有多大?就是早上醒来一直写debug或者说处理一些问题,然后一直到晚上睡觉,一周七天,一周可能平均六天对吧? [01:29:38] **翁嘉毅:** 但是就经历一段时间之后,你会发现这是不不能持久的,嗯,所以说还是,呃,首先你要有这个这个这个这个身体,你要确保你的身体是健康的,所以说呃,我我现在养成一个习惯就是每每周两次跑三千,但是我之前这个在青。 [01:30:01] **翁嘉毅:** 在清华的时候上体育课是就是三千不及格,然后完全不会跑三千的。但是我现在就是自发的去,就意识到这件事是很重要的。对,我觉得好羡慕你过去两年在 Open AI 干的事儿,因为。 [01:30:17] **主持人:** 你能够 explore 的是世界上大部分百分之九十九点九九这方面的 researcher 和 infra engineer 完全他没有没有资格去碰的东西。你有先天这个得天独厚的优势,你在最先进的 model 上,然后可以可以做这个优化,然后你每天都在在未知的领域探索,而且你知道你的探索一定是人类历史上第一个找到这个答案。但是我我觉得我做也是一些很屈有的事情,就是我觉得我的工作就是日常维护,并不需要。 [01:30:48] **翁嘉毅:** 那么多这个这个这个这个智商,就不需要太多智力上的,是的,那就就就是你只要把事情做好做对就好了,然后方向很重要,然后你只要在对的方向上呃做一些你自己认为正确的事情就好了。那你觉得 RL for 大模型这个东西还需要。 [01:31:17] **翁嘉毅:** Breakthrough嘛,还需要那种大的突破吗?还是说你觉得这个范式已经在那儿了,就是咱们把东西infra拉上去?呃,我觉得还是有的,就是你again,就是不能以当前的这个状态来预测下接下来会发生什么事儿,就是接下来什么事情都可以可能会发生。有。 [01:31:36] **翁嘉毅:** 有可能有新的范式,有可能有新的 RL 的范式,也有可能有普券的范式,都有可能。所以说每天都是得面对一些未知的挑战。但是话又说回来,就是我我觉得就是其实我很幸运在这个位置,但是如果把我换做任何一个人,如果他有我的 context 的话,他应该也完全可以胜任。 [01:32:02] **翁嘉毅:** 对,所以说我不觉得这个是呃只有我能够做什么东西,这个这个事情就是你换任何一个正常的人类,他应该也可以做。你太谦虚了。展望未来五到十年,你觉得还有什么有待探索的地方呢?就最大的挑战会在哪?现有的模型的能力的瓶颈,然后我们需要看到什么样的突破?我觉得目前的这个状态就是。 [01:32:27] **翁嘉毅:** 还没有 scale up 完全,先等它这个慢慢 hill climb,先等它慢慢的从 large scale RL 的一些呃一些实验里面,然后看一下它最多能到多少性能,然后再去看之后还有什么要做的东西。 [01:32:48] **翁嘉毅:** 所以你的意思是没有scalp,完全不是说compute不够,而是说现有的性能我们还没有榨干,先把它现有的方法和现有的compute给它榨干了,我们再看看我们推到多久了再说,并且还有很多infra的bug,哪怕你们现在的infra里也很确信是有bug的,对,这这这个这个你不能说百分百没有bug呀,就是。 [01:33:09] **翁嘉毅:** 对,就是毕竟是人类嘛,然后每个人都有可能犯错,然后嗯,就是你还得修一下这个,比如说你因为人多了,然后 context inconsistent,然后每个人都会写一些奇怪的东西。嗯,那未来大模型,然后加强 RL 学习 post train 这个这个 pipeline,你觉得最大的瓶颈会发生在哪?我觉得瓶颈在于修 infra 的 support。 [01:33:39] **翁嘉毅:** 吞吐量,你单位时间内能修多少个 bug?然后以及单位时间内能迭代多少次?嗯,能正确的迭代多少次?剩下不重要了,这个可以赋能剩下的所有的东西。是的,算法也好,环境也好,对,就如果如果你把 bug 全修了,那你有可能算法连改都不用改,就很好,就是很好。那怎么样? [01:34:06] **翁嘉毅:** 把 infra 的这个效率提上来呢?需要什么样的架构?需要什么样的人?需要什么样的资源?这个我们还在探索。对,就我我现在做的事情就是,我我其实已经不在那个最核心的位置了,但是我觉得嗯,我应该做一些更重要的事情。就我我们组在重构这个 OP I 内部的 infra,然后再做下一代 infra。你们的每一代的 infra。 [01:34:30] **翁嘉毅:** 是会推倒重来,大家再根据现在的认知再做一个好的顶层架构,然后我们再像你写天授那样写,还是会很就是修小修小补。目前是推倒重来,因为之前那代 Infra 已经三年多了,然后它堆积的问题其实已经很多了,然后呃我们希望就是用新的一个 Infra 来去清理很多之前的太要 depth,然后。 [01:34:58] **翁嘉毅:** 能够在单位时间内能够给一些 researcher 更好的一些呃 iteration speed。所以 researcher 是不会参与到这个 infra building 的过程中的,他们可能会给一些需求对,然后但具体写 code 怎么搞 distributed training 这个不是他们负责的,是的,嗯,然后他们可能到时候就改一个 flag 就好了。 [01:35:21] **主持人:** 那听起来 open energy researcher 可能是第一个被 AI 取代的工作吧?对,我感觉是的,就是反正就是单位时间内你能实验多,他就想 idea 嘛,对,就是 idea idea idea,反正你可以很便宜的生成,就是你一个人坐在那边写多少个就。 [01:35:39] **翁嘉毅:** 然后,然后你你你甚至生成idea这个事情也可以被AI建模。对,然后下一步取代就是一,我觉得优先会取代researcher,然后再取代这个infra engineer,然后就就都取代了就好了。但是但是这个sales可能不太会那么期待,因为sales还是你要说服对面人买单,你在对面是人,然后AI可能没有办法那么说动人,这可能还是要人与人之间的沟通比较重要一些。OK,那我们刚刚聊了text only的三点五,然后聊了多模态的。 [01:36:09] **翁嘉毅:** 你觉得agent和RL的post train这个东西会有多大的没有本质差别?没有本质差别,本身就是同一个东西啊,就是中间多加了几步脱扣,可能就是环境会多一些,就环境环境环境方面的改变。所以你觉得比起标准的LOM加RL post train,agent加RL post train。 [01:36:30] **翁嘉毅:** 谈不上新的挑战,对,因为本质上是同一个东西。你个人对于AGI的定义是什么?你觉得现在我们达到AGI了?如果你觉得还没有达到,或者说还差一点,你觉得? [01:36:45] **翁嘉毅:** pre train 加 r u post train 这条路能不能带我们去到那个你定义的 a g i?就是 open i 内部有个笑话,你抓十五个人可能有二十种定义 a g i 的方法。对对,然后我之前定义的方法是这个东西能够如果能够完成呃百分之八九十的这个我自己认为有意义的 task,那它可能就 a g i 了。 [01:37:13] **翁嘉毅:** 嗯,我目前我觉得目前还没有,因为目前的话就是,呃,我我至少从我的角度来看,我还是不放心他直接上手改我的 infra 代码。 [01:37:30] **翁嘉毅:** 因为这个非常 out of distribution,就是 AI infra 在于它就占占相对于它的这个数据集的占比是几乎为零,而而且 AI infra 你验证的这个这个这个反馈太长了,你需要本也太高了,对成本太高了,就是目前还是没有办法去触及到这一块的。Good for you,听起来你短期内不会被 AI,呃,是,但但就是反正。 [01:37:58] **翁嘉毅:** 呃,在这个 Strawberry 出来之前,然后就是我们内部其实已经呃用 Strawberry 一段时间了,在那个时候,然后然后大家都觉得啊,我的工作要被取代了,然后或者说我们我们就写一堆屎山吧,然后后面这个因为 Strawberry 修完之后会帮我们清理,呃,现在看来就是可能一两年过去了,这还是这样,就是屎山还在那儿,嗯,就是。 [01:38:27] **翁嘉毅:** 并不会真正的改变什么东西,就是每个人都会over react,就是觉得这个这个技术来了哦,我们要怎么怎么样,但实际上并不会这样的,它是一个很慢很慢的循序渐进的一个过程。你现在在open呀,以前在。 [01:38:43] **翁嘉毅:** 呃,学术机构清华CMU待过,然后可能在科研的lab也待过。但是现在很多人啊批评Open AI已经和Open没什么关系了。然后你自己之前你的一大爱好也是开源,打破信息差。嗯,你觉得这事儿会对你的个人目标和偏好产生冲突吗?我觉得这是个trade off,嗯。 [01:39:07] **翁嘉毅:** 我其实还是很热爱开源的。如果 OpenAI 有开源的东西,我可能会是参与一些。但是我觉得就是我应该去做我自己认为更重要的事情,而且并且这个开源对于 OpenAI 来说它是一个 trade off,就是你没有办法直接把最好的模型开源,因为公司要生存。 [01:39:28] **翁嘉毅:** 如公司如果不能生存的话,那么呃之后你可能就没有办法去继续融资,做一些实验,然后有一些突破性的进展,这个都是很现实的问题,所以我认同这个trade off。 [01:39:46] **主持人:** 但是Open AI在一开始建立的时候,它的架构其实是很特殊的。对,它不是以一个商业盈利的公司的架构对来一开始初创的,它一开始的至少公开资料上的slogan是。 [01:40:00] **翁嘉毅:** 是让通用AGI平等的造福全人类,对你觉得闭源是让这个目标更近了还是更远了?呃,首先这个通用AGI造福全人类这个东西是一直是拆成两个部分看的,第一个是实现AGI。 [01:40:16] **翁嘉毅:** 第二个是造福全人类,通用AI这个就很好说,就直接这个堆这个 RL,或者说堆pre train,堆算力,然后scale up,造福全人类。呃,目前的拆解是做产品,然后以尽可能便宜的价格,就比如说有免费的拆GPA用户,然后他们可以直接接触到,能够更容易的去接触到这个技术。 [01:40:42] **翁嘉毅:** 呃,比如说这个免费应该也可以用这个语音模式,然后然后做一些就是就体验,这样可能是更有利于这个造福全人类的,而不是直接开源你丢一个这个裸的模型权重,那他也不知道怎么用。所以你的意思是Open AI的open不是对其他的大公司大模型公司的open,而是对普通人的open,是的。 [01:41:12] **主持人:** 但这样的 strategy 可能,如果我觉得如果这是最后一英里了,咱们是百米冲刺了,要到 AGI 了,我觉得 make sense,我也认同。但如果说 AGI 还是一个不说马拉松吧,但是不是一个一时半会儿明年就能解决的事儿的话,会不会在技术上更开放、更透明,也会让 OpenAI 本身。 [01:41:37] **翁嘉毅:** 更有利于达到尽快的达到AGI了,还是说你觉得其实Open AI现在其实不太需要把自己的技术细节公开出来,拿社区的反馈,也不需要社区任何的帮助,Open AI已经self contained可以实现AGI了?让我想想,我觉得就是。 [01:42:00] **翁嘉毅:** 嗯,存在一种路径,就是你可以开源,然后你并且可以接受这个社区的反馈,然后更好实现一下这个是可可以做到的,理论上可以做到,但实际上执行很多困难。就比如说,呃,其他其他人这个就是因为你是第一,如果你开源了,那么其他人马上就变第一,然后其他人这个再训一下,然后大其他人又闭源。 [01:42:24] **翁嘉毅:** 然后然后就会导致你的这个就不是所有人都是同条心的,然后就会导致比如说这个Open AI在当前这个环境下它可能融不到资,然后没有人持续的为他输血,这个是有点。 [01:42:43] **翁嘉毅:** 博弈论的意思了,哪怕我是想为了AGI造福全人类,但是可能有人不这么想,有人就是想挣钱。对,所以为了防着这样的情况发生,Open AI不得不闭源。那至少我在我的看来是这么认为的,但这个是公司存活的考虑,对不对?是的,那如果现在Open AI假如说就是无限资源,永远不用担心死的事儿。 [01:43:04] **翁嘉毅:** 那你觉得你会很开心的把你现在这两年两三年的RL infra开源出去,你会很开心吗?我当然会很开心啊,就是呃,其实这个张说们还问过我这事儿要不要开源,然后我当时觉得不太好吧,就是呃。 [01:43:22] **翁嘉毅:** 呃,因为这为了公司的考量,但是他还问了我这个事儿。对,所以是不是 DeepSeek 至少它 Open Weights 这个事儿让 Open AI 重新有一轮内部评估?是的,是的。你刚刚说 Open AI 的使命要拆成两部分,对,首先实现 AGI,再造福全人类。 [01:43:42] **翁嘉毅:** 嗯,更深的说,我们要理解这个使命的话,你觉得真要实现这个过程,最大的机遇和挑战是什么?执行,对着正确的方向执行,只要能执行就好,就不要再出现一一次,就比如说23年十一月公司快倒闭了,是吧?赛马奥特曼被开除那次,对对对,就你希望这个整个组织架构越稳定越好,是的,能够有利于你快速的往前进,是的。 [01:44:08] **主持人:** 是,所以从内部的视角看,当时Sam被开除,你们内部是什么样的?接收到的信息,因为我们在外部接触到的信息都是很玄幻的,说什么伊利亚到底看到了什么?没有,那就是随便谣传的,就是捕风捉影,然后很多人在这边造造谣。对,所以你内部的视角是什么?内部的视角就是嗯。 [01:44:34] **翁嘉毅:** 应该是就是不信任,就是伊利亚跟其他的一些董事会成员不信任Sam,然后投票把他投出去了。然后然后但是我们底下干活的人就觉得非常surprise,非常震惊,不知道发生了啥,因为董事会之前是对底下的人缺乏透明度的,然后我们也不知道这个决策是怎么做的。 [01:45:02] **翁嘉毅:** 然后这个不信任是不信任他什么?呃,不信任他这个人,因为你可以去看这个官方公开的那个调查报告,对,这是一致的。但其实最后的结局是伊利亚走了,对,这个化学反应是怎么发生的?就是明明已经把他开除了,他也不信任Sam,但最后好像Sam是更得人心的那一个,因为因为很多员工就觉得如果有一个纯技术出身的人领导的话,那可能没有那么多远见。就就是A加的实现,并不只是因为技术,你技术实现了就好了,但还是有很多商业的因素掺杂在里面。就比如说你要融资,你要你要算力,你要如何去说服一些人去给你愿意投钱,这个其实也是很重要的一部分。然后如果你只有一个呃很好的一些这个研究经验的话,那可能还不是不是很支持你走这么长的路。 [01:46:05] **翁嘉毅:** 就是从长远来看,还是需要Sam这样的人的,所以Sam可能反而是AI最难替代的那个人,因为他需要在商业,甚至在地缘政治,对在资源上都是,就是你可以把Sam抽象成一个personality。 [01:46:24] **翁嘉毅:** 抽抽身要成一个identity,然后这个identity短时间内如果你用一一个AI来替代的话,那就是这个别人对这个这个这个这个ID的认同感就会缺失,所以说这个是不能替代的。嗯,对,嗯,你刚刚说张树们走的那天下午你难过了好久。 [01:46:47] **翁嘉毅:** 但其实,钟书们不是唯一一个离开Open AI的。对Open AI在取得巨大的成功之后,有无数的团队成员都走了。你觉得一个极度成功的一个组织,像Open AI这样,最后大量的人才流失是必然的吗?是不可避免的吗?一个健康的组织是所有人都是可以替代的。 [01:47:11] **翁嘉毅:** 就是你只要能够持续的培养新人,有造血能力,然后能让这个组织正常的运转,就是可以的。哪怕虽然走了很多人,但是还是可以花一一些时间精力,然后再培养一波新人,然后持续的造血,相当于干细胞一样。所以 Open I 现在没有谁是不可替代的,是的。 [01:47:35] **主持人:** 那是不是也就意味着Open AI做的东西,外面的人也不是说难如登天,不能复刻了?你可以这么认为,因为其实就是把最简单的东西做好就好了,没有什么黑魔法。现在我们可能这个世界在发生人类历史上最激烈的一次科技竞赛。 [01:47:58] **翁嘉毅:** Open I 是点燃这个这一切的那个公司。我想知道你们现在内部的氛围有多 intense,就是你们会有很大的压力吗?看组,看 deadline,看这个 project timeline,就是比如说 post training,呃,目前这个压力还是挺大的。 [01:48:19] **翁嘉毅:** 然后,然后像其他组,比如说我们现在在重构 infra,那可能有压力,但是没有像 post training 那么大,因为他们是有很明确的 deadline,然后我们可以稍微延一延,因为我们需要更就着眼于更长远的。 [01:48:37] **翁嘉毅:** 考虑,我们要把这个事情弄对,所以其实外部的激烈的竞争,不管是来自XAI SRPK还是中国的大模型公司,会传导到你们内部的公司的日常开发的,嗯,不太会,除了Deep Seek那一波,就是因为他们说声称推特上声称这个他们的迭代速率非常快。 [01:49:01] **翁嘉毅:** 然后这个还是引起了很多人的这个警觉的,因为内部的速度迭代速度其实相比于其他是有点慢的,所以说这就是为什么我们要冲过一百。所以其实对于Open AI这样的基座模型大模型公司来说,生死线是infra的cycle time。对,其他的一些比如说data呀,或者说什么算法有多少researcher,这就投人就好了,嗯。 [01:49:29] **
由小宇宙音频转文本工具生成