在知乎,看见ChatGPT变革的第一束光
有变革,知乎必有回响。
搜索“ChatGPT”,仿佛立刻能听见号角在最前线的鸣响:
创新工场董事长李开复总结出后 ChatGPT 时代拯救职业的通用法则;DeepLearning.AI 创始人吴恩达提醒人们,在狂热之前应将伦理与法律置于核心位置;一流科技创始人袁进辉认为,必须迫切研究如何区分人类生成的文本与 ChatGPT 生成的文本;《数字化生存》的作者、北大新闻传播学院的胡泳则在「知聊八点半」圆桌直播中指出,人工智能的发展不一定要“类人”,而应专注于提升人类能力。
透过问答、话题讨论、圆桌对话和热点直播,行业大佬们纷纷现身于中文互联网的高质量问答社区;投资人、科研人员、创业者以及从业者们相互联系,共同探索 ChatGPT 的前沿内容,并思考他们的发现对未来的深远影响。
短短四个月,知乎关于「ChatGPT」的话题热度便已打破自2015年以来「AlphaGo」话题创下的纪录,累计讨论数达22万,总浏览量高达3.8亿。
话题热度的爆表,展现在全方位、多维度的呈现中。
一、首发的力量
2023年1月2日,一位普林斯顿大学计算机科学专业的学生发布了 GPTZero,一个能够”快速有效地”辨别文章作者是人类还是 ChatGPT 的程序。
在看到这一消息后,知乎答主「蝈蝈」感到一阵被偷袭的紧迫感。ChatGPT 推出后的第10天,上海财经大学信息管理与工程学院的三年级博士生郭必扬已和他的团队着手这项工作,他表示:“我们其实是最早开始开发 ChatGPT 检测器的团队。”
GPTZero 发布一周内就有超过三万人使用,应用程序一度崩溃。郭必扬感到紧张,他们原计划除了检测器,还要进行人工测评和语言学的统计分析。显然,这时候已经不能再等待。
经过现有数据集的训练后,他们开发了几个检测器,并在1月11日于知乎发布了该项目的 demo,这是国内首个 ChatGPT 检测器。春节临近,本应陪伴家人团聚的郭必扬却盯着屏幕,忽视了身边的亲人,家人们感慨他们可能在做一件重要的事情。
在这个科技迭代加速的行业,最让人忧虑的不是技术的泄露,而是缺乏足够多的人去了解这项技术和团队,更何况与 ChatGPT 的革命性突破有关?
“AI领域的人都想宣传自己的工作,很多人选择在知乎发声,工作被分享,有助于被更多人看到。” 深度学习话题的优秀答主,已有十年「知龄」的谢凌曦表示。
在郭必扬和伙伴们争分夺秒推出 demo 的同时,一系列与 ChatGPT 相关的项目也相继出现在知乎。
人工智能话题的优秀答主 PENG Bo,公开对标 ChatGPT 的开源项目 ChatRWKV,呼吁更多人参与生态建设。
在2月底,首款用自然语言指挥 Excel 的应用 ChatExcel 在知乎独家首发。
然而,接踵而来的社区反馈让郭必扬感到意外。发布之前,他们在比较了GPTZero与自己的检测器后,认为由于训练数据集的优势,他们的检测器实际效果更佳。一流科技的创始人袁进辉也在知乎上谈到如何区分人类生成的文本和 ChatGPT 生成的文本,“这是一个迫在眉睫的问题。”
最初,对于这项工作的许多观点是质疑的,认为其毫无意义。
“我们关注的应该是假消息,而不仅仅是 ChatGPT 生成的假消息。如果分类器只能识别 ChatGPT 生成的假消息,那我换个生成器不更好吗?”也有人认为,“我们可以通过润色内容避免被检测为 ChatGPT。”
郭必扬决定亲自回应:“可以说我们的检测器效果不佳,但说它毫无意义,那我不同意。法律中有漏洞,不法分子可以钻空子,这是否意味着法律本身就无效?”
随着时间推移,支持和鼓励的声音逐渐增多。“检测器的价值见仁见智,但我认为这个数据集相对有价值,可以用于做一些有趣的事情。”有人表示。
中国信通院云大所内容科技部研究员呼娜英在知乎的直播中指出,反作弊技术目前确实没有 ChatGPT 强大,必然会出现“猫鼠游戏”的现象,“但最终,魔高一尺、道高一丈。”
实际上,决定在知乎上发表作品就等于选择进入一个复杂系统。所谓复杂性,指的是这一系统并不是线性的,无法按预期运作,拥有众多维度和变量,难以预测,因此经常产生“猝不及防”的意外和惊喜。
如今,郭必扬团队的检测器在 GitHub 上已有六七百颗星,数据集和模型的下载次数可能已过万,文章引用数量迅速达到了20次。“这些是我们未曾预想的。”他感慨道,“(文章被引用的速度)比我之前的任何一篇文章都要快。”
知乎独家首发后不久,WPS 便联系了 ChatExcel 的团队,开源项目 ChatRWKV 也得到了顶级科技媒体的报道。
知乎系统的复杂性还表现在其自适应性上,发布作品会改变系统,系统也会反过来调整你的产品或研究。
在2022年11月,谢凌曦的团队将一篇重要论文放到 arXiv 预印本网站后,立刻发布在了知乎,标题为某气象大模型,“中长期气象预报精度首次超过了传统数值方法。”
“这个标题让我急切去阅读原文。”一位网友表示赞赏并在评论区与团队成员进行了深入讨论,随后分享了自己的看法:
“AI模型的输入来自 ERA5(观测和模式同化的分析结果),所以也是利用了模式预报,这意味着模式不可或缺,传统模式依然不能被独立替代。目前的状况是(传统模式同化+AI 预报)>(传统模式同化+传统模式预报)。”
AI 大模型是在 ERA5 数据上训练的,而 ERA5 数据是通过对各类观测数据进行质量控制和同化处理获得的完整再分析资料集。
这种同化处理是将观测数据转换成标准的网格化气象数据。在没有覆盖这些技术的情况下,不应声称超越传统的数值天气预报方法。
“是的,这个工作还需要长足的时间,第一个问题是数据的获取似乎非常困难(所以相关的国内外研究少之又少)。”团队成员也表示认可。
“其实,AI 还未能做到这一步,主要是因为缺乏相关数据。”谢凌曦后来解释道,要开展此项研究,AI 的输入端需要获得卫星和气象站的数据,不论在何地,这些数据都是高度机密的。
“受益于欧洲气象中心公布的几十年同化数据,我们才能完成这项工作。”
不久后,谢凌曦更新了回答,“我们接受了这个意见。”
“在盘古气象大模型的论文中,我们明确指出 NWP 限定为‘基于同化数据进行预测的方法’,而不是指代整个‘数值气象预报领域’。实际上,盘古确实首次在同化数据上超越了传统方法;我们使用了相同的测试环境,以确保对比的公正性和结论的可信度。”
研究发布后,谢凌曦的团队收到了不少交流邀请,包括中国气象局的讲座。欧洲气象中心也与他们取得联系,讨论AI技术未来可能替代的现有技术。
与此同时,一些公司也联系了郭必扬,探讨文本平台推出相关功能的可能性。“我们的算法还在不断改进,主要是通过提高模型的鲁棒性、收集更多样化的数据,期望下一代模型能更有效。”郭必扬表示,在接受知乎网友的反馈后,这是他接下来要实现的目标。
二、与“52赫兹鲸”相遇
研究人员们争相发掘首发作品,资本也在紧密“点杀” AI 大模型的人才。
3月27日晚上11点,一条消息静悄悄地在微信群中流传:王慧文与袁进辉创立的一流科技达成并购意向,欲打造中国版的 OpenAI。
在大语言模型(LLM)领域,过去被视为不重要的框架,如今其价值已被提升至竞争的焦点。“现在看来,这才是真正潜心研发底层技术的国产典范。”有一位关注相关知乎话题的腾讯 AI 算法专家如此感慨。
六年前,袁进辉从微软亚洲研究院离职,创业开发深度学习框架。他当时的处境与那只著名的“52赫兹鲸”无疑是相似的。
承载算法应用的同时,底层硬件也是深度学习框架的核心,被誉为“人工智能操作系统”,是创业公司梦寐以求的蛋糕。彼时,谷歌的深度学习框架 TensorFlow 凭借巨大影响力和强大推广能力,已成为用户最多的深度学习框架(Pytorch 尚在初创阶段)。
面对谷歌这家大型企业,拥有数百名开发者,你又凭什么与之争竞争?开发底层软件、强大的竞争对手、开源……袁进辉耳中不断传来“以卵击石”的声音。
因52赫兹频率高于任何已知鲸鱼物种的发声频率,科学家认为一头被美军探测器捕捉的鲸鸣信息无法被其他鲸鱼接收到。
系统软件的开发周期漫长,从2016年启动,历经四年后至2020年7月,深度学习框架 OneFlow 才实现开源。由于无法忍受那种高度不确定性及在产品成型前无法收到任何反馈的压力,一些优秀的同事选择了离开。
一旦技术深入系统深处,能够共鸣的“鲸”便屈指可数。而在知乎,袁进辉却找到了同样关心底层问题的同行。
不少知乎用户早在微博时代便已熟悉“老师木”(袁进辉的微博名)。袁进辉在微博上分享的精彩消息让人 scrolling不停,大家对他究竟是谁的好奇愈发浓厚。英伟达 AI 计算架构技术总监杨军回忆道。袁进辉创业不久,杨军正考虑换工作,两人通过知乎建立了联系。
在袁进辉的心目中,杨军是既具机器学习又专精深度学习(Deep Learning)话题的优秀答主,两人长期稳定地交流,也成为彼此的重要朋友。
后来,杨军对袁进辉在知乎下的分享感到耳目一新,尤其在“如何看待 Google 关注 MLIR 项目?”的问题下,两人协同探讨了相关问题。
当时袁进辉对 MLIR 的评价并不高,认为“编译器之编译器”这个概念过于冗余,而与此同时,杨军则认为 MLIR是个好东西。“他对 MLIR 的贡献、价值及问题的分析,让我至今难忘。”袁进辉说道。
伴随着讨论的深入,杨军用新发现持续更新最初的见解。最终,袁进辉在2022年再次更新了自己的观点,“这两年的发展证明,MLIR 提供了一个重要的‘脚手架’。”
人与人之间的交流天然需要环境进行碰撞,而知乎正是提供这种空间的平台。杨军试图解释这种奇妙的缘分,声称顺着问题与兴趣,阅读他人的文章,便能自然而然判断是否值得深入交流。
在 OneFlow 开源后,社区一位网友说道:“我茅塞顿开,突然意识到以前那些困扰我多年的问题,竟然有了这样的解决方案。”其他用户则称赞框架设计“清新”。当第三方开发者、甚至学生们能够领悟设计之美时,袁进辉如同创作出了一本受到读者欣赏的小说。
而当郭必扬因 ChatGPT 的发展而感到焦虑时,他又在知乎找到了“孤勇 AI 研究者”群,让人意识到许多同行还同样生活在 ChatGPT 的“阴影”之下。在这里,他找到了一起合作的伙伴。在四十多天的奋斗中,团队的八名成员全都坚持了下来,丝毫没有人退出,尽管在疫情肆虐的时刻。
他们自嘲称为“无足轻重的研究者”,但希望所做的工作能称得上“重要的贡献”。
在知乎的另一角,谢凌曦分享的一段热血岁月也获得了3.2万次赞。
“如果中国重新开发像 MATLAB、SolidWorks 这样的软件需要多长时间?”三年前的一次提问,令他敲下了久被尘封的往事。
十几年前,几位清华大学数学系的学生希望制作一款科学计算软件,以比肩最常用的数学软件 Mathematica。他们的招聘广告贴于计算机系宿舍楼,但很少有人关注。当时,刚从数学系转向计算机系,刚学会 Java 的大三学生谢凌曦申请加入。经过四个多月的艰苦努力,他们终于制作出了初具雏形的程序,随之而来的荣誉接踵而至,最终赢得了全国特等奖。
“唯有以满腔热血去推动大规模系统的开发,或许这就是我们项目能够取得的最好的结果。没有成熟的商业模式或健康的生态,项目将难以持续发展。”多年后,谢凌曦在回答中分享了对项目商业化的思考。
“我们的经验是积极向上的,它至少证明,任何时代,都不乏敢于追逐梦想的年轻人。”
三、寻找“百万宝贝”
袁进辉和一流科技已被视为一个新的赛道——AI 大模型。招聘网站上,ChatGPT 相关岗位开出的薪资最低月薪2万,最高可达10万。根据 levels.fyi 的数据,OpenAI 为 AI/ML 岗(L5)提供的年薪高达 90 万美元。
仿佛一夜之间,网页上再次回荡起六年前资本狂追接连而来的数学博士、计算机博士、统计学博士们的激情。彼时,张一鸣曾在微博“悬赏”100万元招募顶尖机器学习人才,而在硅谷,具技术专长的高级管理人员若在如谷歌等大型上市公司工作,年薪(包括股权激励)可达到数百万美元,以“百万宝贝”形象为名。
王乃岩(Naiyan Wang)就是其中一员,在为组建图森未来的算法团队而积极寻找人才。他在知乎中回答“如果你是面试官,你怎么去判断一个面试者的深度学习水平?”并留下了“英雄帖”,声称这三道问题能考察受试者的“八成实力”:
– CNN 最成功的应用是什么,它在 CV 方面有何优势?而在 NLP 和语音领域是否也能取得成功?
– 为什么 AlphaGo 也使用了 CNN?
– 许多做人脸识别的论文为何最终都添加了一个局部连接卷积?
这些问题并非教科书所列的标准考题,正如图森未来的自动驾驶是一个“新物种”,开创性的探索常需要打破传统框架并冲破先例,算法工程师必须深入挖掘看似无关事物间的潜在联系,才能更有效地利用算法工具,为商业问题提供解决方案。
“这是个不错的甄别题目。”当时还在 Facebook 的人工智能科学家贾扬清对此回应,认为这涉及一个本质问题:卷积为何能工作。回答这个问题的角度多种多样,既包括规则正则化、统计分析、编程,甚至神经科学,不同的回答能够反映被试者的深度学习经验。
若有人能准确回答这三道问题,那他对 CNN 的理解定然是在线的,而这正是王乃岩所寻找的人。
接连而来的回答不断拉长进度条。“接近了,但不准确”、“基本靠谱!HR 将会与你联系”,对基本靠近的问题,王乃岩皆有回应,但更多回答却寂静无声。正如预料般,八成的回答者并不清楚卷积神经网络的本质,他们将其视为一项简单工具,仅仅会运行开源代码。
一位日本名校的硕士毕业生则令王乃岩眼前一亮。这位硕士的本科是在清华大学,王乃岩对他的答案感到惊艳,接下来的面试过程也十分顺利,他随即发出了录用通知。这位学生如今已担任公司日本业务的负责人。
互联网的快速发展使得地理意义上的“邻近”转化为数字意义上的“邻近”。虽然你可能不了解身边的一位邻居,但对复杂技术构筑的抽象系统的信任却逐渐增强,知乎便是这样的平台。对于许多能够胜任 AI 创业团队的人来说,当他们需要依靠个人渠道招募人才时,知乎无疑是一个良策。
当王乃岩在寻找算法工程师时,袁进辉同样在为开发深度学习框架寻求人才。注册知乎后,袁进辉的第一件事便是做“宣传”。有些人看到他的文章和互动,才惊觉原来除了大厂,创业公司也能参与底层架构的开发。不少一流科技的全职同事甚至实习生,正是通过这样相识。
更多时候,袁进辉会主动出击。浏览到有趣且充满见解的回答,他会进一步查看对方的 GitHub,以更全面地了解潜在的人选。尽管未必能“挖到”心仪的人才,但彼此也慢慢成了朋友,进行不同看法与想法的交流。
在一个领域内沉浸得越久,撰写文章与互动的问题愈多,社区的反馈也愈发积极。一位面试过多家公司的本科生在“国内是否有什么适合的系统或编译器实习岗位?”中回应说:
“我看到你对技术的追求非常执着,我觉得袁老师的 OneFlow 是一家非常深入的公司。当时面试我时,我直接与 OneFlow 的面试官聊了一下午,内容涵盖了 C++、并行计算的各种优化技巧,甚至讨论了一些最近的机器学习论文。”
平时低调的王乃岩在知乎上非常活跃,发文分享技术,也成为深度学习、机器学习、人工智能领域的优秀答主之一。关注他的粉丝中,许多还在读计算机专业的学生,甚至有不少通过“关注”成为图森未来的一员。
实际上,他们的潜力和才华都十分出众。在王乃岩看来,若采取互联网大厂的方式招聘,许多没有光鲜背景和显赫论文的“璞玉”很可能会被硬标准直接淘汰。
“重要的是,他们已经具备的技能,而在于他们的基础能力和潜力、以及对技术的热忱。即便是本科生,热情和品质更为重要。”
现如今,王乃岩仍然会从知乎上寻求人才。但与创业初期相比,如今更多是被动寻找。“不论是关注的人还是信息流和推荐,已经帮我过滤掉了很多无效信息。”王乃岩说道,“真正有用的信息,在信息流中会不断出现。”
无论技术如何演进,顶尖人才的特质不会改变。他依然最看重技术热情和坚定的信念。
四、时光回响
ChatGPT 发布后,知乎答主 “Trinkle” 突然在“如何评价 OpenAI 的超级对话模型 ChatGPT?”的讨论中现身,公开自己「有幸参与 ChatGPT 训练的全过程」,并展望未来的世界。
回答的结尾部分,在 OpenAI 官网的致谢名单中,「Jiayi Weng」的名字被特别标出,许多人逐渐认识“Trinkle”正是翁家翌。他是 OpenAI 最近两年第一位应届硕士毕业生,也是团队中最年轻的研发工程师之一。
至今,这个回答已吸引超过3000个赞。“很少有人知道,我曾一度觉得自己无法接近 OpenAI,”翁家翌回忆, “在投简历时,我觉得自己很远。”
翁家翌自初一开始接触编程,起初侧重于奥数,编程只是拓宽数学思维的工具。真正感受到编程魅力是在高中进入福州一中后。
他很喜欢解决固定问题,尽管可以写出许多相同算法且具有相同时间复杂度,但他总能将同样的算法优化得更快。这种较量令他感到无比满足。
当时福州一中的内部判题系统(OJ)在线测评,拥有丰富的历史记录,翁家翌每每刷到第一才会罢手。
高二时,他毅然将重心从数学转移至编程,想进入“清北复交”。为了达成这个目标,他参加信息学奥赛,那时信息组的许多同学也在使用知乎,他开始注册账号。谁也没有想到,几年后他会成为许多网友眼中“高三开始玩知乎的天才少年”。
阿尔法狗战胜了李世石那一年,翁家翌如愿进入清华大学。然而,由于信息学奥赛的失利,他靠大一成绩转到计算机系。大二时,他与强化学习结下了缘分。
与朱军教授一对一会面时,朱教授询问他想要做什么。教授团队有三个研究方向:贝叶斯、对抗训练和强化学习。尽管他选择了强化学习,但当时的他并不明白这意味着什么。
“我本以为强化学习和对抗训练(GAN)的工作相近。”选定方向后,他才知道强化学习意味着要通过玩游戏学习。为了入门,他尝试着玩了一系列游戏。
与其在中国时的潜水与信息收集不同,在清华大学后,他愈加渴望分享。或许这与他高中时期确立的人生目标密切相关——获取更多影响力,帮助更多的人。这一切都要求他与机器和人建立联系。
他在知乎上发布的最重要项目是大四毕业设计中的强化学习算法库 Tianshou(天授),这也成为他影响最深刻的研究之一。最终能加入 OpenAI,得益于这段作为“一作”的经历。
最初版本的 Tianshou(天授)是两年前实验室的四人团队利用 Tensorflow 编写的,速度极其缓慢,鲜有人使用。翁家翌试图重构其中部分代码,但收效甚微,于是选择推倒重来。优化后的结果让他认识到,简化框架不仅为代码速度带来提升,也为性能带来了收益。
他发布的工作受到了网友的关注:“为何相同算法(如 DQN)在 PyTorch 下运行时,效果却要快得多?看似其他代码逻辑相似。”
“代码确实是有灵魂的,”他轻描淡写,这也是实现细节所带来的不同。
这次经历“让我真正意识到,要创造影响力,你需要写一些基础性的东西或在工程上做出成就,而非仅限于研究领域的贡献。”
在 AI 领域中,低质量的实现往往源于研究者的工程能力不足。如果能将工程层面的见解引入研究,或能催生出全新的收获。
除了扩大工作的影响力,翁家翌还热衷参与与清华大学学期间生活相关的话题。他曾参与“选择在清华大学念书后悔吗?”和“在清华大学读计算机科学与技术是一种怎样的体验?”的讨论。这段走出迷惘、逐渐坚定方向的经历,至今仍引得网友们赞同。
“这样的心态正是我所需要的,快被你清 fly bitch 折磨得快疯了。”一位清华校友在评论中直言。
“学会承认自己不如人,并与自己和解。”翁家翌写道。他发现,不管自己再努力,总有人在更高的位置上俯视他,不论是在信息学奥赛还是在文化课的学习中。大学前两年也是如此。英语学得不如室友,对一些听不懂的课程,常有人轻松过关。
“学会设定评价标准,不再随波逐流。”这是他的建议。进入大三后,翁家翌彻底改变了对自我的评价标准,重回初心。
他不再凭借 GPA、论文数量来评价自己,而更关注“无用”的但充满趣味的事,比如写代码。“在编写个人项目时,我觉得是在创造一件艺术品。”他对编程与开源项目的热爱也影响了他出国留学的决定。
每一次迎向新的站点——春招、秋招、博士申请、国内找实习岗位——他始终乐于分享自己的经历,无论是手握多份录用通知的明朗时光,还是博士申请遭遇“全聚德”的寂静阴云,每段经历都收获了高度关注。
现如今,翁家翌已发表33个回答,3篇文章,积累了超过2万关注者,获得近29000个点赞。这些数字,多少量化出他希望“用自身的力量帮助更多的人”的愿望。
在“你的 2022 秋招进展如何?”这个问题下,他分享了自己投递上百家公司申请时的经验,并在这篇近千赞的回答最后,写道“选择大于努力”。
如果没有在当前环境下作出的最佳决策,未曾参加信息学竞赛、选择强化学习、申请出国,并且坚持攻读博士学位,是否还有可能走到如今?
努力并不能弥补决策上的错误。Google 为何在 AI 上落后 OpenAI 这一大截?采访时他反问道,随即回答:“因为他们选择了一条不同的道路,与 OpenAI 并行。”
最近,有人问他:“有什么方式可以加入 OpenAI 从事研究?我认为这是更有效的途径,你能给我一些建议吗?”
他把曾取得高赞的回答链接转发给了提问者。
壮观的珊瑚礁是珊瑚虫们多年努力的结晶,虽然其占全球海床仅0.5%的面积,却是四分之一以上海洋生物的栖息地。
在知乎,科技领域的“知乎er”犹如渺小却神秘的珊瑚虫,借助提问、回答与关注,彼此交换着能量信息,周而复始,形成了一个更高级的系统,吸引着更多前沿科技的“生物”栖息,包括顶级科学家。
知乎战略副总裁、社区业务负责人张宁曾表示,站内从事科研与学习的人数达到544万,仅在科技互联网领域,每日图文生产量达2万多篇,众多领域的回答、文章和视频总数均超过100万篇。
自 ChatGPT 发布后,百度「文心一言」、GPT-4 发布及微软集成 AI 对话功能等一线事件迅速掀起热议,业内大咖纷纷跃入讨论。
3月28日,华裔数学家张益唐在知乎发出邀请:“我将应哈佛大学和欧洲几所大学的邀请,进行一次直播,主题为:解析数论中的非正序列和朗道-西格尔零点。”
如今回响,这一次,你又能再次听见号角的声音。
### 见解
这篇文章充分展现了在 ChatGPT 等 AI 技术快速发展的背景下,知乎如何成为一个知识共享与技术探索的重要平台。它强调了知识的互联互通与网络社群的力量,让不同领域的专家和研究人员能够在此碰撞出创新的火花。
在 AI 领域的竞争愈加激烈的今天,技术的更新迭代不仅仅体现在具体的产品上,更关乎研究者之间的思想交流与协作。无论是对技术的追求,还是对伦理的关注,这样的探讨都在推动着行业的进步。
此外,文章中的多位观点均指出,通过集体努力与协作,研究人员不仅能够取得成果,还能在技术上实现突破。在这个复杂的技术时代,持续分享经验和知识,互相学习的过程是不可或缺的。
总之,ChatGPT 的出现只是科技发展的一个缩影,背后是无数科研者和从业者探索、合作和创新的江湖。未来,继续保持这样的开放精神与探索态度,无疑是推动科技持续进步和应用的关键。