算力卡不住大模型的脖子|环球报资讯
2023-04-28 18:17:19 来源:旗舰

“ChatGPT的爆发确实早于我们的预期。”


(相关资料图)

ChatGPT问世之后,戴文渊和身边的同行们都迅速投入到了相关产品的研发中,一时间,围绕ChatGPT讨论最多的话题是:如何复现ChatGPT,以及围绕芯片算力的问题怎么解决,甚至是如果要实现一个AGI(通用人工智能,Artificial general intelligence),除了GPT还有没有别的方法。

虽然从2018年谷歌推出的上一代预训练语言模型BERT开始,戴文渊和他的第四范式已经在研究AI大模型了,但直到GPT-3出现时,整个产业界才作出判断:大模型将会到达一个举足轻重的位置。

作为国内最早一波AI产业逐浪者,第四范式创始人兼CEO戴文渊将ChatGPT形容为“横空出世”——这比他之前预想的时间节点要提前了一点。他清晰地记得6年前,AlphaGo给行业带来的震撼,并在采访中不断提及,GPT的进化速度比AlphaGo更加迅猛。

第四范式创始人兼CEO戴文渊

正在等待港交所IPO过会的第四范式,是国内为数不多的AI独角兽公司。其业务主要聚焦在B端市场的AI智能决策。今年2月底,第四范式在B端市场推出了聚焦企业软件开发和应用的大模型产品“式说”。

戴文渊坦言,虽然他们很早就开始研究BERT、GPT等AI大模型,但在GPT模型的商业化投入方面确实是追随者。“作为AI科学家,对GPT这样的技术我们肯定不能错过。但作为一名创业者,在三四年前,我还看不到基于GPT能力的商业化产出。”因此,多数AI公司或研究团队,在当年对GPT的态度都停留在“研究”而非“研发”。

AI从诞生的那一刻就是要提供“服务”的,其天生就具备商业属性。在大模型刚刚冒头的前几年,国内大模型研发的第一梯队中,也曾传出某公司CEO认为大模型看不到商业价值,差点把整个团队裁撤的流言。而像OpenAI这样执着于一款短期看不到商业价值的产品的公司,在成功之后自然也更具传奇色彩。

近日,在第四范式媒体开放日上,虎嗅与第四范式创始人兼CEO戴文渊进行了一次对话。以下是部分对话实录:

GPT爆发的速度比AlphaGo快得多

虎嗅:ChatGPT出现之后,许多AI从业者都进入了一种“应激反应”,他们或是在大模型里看到了重新创业的机会,或是在做新的布局。ChatGPT诞生,给你的刺激是什么?

戴文渊:业内有一些人是从BERT模型诞生就在关注大模型,直到GPT-3出现后,我们已经可以预见未来生成式预训练模型会有爆发的一天,但没想到会这么快。

ChatGPT出现之后,马上就建立了市场信心,这是ChatGPT给我们带来最大的帮助。从去年9、10月份时,很多人还认为生成式AI不靠谱,但ChatGPT出来了以后,整个市场就开始了从0到1的转变。再往后,很多人就开始推出产品,在市场上推动商业化路线了。

虎嗅:在ChatGPT爆发的这三个月当中,你和同行们都在讨论什么?

戴文渊:同行之间聊得更多的是技术,以及关于整个产业的问题。比如说如何复现一个GPT3.5?有没有可能做出GPT-4?以及算力的问题。到现在讨论得更多的是,我们如果要实现AGI,是不是一定要用GPT去实现,还有没有别的方法?

虎嗅:你的客户都在讨论什么?

戴文渊:在过去的几个月中,大家的认知都在迅速提升。去年12月问得最多的是“你听说过ChatGPT吗?”到今年2月,问的是“ChatGPT我们能不能应用它?”

在产业端,有些激进的人甚至还不知道ChatGPT能做什么,就已经迫切地要在业务中落地ChatGPT了,那个时候是“市场在等产品”。差不多到2月,公司就必须把产品做出来,因为客户都在等你。

这其实有点像当年的AlphaGo。AlphaGo刚出来的时候,市场也不知道它是什么,GPT这次的发展速度比AlphaGo快得多,AlphaGo出来后的一年,很多人都还是“我不知道它是什么,我只关心对我有没有用”的状态。

然而这次,这种状态只持续了一个多月。大家很快就知道GPT大概能做什么,并且每天都会发现GPT能做的事情比想象得多。这次AI爆发的速度比AlphaGo快得多,带来的机会也更多。

通用大模型不是通往AGI的唯一方法

虎嗅:近期,国内厂商密集发布大模型产品,各种大模型之间差别大吗?

戴文渊:不能说没有区别,但都是基于GPT做的。虽然中国目前没有OpenAI,但可能还会有更多的大模型。

对于我们自己来说,不是去对标OpenAI,也并不是说OpenAI能做什么我就一定要做什么。比如我们的大模型也有画画的能力,但在画画能力上超越OpenAI并不是我们所考虑的。我们更重视发展那些经过我们的思考和判断后,发掘出来的用户需要的能力。

虎嗅:国内厂商密集发布大模型背后,也陷入互相挖人的竞争中,要组建一个AI大模型团队,什么最重要?

戴文渊:我觉得从顶层去看这个问题的话,最重要的不是去竞争某个人或某几个人,而是有一群志同道合的人一起,这样的团队才会有战斗力。如果某个团队全是靠双倍工资挖来的人才,那他的战斗力可能也会比较有限。

如果一个团队有共同的愿景,共同的目标。那这些人其实是挖不走的。对我来说,打造团队最重要的是“认同”。大家能否认同我们正在做的事,以及你是不是特别想把这件事情做成。

虎嗅:算法、算力和数据,这三大要素你认为应该如何排序?

戴文渊:数据最重要,但是这个问题要辩证地来看,数据充分到一定的程度以后,再多就不一定那么重要了。比如说《红楼梦》看过一百遍了,再多看两遍也没那么重要了。

其次是算力。大模型在算力方面是有门槛的。但是对于大厂,或者有一定资金实力的AI公司来说,大家还是能做到这个“牌桌”前的。作为中国公司,我觉得算力需要考虑的问题是有没有国产替代方案。

最后是算法,虽然我认为算法未来可能会有改变,但目前来看Transformer在很长一段时间内是比较固定的。但模型结构会有一些变化,例如模型的稀疏化。

虎嗅:现在大模型训练很多用的都是英伟达的芯片,现在业界更多讨论的是没有英伟达之后呢?

戴文渊:一段时间以来,中国大多数GPU公司走的路线,是通过牺牲显存、网络带宽的方式来追求计算能力的提升,迫近或者超过英伟达。但是对于大模型来说,我们其实需要这三者(计算能力、显存、网络带宽)的折中,这是一个技术路线的问题。从追求极致的算力,调整为追求三者的平衡。目前可能还需要一点时间,这段时间里国产GPU的性能可能跟英伟达有差距,但这个差距可能比想象中小。

通常情况下如果CPU的性能相差2倍,那么软件运行速度就会慢2倍。但是GPU性能相差2倍,大模型的参数量不会缩小2倍,会少1倍多。导致的结果是假设我用了比你差2倍的GPU,我能跑1000亿参数,你可能能跑1000亿多一点的参数。但对于大模型来说,1万亿参数和1000亿参数有本质的区别,“1000亿”和“1000多亿”,其实感受不到本质的区别。

虎嗅:听下来,这三者里所以大模型最容易构筑壁垒的地方是数据吗?

戴文渊:这个问题首先要理解通用模型和专用模型,通用模型就是培养了一个大学生,等到他开始工作了,在某一个领域积累专业的知识与数据,当他在一个行业或领域钻得足够深,就是专用模型。

所以数据的壁垒更适用于在垂直行业和领域,你的数据充分了,别人的数据没有充分,就形成壁垒了。

行业和领域的概念也有所不同。比如Photoshop是一个领域,或者说OA(办公自动化)系统、CAD(计算机辅助设计)软件是一个领域,在这个领域的数据会形成壁垒。

如果你用AI改造了一个软件,那么这个软件逐渐会变成一个领域模型。不仅仅是软件,也是一个模型。

从某种角度来说,我们认为可以通过改造越来越多的领域来实现一体AGI的路线。当你把全部领域都改造完了以后,就形成了AGI。很难想象通过一个大模型最后把所有领域的问题都解决了,那样的话模型量就太夸张了,可能现在的计算体系架构下,要付出难以接受的代价。

To C不是大模型落地的最佳场景

虎嗅:B端和C端谁会更快落地大模型?

戴文渊:在我看来To C和To B各自有各自的机会,短期来看To B可能会落地更快。

因为To B软件在交互上更需要,也更容易升级。To C软件的用户体验经过十几年的打磨,已经逼近用户体验的上限,而B端的企业级软件往往要面对更加复杂的策略和执行,堆砌十几层菜单和成千上万的功能也不算多。

比如抖音,他作为一个短视频平台,用户的操作只需要向上滑就好了,改成对话的形式,体验说不定还下降了。反观B端软件,我和一个合作伙伴聊天时,他给我们展示所使用的软件,下拉菜单甚至已经超过了屏幕的大小。这就给升级创造了条件。

To C可能是在生产力方面更有价值,比如AIGC制图,影视加工这些。可能本来要请很多技术人员,现在可以用AI代替了,那你的成本就比别人低,效率更高,或者SKU(品类)更多,这是To C的机会。

虎嗅:第四范式的大模型产品,目前的开发、版本迭代情况如何?与其他大模型产品有何异同?

戴文渊:“式说”的定位是“基于多模态大模型底座的软件开发平台”,主要面对企业开发,与其他大模型一样具备语言能力,但是更偏向于基于AI大模型重构企业软件,也就是AIGS(AI-Generated Software)。

我们认为,如果你要实现一个功能,通过鼠标点菜单点三下才能完成的,那么这次操作的体验基本上不会比通过语音交互来实现更好。所以用新型的交互模式去替代老的交互模式,会使B端软件的体验获得一个很大的提升。

你可以回忆一下自己企业内的报销系统、HR系统、OA系统,我们公司现在的报销系统也挺难用的。但是你试想一下,如果你在报销过程可以用聊天的方式完成。

你说:“我要报销”,然后你把发票拍给软件,大模型识别这是餐厅发票。

它问:“跟谁吃饭了?”

你答:“跟张三吃饭了”

它说:“我接收了。”

结束。

这种体验显然比现在的报销系统要强得多,这是用户体验方面的提升。

另一方面是开发迭代周期的提升。原先是菜单式的功能和界面开发,每次升级都是几个月起。而现在新的交互模式,入口被一个万能对话框取代了,界面已经不重要了。ChatGPT每天都在提升,但是你感受不到它的界面发生了什么变化。

以前是界面层面的升级,现在是数据层面的升级。数据层面的升级都是以天计的,像抖音增加一个特效,也不需要改抖音的界面。

这么看就是用户体验也提升了,开发者体验也提升了。

虎嗅:第四范式的大模型里提到了思维链COT的概念,它在大模型中是以什么形式存在的?

戴文渊:我们日常用到的软件,都是由一个个功能组成的,但我们用软件去完成任务的时候,不只用到一个功能。比如Photoshop,你在Photoshop里调图片亮度,这是一个功能,调对比度,也是一个功能。但是如果你想“把照片P好看点”,它就不是一个功能了,而是通过一个个功能叠加实现的任务,最后按照顺序执行,实现“把照片P好看点”。

这个利用不同功能,一步步完成任务的过程,就是思维链COT(Chain of Thoughts),是一个多步推理的过程。COT相当于是大模型当中的数据。你可以把AI想象成一个每天站在软件使用者背后的人,每天就看他干什么,看多了也就学会了。“式说”就是在用户使用过程当中,让AI去收集他的思维链,以思维链为数据,然后再来做微调和反馈,从而形成AI能力。

基于大模型的思维链,就需要AI有很强的推理能力。虽然没有Photoshop软件的能力,但AI有操作的能力,所以即便AI没见过这个软件,也可以利用COT去学习它的使用方法。

虎嗅:我们通常去评价一个大模型产品好不好,是看效果,那么大模型的落地效果要怎么量化?

戴文渊:最明显的量化指标就是“降本增效”。我举一个B端的例子,比如原来IT部门去迭代一个软件,需要10个人开发半年,现在可能两个人开发两天就搞定了。不说最后效果,就开发效率提升这件事就非常直观。对于企业来说,同样的人力情况下,本来只能开发2个功能,现在可以开发200个功能。

虎嗅:你一直提到B端的应用,安全对于ToB产品来说特别重要。现在各国家和地区也都在提及ChatGPT产品对数据安全的威胁,AI大模型在训练、应用过程中,如何保障数据安全?

戴文渊:在今天这个时间节点上,数据安全最关键的,特别是敏感数据的私有化部署,这个东西暂时是绕不开的。可能在过去可以基于技术做一些数据的可信交换,但是现在不是把数据给你,是把数据给GPT。

我们现在也在研究一些基于GPT的可信的联合计算,比方说基于GPT的联邦学习。这样的方向,我觉得未来是可期的。

算力卡不住大模型的脖子|环球报资讯

2023-04-28

海澜之家一季度营收56.81亿元 同比增长9.02%

2023-04-28

“臻境盛启 悦鉴风华”| 御锦城新品实景展示区开放|全球速看

2023-04-28

天天热消息:从苏丹到沙特的三昼夜 一位中国公民的撤离之路

2023-04-28

贵阳高新区税务局:把脉问诊 服务高新技术企业发展 全球快播

2023-04-28

世界速讯:丁浩然和丁伟关系 丁浩然

2023-04-28

新资讯:全国最大直径圆形顶管首条自来水管道成功入廊通水

2023-04-28

欧派家居2023年一季度实现营业收入35.70亿元

2023-04-28

环球信息:e店宝现状_e店宝下载安装

2023-04-28

天天热点评!雨,继续下!天气,有点凉!

2023-04-28

高青县志_关于高青县志简述 每日速看

2023-04-28

讲武德的马保国,请我吃了一碗面-世界报道

2023-04-28

天天日报丨IDC:2022年中国自动驾驶开发平台市场增速达106%

2023-04-28

上海社保接入全国统筹系统后养老金会有变化吗?市人社局回应-全球热资讯

2023-04-28

全球速读:运营装机67.81GW!华润电力发布2022年度可持续发展报告

2023-04-28

传媒板块再度爆发,宝通科技等9股涨停,后市怎么走?_当前动态

2023-04-28

新加坡一季度房价环比上涨3.3% 房租环比上涨7.2%

2023-04-28

天天消息!大美非遗|河北廊坊:金漆彩绘再现宫廷技艺风采

2023-04-28

环球快讯:【科普中国】“五一”出行,这份交通安全提示请收好!

2023-04-28

【环球时快讯】ATP最新一期排名,鲁德超梅德韦杰夫,纳达尔再下滑

2023-04-28

2023年传统村落集中连片保护利用示范名单“出炉”

2023-04-28

【环球时快讯】中远海控:4月27日融资买入6629.34万元,融资融券余额48.09亿元

2023-04-28

每日简讯:wow卡蓝条怎么处理_wow卡蓝条

2023-04-28

广州市交通运输局预测:今日15时许市区开始拥堵 当前速递

2023-04-28

关于中国照明学会半导体照明技术与应用专业委员会委员征集的通知

2023-04-28

24岁女子疑过劳猝死,公司:她是自愿加班-全球今日讯

2023-04-28

工人评“教授” 职业“天花板”这样打破

2023-04-28

每日热闻!后疫情时代“越贵越买?” 华尔街预言最近几年奢侈品行业将加速复苏

2023-04-28

全球今头条!畅易阁天龙交易平台(天龙茶馆)

2023-04-27

瀚蓝环境最新公告:一季度净利同比增94.94% 环球速讯

2023-04-27

全球关注:盐湖股份一季度营收47.06亿元 实现归母净利22.25亿元

2023-04-27

14.1寸iPad要来了?传苹果开发特别版iPadOS 17系统

2023-04-27

全球热点!明日开馆!

2023-04-27

飞来的女婿完整版电影-飞来的女婿_世界热闻

2023-04-27

“五一”临近 广西各地特色民俗文化游引客来 环球实时

2023-04-27

人工智能赋能智慧城市 江岸区举行科技成果转化对接活动

2023-04-27

美国要求韩国芯片制造商禁止填补美国在华市场份额?商务部回应|世界报道

2023-04-27

天天动态:中国移动国际漫游怎么开通_中国移动国际漫游

2023-04-27

万众瞩目的英超天王山之战在伊蒂哈德球场开打

2023-04-27

速递!2023年武汉卫生健康工作重点

2023-04-27

当前热门:香蕉可不可以放冰箱里 香蕉适合放冰箱里储存吗

2023-04-27

汽车信息:全新梅赛德斯-AMG GT R黑色系列 后翼更大|天天热门

2023-04-27

重磅:佘学彬旗下的“大自然木业 Nature Wood”拟于美国纳斯达克IPO上市

2023-04-27

浙商证券:给予顺丰控股买入评级_全球热头条

2023-04-27

【财经分析】第一共和银行待“救援” 美国银行业危机继续发酵_世界热议

2023-04-27

消息称腾讯加大海外投资 在欧洲寻找值得收购的游戏工作室

2023-04-27

还在找补?拜登再谈《芯片和科学法》,两次说“不是为伤害中国而设计”

2023-04-27

天天观天下!五一“手机外卖”热,苏宁易购美团发1亿补贴

2023-04-27

观点:中国电力发展促进会集成电路专业委员会成立大会在京召开

2023-04-27

延吉:“五一”期间外地车辆轻微交通违法不予处罚

2023-04-27

4月27日 11:28分 全 聚 德(002186)股价快速拉升

2023-04-27

excel把单元格分成两个 excel单元格分成两半 环球简讯

2023-04-27

年轻患者突然“瘫痪”,警惕甲亢低钾_全球快讯

2023-04-27

今天起东北及南方地区降水增多 北方冷空气活跃气温震荡上升

2023-04-27

盗窃严重者最高判多久|全球球精选

2023-04-27

焦点简讯:*ST银河4月27日打开跌停

2023-04-27

三立期货4月27日早间内参——能化

2023-04-27

图解超达装备一季报:第一季度单季净利润同比增92.45%

2023-04-27

环球观焦点:卢谈伤病:勇士拿下水花或者太阳拿下KD布克 看看还能否赢球

2023-04-27

练八段锦三个月后发量增多?医生表示:有一定帮助,但不能解决所有脱发问题_焦点报道

2023-04-27

每日快播:山航官网网站 山航官网订票官网

2023-04-27

世界热门:支付宝借呗上征信报告_支付宝借呗上征信

2023-04-27

白云山(600332):4月26日北向资金增持32.01万股

2023-04-27

世界快消息!你印象最深的MSI!盘点7届MSI名场面,1557越看越快

2023-04-27

廊坊裕佳电热科技有限公司|环球热议

2023-04-26

股票行情快报:深物业B(200011)4月26日游资资金净买入6.65万元

2023-04-26

英国打响第一枪!微软“世纪收购案”被否决

2023-04-26

浦江金融论坛召集人徐明:中国资本市场已具备迈向成熟的条件_全球快资讯

2023-04-26

泰安银行获评2022山东财经风云榜“十大知名服务品牌” 环球观焦点

2023-04-26

檀明新_关于檀明新简述 世界热点

2023-04-26

朗特智能:公司未涉足ChatGPT领域,我们将密切关注相关技术的发展及应用

2023-04-26

招牌广告中的错别字怎么写 招牌广告中的错别字

2023-04-26

无障碍环境建设法(草案二次审议稿)公开征求意见

2023-04-26

4.52亿元资金今日流入公用事业股 世界头条

2023-04-26

煲机是什么意思呢_煲机是什么意思 全球热点

2023-04-26

全球今亮点!4月26日何氏眼科涨停分析:眼科,民营医院,互联网医疗概念热股

2023-04-26

全球速看:面对撂荒地 龙祥云果敢返乡创建中药材基地

2023-04-26

东方集团(600811)4月26日主力资金净买入51.73万元 环球报资讯

2023-04-26

华安证券:给予芒果超媒买入评级

2023-04-26

金逸影视:4月25日召开业绩说明会,投资者参与

2023-04-26

速讯:配置和动力有调整 风行T5 EVO狂飙版官图发布

2023-04-26

金羊网评:聚焦住房保障 用心托起百姓“安居梦”_今日热文

2023-04-26

炫是什么意思_炫是什么意思网络语

2023-04-26

股权继承包括什么 焦点日报

2023-04-26

低通胀不等于通货紧缩_世界热点评

2023-04-26

2023年4月26日山东省片碱价格最新行情预测

2023-04-26

天天要闻:韩国国立海洋博物馆藏精品文物图片展揭幕

2023-04-26

富力队主教练范布隆克霍斯特出席了媒体开放日 他介绍了球队的伤病情况

2023-04-26

微软2023财年第三财季营收529亿美元 智能云部门营收221亿美元

2023-04-26

瑞典采购新型装甲运兵车 世界快看

2023-04-26

全球热议:景嘉微(300474)4月25日主力资金净买入6042.93万元

2023-04-26

【天天播资讯】万润新能净利9.59亿增长172% 研发费猛增4倍推进技术迭代

2023-04-26

当前讯息:5月份,你工资卡里或多一笔钱

2023-04-26

为学校安全立法 全方位呵护成长

2023-04-26

陈梦好消息,德班世乒赛或是完成大满贯最后机会,刘国梁马琳期待

2023-04-26

贵州规划建设100个县域医疗次中心|全球今热点

2023-04-26

天天看热讯:男子花10万买梅西签名金球 被快递弄丢后赔90元?

2023-04-26

净夫人骗局被曝光?副作用大到可怕 - 微商项目百科_净夫人骗局

2023-04-26

今日395c是什么颜色(W395c怎么样)

2023-04-25

天天观天下!让自己美好_江苏中考满分作文600字 江西省中考满分作文:向

2023-04-25