智算中心元年:如何理解“AI工厂”发表时间:2024-03-14 15:24 在如今“智算”属性不足的大背景下,建设智算中心不单纯是一项资金游戏,更是一个思维观念、企业架构转化的新模型。 作者|思杭 编辑|皮爷 出品|产业家 过去12个月,英伟达市值飙升了238%。这已经算是商业史上的现象级事件。 成为热点的不止有英伟达,还有站在英伟达背后的“人物”黄仁勋。就像当年的马斯克一样,现在的黄仁勋几乎每次发言都是科技界的“头条”。 “AI工厂”便是黄仁勋近期频繁提到的词语。在2月的英伟达2024财年第四季度财报电话会上,黄仁勋将一种专注于AI生成的新型数据中心定义为“AI工厂”。其中,为AI工厂输送“能源”的正是让英伟达市值上涨万亿美元的GPU芯片。 而黄仁勋口中新型的数据中心“AI工厂”也正是国内近两年异常火热的智算中心。 那么,究竟什么是智算中心?以及,黄仁勋口中的AI工厂到底是什么? 简单来理解,智算中心就是为如今的AI大模型、AI应用,以及未来所有的人工智能项目提供计算力的新型“发电厂”。它是专为AI而生的。 与传统计算中心不同的是,智算中心所需要的算力是由GPU提供,而前者则是由CPU提供。在过去,GPU的用处则更多是在游戏行业,而到了今天的AI时代,GPU芯片则变成了一种“必需品”。 2023年10月前,阿里、腾讯、字节跳动、百度等国内大型科技公司都是从英伟达手里获取AI芯片。 但伴随着美国禁止英伟达等本土企业向中国出售A100/H100等AI芯片,这也一定程度上导致了国内的算力短缺。在过去的2023年,“缺卡”也更在成为一众大模型企业的普遍现状。 但实际上,早在之前,国内的AI算力军备竞赛早已打响。从国家启动“东数西算”工程开始,传统IT企业、云厂商和电信运营商就已经在紧锣密鼓地布局智算中心。 早在2022年已有相关动作。1月,商汤科技智能计算中心在上海市临港区启动运营;8月,阿里云张北超级智算中心在张家口张北县;9月,百度智能云(盐城)智算中心在江苏省盐城市落地,以及包括华为晟腾系列、昆仑芯、寒武纪等越来越多中国厂商也都在2022年甚至之前已经在稳步布局。 在过去的一年中,智算中心的建设在中国大地上可谓如火如荼。 纵观2023年的整个算力产业发展上,在智算中心之外,AI芯片、AI服务器、数据训练中台等等,如今也更在成为云厂商、传统IT企业和电信运营商的一块兵家必争之地。 而在2024的今年,这些节奏更在进一步提速。智算中心,飞奔在路上。 一、2024,欢迎来到智算中心「元年」国家队的入场无疑是最引人注目的 。 2023年,超30座城市抢建智算中心。这是国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》中给出的一组数据。 而2024年,智算中心则更是迎来它的“元年”。 在刚刚结束的两会,一个产业界最关注的话题便是,政府工作报告提出开展“人工智能+”行动。而在这其中,据《证券日报》的记者了解到,不少企业界人士都认为,“人工智能+算力基础”会率先“动起来”。 事实也的确如此。从2024年初开始盘点:1月8日,中国移动智算中心(武汉)在武汉未来科技城开放运营,预计成为华中地区规模最大的智算中心;1月22日,上海电信在上海点亮“大规模算力集群暨人工智能公共算力服务平台”,预计成为国内首个超大规模国产算力液冷集群;1月30日,中国联通人工智能创新中心成立仪式在京举行。 此外,北电数智承建的北京数字经济算力中心达产后将实现1000P智能算力供给。 从中可以看到一个明显的信号,包括互联网厂商、通信厂商、电信运营商在内的一众企业都正在加大力度建设智算中心。 判定算力资源的最直观指标便是看服务器规模。后者规模越大,前者算力资源就更多。 而在2024年初中国移动发布的一份供应商信息核查公告中透露,2024年~2025年,中国移动将采购特定场景AI训练服务器6000台。如果按照中国移动《2023年至2024年新型智算中心(试验网)招标》中第12个标包——1250台(包括风冷和液冷)中标价24.7亿元粗略估算,这笔投资将超过120亿元。 实际上,与电信运营商相比,云厂商和传统IT企业的投入其实占比更大。 国际数据公司IDC的一位中国分析师对《财经》记者表示,从服务器采购量占比来看,互联网云厂商等科技公司占比约40%,电信运营商占比超过15%,数据中心服务商、地方大数据产业园以及其他IT服务公司占比约10%。 实际上,再往前追溯,在这种强投入的背景下,互联网云厂商则在更早之前已经便开始投入到智能计算当中。从一组云厂商的动态中即可窥见出这一趋势:
这种对于智能计算的强调对大模型厂商而言也更是自然趋势。此外,在如今国外GPU芯片困难的背景下,互联网厂商和传统IT企业也都在加速“追赶”,力争自研能应用于AI大模型及其他AI应用的芯片。比如华为的昇腾、阿里巴巴的含光和百度的昆仑等等。 而在AI服务器的供应上,这部分的市场份额目前主要还在传统IT企业手中。 据IDC数据,2022年中国AI服务器市场(按销售额),浪潮以46.6%份额占据首位,新华三、宁畅分别以11%和9%占据第二、第三名。 在如此AI算力军备竞赛打响的背后,实际上隐藏起来的是如今国内巨大的算力缺口。 据不完全统计,过去一年单单是中国大模型创新企业就超过250家,而中国更是凝聚了1070万名开发者,服务23.5万家企事业单位。更不用说,伴随着如今的产业落地,这种需求更将会加速涌现。 首次提出“智算中心”的浪潮认为,未来人工智能计算需求占比将在80%以上。而且未来对一个大模型训练所需的算力,可能每3~4个月就翻一番,这意味着一年就要增加10倍。阿里云智能解决方案首席架构师郑海超也曾公开提到,大模型带来的算力需求为每两年275倍的增长。 在如此巨大的算力缺口下,智算中心在国内的大规模建设也成为了一种必然。 而对于像“智算中心”这种基础设施而言,政策的推动则起到了加速的作用。2017年,《新一代人工智能发展规划》提出“建立人工智能超级计算中心”,自此智算中心也被提高到国家战略的高度。 从2020年开始至今,智算中心更是多次出现在“十四五”报告、新型数据中心发展三年行动计划、数字中国建设整体布局规划等等白皮书中。战略地位被一再提高,直到2024年3月的两会上,“人工智能+”行动被写入政府工作报告,相关产业都将得到高度重视。 根据IDC圈不完全统计,截至2023年底,全国带有“智算中心”的项目有128个,其中83个项目有规模 披露,超过7.7万P。 这也正是企业与国家队共同努力得到的一份成绩单。 然而,在传统IT厂商、云厂商和电信运营商“抢建”智算中心的当下,一些问题也正 在被看见。 二、建一个智算中心,难在哪?2024年哈尔滨平房区批复了4.6亿元的哈投智算中心;2023年长春公布了4.8亿元长春新区智算中心的建设计划,青岛市公布了17.7亿元的元宇宙智慧算力中心建设计划,南昌市公布了4.5亿元的江西人工智能计算中心建设计划。 地方城市正在市场和政策的驱动下积极响应,投入建设智算中心。 然而,这种异常高涨的热情背后,对应的并非是实际的算力需求。一方面,据《财经》了解,一些城市投资智算中心的逻辑是,希望以此扩大基建、招商引资、吸纳人才,推 动本地产业升级。很多地方政府还会为企业发放算力券,进行市场补贴。 而在没有合理规划和试验的情况下,盲目建设智算中心的行为则会导致极大的资源浪费。 全国政协委员、中科院计算所研究员张云泉也在《算力经济发展趋势分析与展望》中分析道,“有些地方只是为了追求排名、追求规模效应,运营过程不透明、缺乏监管,建成之后发现需求不足,没有大的应用,出现了很多智算中心直接空转、关机的现象,造成很大浪费。” 实际上,建一个智算中心需要更为合理的规划和实验验证。对此,张云泉给到的第一点建议便是,“对新增建设类算力网工程技术装置进行实验验证,在验证的基础上再放大。” 尤其是大型算力网的构建则更需要通过原型实验,进行严格论证。一个正常大型项目的逻辑是,在应用场景确定下来的基础上,再衡量项目建设的投入产出比。但如今在算力的架构、调度、测量、交易、安全技术等方面都尚不成熟。 严格意义上讲,目前国内的智算中心还并不能称之为真正的“智算”,在运营模式、服务等方面都还深受传统IDC行业影响。 北电数智首席战略官杨震告诉产业家,AI时代,企业需要的,除了能够精准匹配需求、极具性价比的智能算力服务,还要有端到端的人工智能全栈服务。 除了算力,企业应用人工智能还涉及数据、模型开发和调优、AI应用等多个环节。每个环节对于传统企业都存在技术门槛高、人才缺失、开发周期长等难题。据了解,北电数智的做法是联合生态伙伴提供底座大模型、丰富的行业垂直大模型、一栈式AI工具链,企业可以灵活调用各种能力,加工出所需要的AI应用;此外,其也围绕数据要素打造赋能工具,帮助拥有丰富数据的企业挖掘数据价值。 杨震告诉产业家,事实上,具有全智算属性的AIDC,是在提供从底层算力到顶层应用使能的全栈能力。在他看来,北电数智承建的北京数字经济算力中心就是在打造新型的AIDC,也就是黄仁勋说的“AI工厂”。 实际 上,智算中心与传统数据中心的区别一方面在于能够帮助AI企业提供AI算力;另一方面则在于改变运营方式。 而提供AI算力的前提除了需要AI芯片,更重要的则是如何发挥“平台”作用,为企业提供配套的算力服务。尤其是在如今的大模型时代,一个参数规模达千亿甚至万亿级的大模型, GPU卡的需求就高达数万张。 因此,于企业而言,“算力服务除了提供算力外,还要有底座大模型、丰富的行业垂直大模型、一栈式AI工具链等。而这些都是智算中心应该做到的。”杨震表示。 但从目前的智算中心建设情况来看,整体的现状是只注重“量”,而忽视“质”。在智算中心的华丽外壳下,却装着传统数据中心的“里子”。 此外,在如今智算中心占领高地的当下,一个更新的问题也在被放到台面上:传统IDC将如何转型? “过去,云厂商和传统IDC企业存在竞争关系,而未来将是互补,甚至是合作的关系。”在2月末的阿里云战略发布会上刘伟光曾公开表示。与此同时,AIDC企业北电数智也同样认为,传统IDC实现转型则要避免“单打独斗”,要和生态合作伙伴共同发挥各自优势,联合创新。 换言之,如果实现智算中心的“AI工厂”的平台价值,在算力之外,还需要关于数据的训练、标注以及后期的微调等等。能够预测的是,在2024年将会有越来越多围绕智算中心的生态出现。这里面不仅包括晟腾、寒武纪等芯片企业,更多的也恰是整个大模型生产链上的企业,比如标注企业、大模型isv开发者等等。 此外,从ChatGPT到Sora,大模型应用不仅仅带动了算力需求的爆发,能耗也在急剧增长。比如最近ChatGPT爆出日消耗电力超50万度,相当于美国家庭每天用电量的1.7万多倍。而在此背景下,智算中心的绿色节能也被提上日程。 这也恰是如今越来越多的智算中心开始选择液冷配置的原因。但相较于传统的水电模式,液冷需要的硬件配备以及对应的成本都将会更大,对不少算力规模较小的智算中心而言,这也更是一项难覆盖的成本。 但在单点上,国内企业也有突破。比如在2023中国算力大会期间,联想问天发布的AI大模型训练服务器便实现了相比同级别服务器功耗降低约10%,恰是基于液冷对服务器的加持。 不难看出,在种种难题下,不论其算力规模大小,智算中心的建设实际上都并非容易,一方面是如何实现技术突破,这些包括和芯片的兼容、适配等等,另一方面是如何打通生 态,开辟新的运营方式。 对智算中心而言,这不单纯是一项资金的游戏,更是一个思维观念、企业架构转化的新模型。 换句话说,这是一个基于AI时代的新IDC企业模型。如果要做好,在资金和技术之外,更要有兼容和共创。 三、算力,狂飙在大模型时代在越发强烈的市场需求下,行业本身的问题也更在加速浮现。 过去一年,ChatGPT发生过多次宕机事件,最长宕机时间甚至达到16小时21分钟。尽管OpenAI所用到的芯片都来自于全球生产GPU芯片最厉害的企业英伟达,但算力依然捉襟见肘。 从AI芯片的架构来分析,目前最为核心的架构是GPU、FPGA、ASIC。其中,GPU通用性较强,适合大规模并行计算,且设计及制造工艺较成熟,目前占据AI芯片市场的主要份额。 而FPGA则可以更好地解决当下AI时代所出现的暗硅效应,其中,暗硅效应(Dark Silicon)指由于芯片工艺和尺寸的限制,芯片上只有一小部分区域可以同时运行,其余的区域被闲置或关闭,这些闲置或关闭的区域被称为“暗硅”。 能看到的是,国内的大型科技企业都在尝试FPGA架构,如阿里、华为等等。 从全球范围来看,智算中心的军备竞赛早已拉响。首先是美国,斥资3000亿美元重点投资数据中心和智算中心;接下来是出资50亿欧元支持人工智能研究的德国。而在日本,NTT(日本电报电话公司)2023年宣布,未来5年内向人工智能、数据中心等领域投资590亿美元。另外,Meta甚至叫停部分在建数据中心,转而打造智算中心。 张云泉在《算力经济发展趋势分析与展望》中写道,“工业互联网、自动驾驶、全息通信等业务对网络时延、带宽和确定性等条件的要求远远高于消费互联网。如L3~L5级别的自动驾驶要求端到端的时延不超过3毫秒,而传统的集中式的云服务时延一般会超过50毫秒。在这样的情况下,把海量数据上传到云计算中心进行集中处理的模式难以为继。” 这些都将是算力狂飙的最直接需求。面对这些更为广泛的需求,圈内更多的观点是算力分布式理念。即从单一的CPU走向CPU、GPU、NPU、FPGA等多架构,进而满足需求。 未来,“算力会像水、电一样通用”。这是如今大模型时代里一个美好的畅想。 那么,今天距离这样的畅想还有多远? 二十年前,“十五计划”提出了电信网、互联网、有线电视网三网融合的概念。此后的八年一直到2008年北京奥运会,中国已经完全实现让居民接入高速宽带传输网络的愿景。 二十年后的今天,这样的场景也在重新上演。在如今的算力时代,“算网融合”被提升到重要位置,其主要模式恰是让居民和企业使用算力像使用网络一样方便、便捷。 想象一下在个人移动端,某天你可以在手机上办理“算力套餐”,直接购买算力,像现在购买流量一样;而在企业端也是如此,比如教育、能源、工业、交通等等领域都可以更廉价地购买算力。未来,随着智算中心的规模扩大、技术提升,以及算力订阅式、分布式的普及,有理由相信,这些都将会一一实 现。 按照这样的速度,“算力像水电一样通用”这样的畅想也许不需要第二个“八年”。 |