再谈「降本」:看懂2024年CTO们的新主线发表时间:2024-05-23 11:16 如果说过去的几年时间里,包括互联网、金融、零售等更多赛道企业CTO们最核心的KPI是如何上云,如何将自身的业务系统和数据基于云端重构。 那么在如今的2024,这个KPI正在有更深一层的拆解,即在上云之后,如何上好云?如何做好兼顾成本、效能的云答卷?以及如何构建从IaaS层到PaaS层的适合企业数据表达的IT土壤? 作者|皮爷 出品|产业家 广州的春天,将夏未夏,连树木都带着湿意。但对总部在广州的国内某音视频头部企业的IT部门而言,这种天气显然并不“清凉”。 原因是伴随着企业的发展,其音视频的文件存储在原有存储方式的支撑下,投入成本正在越来越大,此外,固有的包括集中式存储、开源分布式存储等在灵活性等各方面也都出现不同程度的新挑战。 他们迫切需要一个新的服务器存储方案。 一个中国企业数字化的现状是,伴随企业规模的扩大和业务不断发展,企业在IT侧的成本正在飞速上涨,这些成本不单纯是硬性的服务器,也更有包括存储计算等一系列框架模型带来的IT损耗。 根据一组数字显示,根据不完全数据统计,在中国当下的存储市场,集中式存储占比仍然超过60%,这也意味着伴随着企业的成长壮大,为了保证业务正常进行,在固有的存储框架下,企业需要不断“堆”服务器,投入巨额IT成本。 这家音视频企业,就是荔枝FM。早在2020年1月,荔枝(原荔枝FM)就在纳斯达克挂牌上市 ,正式成为“中国在线音频行业第一股”。 在过去的多年时间里,尤其是大模型一日千里的当下,云上转型一直是各行各业企业的核心数字化命题,对这个命题的拆解有对IT基础设施的选择、数据库中间件等PaaS平台的选用,以及上层SaaS应用的搭建等等。荔枝FM也不例外。 但这种云端的数字化伴随着业务发展和公司规模的扩大,也更在出现各种问题。实际上,类似有荔枝FM这样需求的企业不再少数。 在过去的一两年里,尽管大模型成为TO B市场绝对的头部话题,市场和投资机构的关注点都在大模型的参数、落地、Agent等等标签信号,但在足够真实的企业场景中,企业CTO谈论最多的仍然是底层的架构,这些架构或是关于荔枝FM提出的计算存储,或是关于云原生、多云转型等等。 这些关于云计算的成本、技术、效能、稳定性的“严肃”话题相较于骤然出现的大模型,更在真实成为着企业内部数字化向前迈的掣肘。 如果说过去的几年时间里,包括互联网、金融、零售等更多赛道企业CTO们最核心的KPI是如何上云,如何将自身的业务系统和数据基于云端重构。那么在如今的2024,这个KPI正在有更深一层的拆解,即在上云之后,如何上好云?如何做好兼顾成本、效能的云答卷?以及如何构建从IaaS层到PaaS层的适合企业数据表达的IT土壤? 在AI大模型成为共识,发展呈烈火烹油之际,一个更应该被看见和讨论的云上命题恰是——2024年,CTO们都在关心什么?对业务,最真实的云计算水温到底是怎样的? 一 、“云计算”的业务时代:当再谈降本增效 实际上,在荔枝FM出现类似问题的前后,有另外两家泛互联网企业,也找到了京东云。 “也是在3、4月份,我们接触到了努比亚。”京东云华南区域解决方案负责人李祥告诉我们。 对于红魔手机的一个简单介绍是,其源自中兴通讯的创新品牌,过去多年里,凭借其在硬件性能、游戏优化、散热解决方案、续航能力、视觉效果及独特设计理念等方面的卓越表现,其已成为智能手机领域的佼佼者;而在之 前,红魔内部已经进行了基于公有云的转型。 但如今,为了实现数据的集中统一管控,在2023年,努比亚内部提出“云原生”的计划项目。“平台迁移绝非易事,红魔手机想通过云原生的方式构建数据‘一盘棋’,打通从底层资源到上层营销的全链路。” 但从成本和投入来看,这不是一件容易的事。根据李祥介绍,之前努比亚内部一直有使用公有云,但如今想要重新搭建云原生架构,需要花费很大的精力和成本,因为对于从固有的架构向云原生迁移,中间涉及到很多功能适配、调试、方案制定等等各种环节。 此外 ,由于是面向C端的业务,其在迁移过程中需要用到一些如数据库等PaaS层面的服务,对厂商的稳定性要求极高。 “尽管从技术层面看大家基本都能实现,但是在具体的方案包括成本等层面,努比亚还是有很多要求和考量的。” 李祥表示。 据了解,在整个努比亚的云原生需求里,有三块大的数据集需要进行迁移,分别是外围数据、业务核心数据以及企业内部的大数据系统,后两者对于技术和业务适配、部署都有同样高的要求。 但实际上,从行业层面来看,这种要求对不少云厂商而言是“有成本的”。即如果单纯的对企业进行容器化的云原生迁移和改造,整体技术层面市面上的云厂商基本都可以达到及格线,但一旦涉及到和具体业务的适配部署,由于不少云厂商不具备对应的部署能力,不论对努比亚还是服务商而言,这其中风险性是极高的。 “他们当时一直没找到合适的能够长期、稳定地进行业务测试和部署的云厂商,不论是PaaS,还是稳定性,以及长期的业务适配部署,都没特别合适的人选。” 京东云IaaS产品相关负责人赵新回忆道。 故事的脉络总是并行的。在京东云紧锣密鼓地为努比亚云原生献计献策的时候,另一个云计算的需求也在紧急找到京东云。 对方是国内知名气象服务企业——墨迹天气。 他们的需求很紧急,即由于国内天气的骤然变化,对应到墨迹天气的产品侧则是出现了峰值的用户访问频率,这种峰值的爆发对业务而言是“蜜糖”,但对墨迹天气的固有存储架构而言,则是一种挑战。 墨迹天气找到京东云团队的目的是更换固有的存储模式。对墨迹天气之前的存储模式的一个简单介绍是,在墨迹天气内部,数据大致可分为生产数据(热数据)和备份数据(冷数据),一直以来对冷数据的存储方式采取的是“三副本”存储,即一份数据会进行3次备份,以保护和防止数据的丢失,但这种模式对物理存储资源的消耗度极大,对企业而言则是需要投入大量的IT成本,性价比极低。 而在出现类似峰值访问量的时候,这种短板往往会成为问题的引爆点。 “他们同时想要一些运维层面的升级。” 京东云IaaS产品经理弯弯告诉我们,她是京东云负责墨迹天气的产品负责人,“从之前可能需要专业的运维,转成对前端更友好的运维模式,包括前端运维的UI、配置、使用难度等等。” 如果把视角放大,更能清晰感知到的是,不论是文章开篇提到的荔枝FM,还是努比亚、墨迹天气,对企业而言,如果说最早期的数字化难题是选择将数据搬上云端,那么如今的难题则是在逐步深化,即 如何为发展中的业务选择适合的云计算模式,这种模式还要足够智能,可以适配未来大模型的场景应用。 客观来看,中国企业的云端数字化转型正在进入业务深水区,即国内企业的云计算转型开端往往是无序和缺乏规划的,这种模式体现到企业的IT架构侧则是企业在最开始选择云计算服务商时会单纯的考虑云计算成本,而非从“数据—营销—表达”等全链路规划指标以及计算存储等更底层的设计出发,但如今伴随着业务的发展,固有的初始架构反而在成为企业发展的限制。 但对业务高速行进中的企业而言,找到一家能作为新业务底层支撑的云服务商不是一件容易的事,更可以理解为,这是一个集合成本、效能、稳定性、智能化的综合命题——即在前端业务不受影响的前提下,可以又快又好地帮助企业进行底层IT基础设施的替换重构,以及,其最好还能成为企业未来业务发展进化的核心底层驱动。 怎样做,才是最优解? 二 、京东云的“成本+效能”路径 “整个荔枝FM项目进展的非常快。”李祥告诉我们,“我们的架构师、技术开发人员一行十人拜访一周后,客户就决定开始测试。” 随后,后续的执行交付被迅速推进。截止到7月份,京东云为荔枝FM提供的基于云海的第一批一体机已经交付成功,而到了2023年年底,其基于海外业务的交付也基本都已完成。 “客户本身是在这个行业做了很多年的技术人,很懂技术,也很懂存储这方面的能力,他知道我们云海的存储模型和企业之前使用的集中式和开源分布式的不同。”李祥表示。 关于云海,它和传统的集中式和开源分布式存储不同之处在于,其本身采取的是存算分离架构,可以将计算和存储独立解耦,不再像传统的存储模型一样有固定配比,在不影响性能,甚至提高性能的基础上,帮助企业实现整体的算力资源利用率。 不仅如此,尽管在荔枝FM的项目中京东云交付的是一体机模式,但对于企业之前的服务器,同样可以进行纳管,即基于软件将其算力进行统一集中调度使用,进而帮助企业构建出新式的、最具性价比的存储计算模型。 “我们觉得客户选择我们的主要原因是性能,目前市面上不少云厂商提供的方案都是基于开源框架的存储方案,其本身可控性和稳定性没有那么强,对企业而言,在存储这种核心的底层IT设施里,必须要绝对可控安全。”李祥告诉我们。 实际上,这种性能的另一种更本质的理解是成本。据了解,荔枝FM的存储需求是全面替代,即其不仅在分布式存储使用京东云的云海产品,在块存储等更前端的数据模块也在同样使用云海,相较于之前如三副本存储的模式,京东云基于云海架构可以帮助其构建出1.5副本甚至1.1副本的存储架构(简单理解,之前需要3台服务器,现在只需要1.5台服务器),变相为其节省超过30%以上的成本。 这种技术层面的“节省”也更在墨迹天气的解决方案里出现。 在这个和墨迹天气的故事里,京东云为其提供的方案同样是基于云海的一体机交付方式,帮助其从最开始的三副本存储通过低冗余的技术,降低至1.14副本的存储模式,此外,同样提 供面向固有服务器资产的软件纳管服务。 “整体的交付一共花了2个月的时间。”弯弯告诉我们,“从最开始的服务器采购到后期进行软件的适配、调配等等,整体的交付速度很快。” 但和荔枝FM不同的是,在墨迹天气的项目交付上,京东云还专门为其进行了后期运维侧的培训和指导,即客户在完成最终的产品性能验证后,京东云派出专门的技术工程师帮助运维人员强化对产品的使用。 从行业视角来看,运维一直是企业内部的一大难题,即在固有的集中式和开源分布式存储的架构设计中,由于底层框架和业务的不完全兼容,导致企业往往需要花费大人力、物力进行特定的运营维护,对企业而言是一笔必须支出的大成本。 但基于京东云的云海架构,其运维动作被简化成一个前端的简易UI操作,企业由之前的重运维模式转为轻运维甚至“零运维”的状态,在底层IT能力升级的基础上,流程也更被升级降本。 而如果说云海是京东云在存储方面能够给企业带来的惊喜,那么对努比亚而言,其在京东云上的感知,则更多的是技术上的专业和适配。 实际上,努比亚和京东云的合作早在之前就已经开始,双方基于营销等领域开展了一系列合作,而这也恰是在这次的“云原生”项目中选择京东云的原因。 “一方面,客户也能看到京东云在容器、k8s等方面的能力,以及在零售等类似业务方面的技术展现,另一方面,基于京东云进行云原生的迁移,可以帮助企业实现从底层数据到上层营销的‘一盘棋’设计。”赵新表示。 更准确的说法是,作为全球彻底容器化的云平台之一,京东云拥有全球最大规模的Docker集群和Kubernetes集群,这也保证了在和努比亚的合作中,一系列包括单节点多业务部署、特殊业务的网络隔离、多业务迁移等更专业的需求被一一满足。 此外,给努比亚带来惊喜的不仅是京东云的云原生方案,在其PaaS层的数据库、中间件等多个能力模块,京东云都可以帮助其进行专业的容器框架对接,进而构建全部的一体化IT基础设施,保证数据从底层存储计算到上层表达的一致性和连贯性。 这种惊喜对应的是对不少国内企业而言,其数据库更多的都是自身搭建,或者基于某些开源数据库的框架进行构建,其很难和云原生的容器架构配合兼容,工程调配周期和难度都非常大。而对京东云而言,其提供的是一整套从IaaS到PaaS的全链条方案能力,可以大大帮助企业降低门槛。 从客户选型的角度来看,京东云都会成为最终的选择对象。根据京东云相关人员介绍,不论是努比亚还是墨迹天气,尽管在POC测试阶段有不少国内的主要云厂商,但经过稳定性、兼容性等多方面测试后,京东云往往会成为客户的首选。 努比亚的CTO曾一度表示,对努比亚而言,他们看重的不仅是IT基础设施的采购成本,也就是直接成本;更重要的考量则是后续的间接成本,比如运维,比如系统的稳定性和兼容性,比如系统的容灾多活,自动恢复等核心能力。 “直接成本固然重要,但这些间接成本也更是企业CTO们更看重的要素。” 李祥告诉我们。 三 、2024年,我们应该如何理解云计算? 把时间线拉回京东。在2024年1月份,京东云内部正在经历一场从未有过的挑战——承接春晚流量。 挑战的难点不单纯在春晚本身的大流量,更在京东云团队给自己定下的指标—相较于虎年春晚,综合成本要降低50%。 更拆解来看,即是在确保观众互动体验的前提下,如何通过先进技术把IT成本降下来,压榨产品性能极限,精打细算使用资源,从“拼多”到“拼少”,进行极限挑战。 结果不言而喻。在春晚洪峰的冲击下,京东云扛住了全部流量,实现整体的平稳运行,并且从现在来看,春晚也更成为了京东云的一个典型对外标杆。 在其中发挥作用的正是前面努比亚、荔枝FM、墨迹天气等企业使用的京东云产品,如存算分离的云海产品,算力调度平台云舰,面向虚拟化技术的产品京刚,以及最核心的底层 亚洲最大的容器化、Kubernetes运算集群。 这些产品都构成了春晚这个全球最大也是最透明战场上的京东云的最强武器。“不仅春晚,其实包括云海、云舰等产品都是每一年京东扛过618,以及平常数以亿计的电商场景的底层。” 实际上,这也是包括努比亚、墨迹天气等企业出现云计算问题首要会想到京东云的原因之一。即作为中国最大的自营电商,京东云已经用京东零售、物流、电商、供应链等无数场真实的场景写出了一个最亮眼的“云计算产品说明书”。 这些也构成着企业对京东云的最初始印象。 而从具体的拆解来看,其各项能力的分子构成也恰成为着如今越来越多企业在面临业务难题时优先选择京东云的原因。 比如京东云全部技术都是自身自研,而非如市面上不少云厂商采用的是开源式框架,比如京东不仅可以提供一体机的服务,更可以提供软件纳管的方案,可以灵活地帮助企业进行全部算力的管理和调度,再比如在容器、k8s等模式设计上,其不仅重构的是底层,配套在PaaS层,都可以为企业提供全面的业务适配和兼容。 这些能力都在成为努比亚、墨迹天气、荔枝FM们最终选择京东云的原因。 从云计算的发展路线来看,伴随着企业在业务层面的不断发展和多元化,其对IT基础设施的要求更在逐步攀升,这些要求在存算分离、在实时计算、在多云多活、在容灾备份、在云原生全面容器化等等,每一个要求标签背后对应的都是业务正在遇见或即将遇到的难题和发展掣肘。 以及,伴随着如今AI大模型的出现,其对底层算力的调用和使用效率有了更高的要求,往往需要更彻底的云化调度和资源管理能力。如今京东正在参与多个企业的大模型项目,核心指标就是帮助企业又快又省又好地搭建出大模型产品,其对应到云计算侧则是对底层架构和技术的全面挑战。 可以说,云计算如今正在进入真正的下半场。从粗放式上云到精细化业务云时代,通过技术的手段更好地帮助企业释放基础设施的想象力,降低IT基础设施的综合成本;同时,也让搭载智能技术的基础设施,反向为大模型的产业落地孕育土壤。 对李祥、赵新和弯弯等一众京东云的团队而言,他们的感知则是更为明显。“在很多客户的选型里,我们相较于其他厂商可以提供更灵活的方案和更具技术底色的低成本方案,这也是客户所看重的优势。” 如今,努比亚的云原生项目正在向PaaS层延伸,努比亚CTO告诉他们,基于京东云数据库、中间件的项目也更会成为下一阶段的建设目标。 荔枝FM的全面替代方案还在持续推进。在国内第一阶段和海外项目交付的如今,一系列关于业务适配和后续从数据到营销的打通配合等“一盘棋”任务也更在进行,但是京东云已经成为他们的最核心云服务商。 而对墨迹天气而言,在京东云基于云海交付的一体机的加持下,其如今正在进行内部业务的梳理和迁移,前端的产品呈现和用户体验等也都在被迅速优化。 还不仅如此。科大讯飞、永辉超市、游卡等越来越多的企业在京东云上的进度条也都在持续推进。 2024年,无数企业CTO的旧故事都正在成为新故事,而新的云计算故事则也以更迅捷的速度时刻发生。对京东云而言,这是自己要走的路,也更是其要帮助无数云计算转型的企业,下一程要走的路。 技术全力降本,云端深化转型。 这是CTO们的真实命题,也更是京东云的发展命题。 *文中人名均为化名 |