春晚吹号:看不见的云计算,看得见的数实融合
“数智春节”战事
春节前的一个深夜,凌晨1点, 赵建星和团队开始压测。他们身处京东云舰底层容器研发组,为春晚红包项目提供最底层的资源基石保障。正常情况下,压测时间要持续到清晨五到六点。
当所有研发体系都已准备好,把流量切走之后再压测时,他们陆续收到报警。刚开始,团队一时摸不到头脑,已经做过多次压测,前面几次没问题,为什么这次却出现异常?大家开始变得焦虑。
一番检查之后,“真相”大白。原来,在十几天的压测过程中,京东云启动了一个“捣乱计划”,在事先不知情的情况下注入故障,以达到更加接近真实的春晚场景。总之,模拟各种故障场景,不断给系统施压,校验系统的抗压能力。
这只是京东在2022年“数智春节”战场上,充满硝烟味的一个战场侧面。
更大的战场在时间和空间上全面铺开:从除夕延续至正月,从春晚红包到年货节,京东实现了从线上数字界面到线下数字生活的全覆盖,保障着人们过好一个幸福年。
除夕夜,京东作为今年春晚独家互动合作伙伴,人们在京东APP“摇一摇”中分到了15亿红包和好物。数据显示,春晚当天,全球华人参与京东APP累计互动量达691亿次,同时超千万件优质农产品从广袤的乡村大地走向全国各个城市,“云上物流”、智能客服“奋战”在最前线,第一时间将年货送到千家万户,答疑解惑提供售后咨询等服务。
据介绍,从除夕到正月十五,京东物流全力保障全国超过300个城市、近1500个区县的消费者购物,即使是在除夕、大年初一,也可以正常下单收货。京东快递还在全国200多个城市提供全年不打烊寄递服务,全面满足消费者寄年货的需求。
高效交出“数智春节”保障成绩单的背后,京东面临的是史上最短春晚互动技术备战时间的高难度挑战。
只有短短19天,涉及到跨多个职场,100多个团队近万人研发的协同备战。其中,春晚互动项目有近600个需求要被快速拆分,3000多个任务要被有效跟踪,保证600多个上下游系统快速交付,数百万核资源快速扩缩容。
这场超大规模的研发协同作战、线上红包互动和线下“年货春运”的完美运作,不仅体现了京东云所独有的核心技术优势,其背后更折射出,整个中国云计算行业在近十年中发生的高速进化。
从拼资源到拼架构,从单一场景到数实融合——云计算发展已经走到了一道关键分水岭。而京东云参与的2022年“数智春节”,正揭开这一宏大进化的序幕。
2
从拼资源,到拼架构
2015年,央视春晚互动第一次向互联网公司抛出橄榄枝。这台全体中国人在除夕夜关注的晚会,要在当晚向十几亿人发出漫天红包。
春晚向来是中国人的集体潮流风向标,互联网公司不会错过这一良机。从2015年到2021年,腾讯、阿里、百度、快手、字节,依次接过春晚红包的接力棒。登上春晚红包的大屏幕,已然成为中国头部互联网公司骄傲挂在胸前的勋章。
但不是每一家公司都能完美承受背后的代价。春晚红包互动作为全球规模最大的网络互动活动,在数十秒内,累计有数十亿甚至数百亿人次参与互动点击,形成的巨大流量洪峰,让服务器处理数据的压力激增。
过去互联网公司们的惯例做法,是通过购买大量新增服务器解决算力问题,最巅峰的一年甚至准备了十几万台服务器。
但就在今年,一个关键变化悄然发生。
2022年春晚,京东云要挑战一件没有人做过的事:首次在服务器零增加的情况下,通过高效、精准、稳定的资源调度,既满足春晚红包互动的需求,同时满足购物交易的需求。
理论上可行,但难度极大。
如果京东云能完成这一挑战,那么就可能意味着云计算行业进入全新阶段——从拼资源变成拼架构。而完成挑战的核心,在于资源腾挪:首先把资源整个打通,然后在不同场景之间实现高效腾挪。
整个过程中,京东云面临两个巨大难题:第一,如何保证所有的研发敏捷协同,快速落地?第二,如何保证海量的流量下系统的稳定性和性能?
为应战第一个难题,京东云利用了数字化协作平台——行云。它是京东内部支撑几万人规模的研发协同开放平台,覆盖了从需求、开发、测试、发布、运维到运营的完整生命周期工具生态链,在以往多次大促和日常工作中已经发挥了重要的协同落地作用,内部已形成很多协作默契和协同规范。
从春晚项目立项的那一刻开始,京东核心备战人员就通过行云平台迅速了解春晚项目的战略地位,近万人对齐目标、规划、重大里程碑和交付物,确定各部门一号位、二号位。一场大战随即拉开序幕。
由于涉及到近万人的协同和协作,工具本身必须赋予组织协作方式的灵活多变性。
一方面,行云支撑无限层级的需求拆分,赋予每个团队自组织、自规划、自落地的敏捷迭代能力。另一方面,其低代码平台保障了简单高效的研发。不少运营的产品经理只需根据需求拖拉拽,就像搭积木一样搭建好楼层和活动元素,实现协同快速落地。
短短几天内,京东上万人就把春晚项目的600个需求消化完毕,完成功能研发上线,实现了京东有史以来规模最大、时间最短的研发协同项目。
针对第二个难题,京东云如何保证春晚洪峰来临时能扛住?
脱胎于京东全面容器化和大规模业务实践的业内首个混合云操作系统——云舰,在关键时刻扛起了重任。
云舰的底气来自于京东在云原生方面的实践。据了解,其已经在交通、零售、物流、能源等多个行业落地实践与应用,为包括北汽、达达、全棉时代、广西金达等众多行业客户提供服务。
比如京东云为北汽集团打造了专有的混合云平台底座,整合多个数据中心、私有云为集团一朵云,提供包括弹性计算、应用级安全监控智能、管理调度等丰富云产品,以及分布式HATP数据库、生产级缓存中间件、DevOps流水线、微服务治理平台等PaaS服务组件,满足生产制造等稳态业务的需求。
目前,京东云运营着全球最大规模的容器集群,是全球容器化最彻底的企业之一。这也是云舰实现资源超高弹性、快速变阵的关键所在。
当然,尽管技术储备已经足够完美,但面对“不能有任何闪失”的春晚互动,依然是云舰团队的巨大挑战。围绕着这个极限挑战,还需要全链路压测、常态化演练。
京东云接到春晚红包任务后,基本每两天做一次全链路压测,时刻为流量风险保驾护航。同时,京东基于实际生产业务场景和系统环境,模拟海量的用户请求和数据,对各种场景进行测试和验证,去发现瓶颈、去调优。
这一过程中,京东云春晚项目组技术中台负责人沈建林和团队碰到一个问题:1000次请求中会出现1次比较慢的情况。
问题处理起来相当棘手。首先它出现频率极低,其次只是偶尔出现,并不是每1000次访问就一定出现。无法复现问题,就无法解决问题,这让他们排查问题遇到了不少困难。
最终,他们通过全链路监控中的全代码行性能分析,抓住了那一行代码。原因在于某一台机器有一个不定期的定时任务,这个任务被调度时,就出现了和红包场景中瞬间CPU的竞争,导致用户请求可能会稍微慢一点。
这看起来是个小问题,但本质上体现的是技术标准的精度——你的精度能达到1%,还是0.1%? “在服务器不增加的前提下,我们要保证每一个用户都能快速抢到红包,从业务上要求非常高,每一行代码都要做到极致优化,这对我们团队来说挑战非常大。”沈建林说。
通过不断地技术练兵、团队协作、快速响应,京东云持续考验和优化自身的协同能力、响应能力,来提升和保障春晚全国观众的体验,最终实现了0.1%的高精度保障。
依靠多次的全链路压测和云原生数字基础设施——混合云操作系统云舰的灵活高效调度,京东云在央视春晚4小时的红包互动过程中,实现京东年货交易模式与春晚红包互动模式的16次秒级精准腾挪,在世界顶级流量及超级复杂场景下,挑战极限资源不同场景的切换。
这是行业首次依靠资源切换,实现超大规模的计算资源变阵的实践。
19天技术筹备,秒级超大规模资源切换,上万研发工程师高效协同……春晚互动方案和保障方案的快速落地,是京东云积木化IT思维的集中体现。借助这种能力,京东云得以快速通过积木拆解和重组的方式搭建基础设施,实现业务快速研发与部署。
通过顺利完成春晚作战任务,京东云实现了“四宗最”:技术备战时间史上最短;互动活动史上最长;世界上规模最大的网络互动活动;全球最复杂场景。这是数字新基建的中国速度。
3
从单一场景,到数实融合
春节是14亿中国人无法割舍的文化血脉。这一盛大节日催生了关乎国计民生的春运、关乎全球华人在同一个时间节点情感集中表达的集体行动。
随着时代发展,数字化技术在其中扮演的保障角色越发重要。“数智春节”不断演进,2022年的春晚舞台则折射出云计算产业进化的第二个新特征——从单一场景到数实融合。
2014年,央视春晚首次采用云计算。以往为了应对春晚直播流量激增,从立项、采购到实施等整个自建服务器项目约需3个月。用了云计算之后,只需要两三天就可以把所有的底层设施全配好,灵活快速地应对春晚当天的流量变化。另一方面,从整体投入上来讲,还比以前的花费至少节省了90%。
可以说,2014年云计算为春晚带来的“降本增效”,为中国云计算登上春晚的历史舞台写下了一个注脚。随后的几届春晚,成为一众互联网公司秀出云实力的舞台,春晚因此也成为中国云计算的“试金石”。
彼时,大部分互联网企业均采用相对传统方式,加码服务器去做活动准备和支撑,目标只是扛下“红包互动”这一流量洪峰。而虎年春晚,这种场景发生了剧变——已经从红包互动,真正转向线上线下的融合,不仅仅要打造“丝滑”的红包互动体验,更是将春节场景下的数实融合推向了新高度——
京东云首次打通线上线下场景,实现“线上+线下”的联动;春晚红包的流量洪峰叠加京东“年货春运”中零售和物流等整体供应链履约,堪称世界级庞大而复杂的供应链应用场景。
最终,京东云成功实现了春晚互动模式与“年货春运”模式之间16次无缝切换,护航用户流畅红包互动的同时,畅享年货云上购物体验。
京东消费趋势显示,仅在除夕当天春晚开始4小时内,小米品牌成交额即破亿,安踏中国冰雪系列产品京东搜索量增长4倍,宝路狗粮销售额同比增长12倍。与此同时,京东年货节期间卖向海外的国货销量同比增长4.5倍,海外华人购买小老虎毛绒玩具、虎年春联等与“虎”有关的商品同比增幅超过12倍……
由河南驼人集团独家赞助提供的2022央视春晚口罩当晚在京东同步开售,从春晚开播起至24时,“春晚同款口罩”搜索用户数超过72万人次。驼人集团董事长王国胜表示:“我们非常荣幸与京东合作,用最快的速度让大家第一时间戴上春晚同款口罩,开启欢乐、美好、吉祥的新年!”
有业内人士指出,京东“春节战事”背后蕴含着节日消费市场的火热趋势,也揭示出作为一家兼具实体企业属性和数字技术能力的新型实体企业,激发消费活力、加速产销循环、推动数字技术与实体经济深度融合的价值。
为什么京东云能做成这样一场史无前例的“数智春节”,在数字与实体经济融合上走在了前列?
首先,在于核心技术优势。在底层技术上支持春晚红包发放的京东云,是在京东自身海量业务、核心业务全量上云的超常规发展下,诞生的一朵“云”。它从供应链中走来,从而可以在技术底座上实现对京东“年货春运”春节24小时不打烊的全链路保障,从前端的订单、结算、支付等,到后端的仓储配送的全渠道履约。
其次,在于专业人才配置。京东云在技术领域执着深入,培养出一大批善于长跑的技术工程师们,很多技术项目经历了10年以上的持续研发和优化,打磨出真正卓越的技术成果。
数据显示,从2017年初全面向技术转型以来,整个京东体系已在技术上累计投入近750亿,其中96%的成本和费用用于实体经济领域技术等的投入。这两个数据,正呼应着“不断做强经济基础,增强科技创新能力”、“提升制造业核心竞争力”以及“加快数字化改造,促进传统产业升级”。
再次,在于丰富的实践经验。京东云依托多年来应对自身6.18和11.11的常态化备战,以全栈式的数智化技术连接着近1000万种京东自营商品SKU及其背后几十万的品牌商和制造企业,服务超过5.5亿消费者,沉淀了丰富的经验。
与此同时,这些经验已经对外输出,在不同场景得到更大的沉淀——在政府服务领域,京东云已经建立了70个城市云服务基地,提供智能城市数字化平台和政务数字化服务;在金融机构服务领域为800多家各类金融机构提供数字化服务的综合解决方案;在企业服务领域为1500多家大型企业、超150万家中小微企业提供数字化解决方案,帮助企业实现数智化转型。
此次备战春晚,京东云的技术积累、丰富的实践经验和系列运营保障机制发挥了关键作用。
4
结语:产业的一场持久战正等着京东云
近十年,伴随着数字生产力的高速发展,我们亲眼见证了春节在新时代的演变历程:从开始探索春晚红包互动的无人区,到技术日益成熟平稳保障;从拼资源,到更高效敏捷的系统架构;从互联网厂商主导的流量角逐,到新型实体企业推动的数实融合。
这一转变过程,背后是中国云计算产业的持续创新和演进——从“上云”到“用好云”,并进入到数实融合为主旋律的分水岭阶段。
万众瞩目的中国春节,是中国数字经济发展与崛起的缩影。“数智春节”见证了消费互联网的兴起和更迭,见证了产业互联网进入数实融合的新阶段,春节舞台上也将迎来越来越多的新型实体企业的身影。
据京东云有关负责人介绍,作为“更懂产业的云”, 京东云除了带来自身业绩的快速增长之外,将携带众多品牌商共同登上“数智”的舞台,携手演绎数实融合的新增长力量。