新开普副总裁焦征海:云原生计算基础设施助力新开普创新提速[阿里云]
2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇举行,新开普副总裁焦征海在【云服务器 & 计算服务】专场中带来了题为《云原生计算基础设施助力新开普创新提速》的主题演讲,围绕新开普业务上云之路、倚天ECS实例降本实践以及未来业务展望等相关话题展开。以下是他的演讲内容整理,供阅览。图:新开普副总裁焦征海 今天和大家分享的是新开普的上云历程和实践。新开普是中国教育信息化领域的首家上市公司,以卓越的ICT服务,构建智慧校园、助力智慧企业、贡献智慧中国为使命,致力于成为世界级的数字产品方案服务商。一、新开普的上云之路1、了解新开普新开普是智慧校园综合解决方案领先企业,2000年成立,专注于智慧校园、智慧政企和智慧农水,提供软件应用与智能终端一体化的综合解决方案、产品与服务。在智慧校园领域,新开普服务了全国1300+家高校,高校市场份额达45%,是校园领域首个业务上云、规模化运营的企业,服务1000万+大学生;在智慧政企板块,新开普服务了全国10000+家企业,其中有70+家中国500强企业,是国内唯一服务了世界500强“全球一卡通”的企业;在智慧农水板块,新开普的智慧农业平台获得了中国上市公司协会颁发的“乡村振兴优秀实践案例奖”,智慧水务项目获得了河南省的省级标杆荣誉。(1)智慧校园智慧校园主要覆盖校园生活、校务管理和教务教学等场景,通过「线下中台 + 一卡通 + 教务 + 学工 + VR实训教学、线上完美校园」的混合云智慧校园解决方案,服务1300余所高校、64%的985高校,41%的211高校。在普教、中职领域,我们推出了省、市级区域性的智慧校园综合解决方案,打造区域性智慧校园管理平台。(2)智慧企业智慧政企主要是从政府机关和企业园区的智能安防、园区出入、行政办公、人员管理、后勤服务、生产信息化等维度作为入口助力企业数字化转型。在新开普服务的10000余家客户中,覆盖了中国500强企业的七大行业的头部企业客户。(3)智慧农水在智慧农水板块,分为智慧农业和智慧水务两大场景。在智慧农业场景中,主要覆盖农业生产的耕、种、管、收各个环节的软件应用系统和硬件终端设备,通过实时的农田环境、农作物长势、虫情病情等农情数据,依托大数据、云计算、人工智能技术建立智慧农业大数据智能分析与决策平台,实现水肥一体按需灌溉、病虫害精准防治,为农业生产的标准化、专业化和规模化提供技术保障,助力乡村振兴。在智慧水务板块,主要覆盖从水源源头到居民水龙头的全方位立体感知,依托于物联网技术、大数据技术和人工智能等技术实现智能调度、节能降耗、无人值守、少人值班、精准控漏、便民惠民,让群众喝上放心水;范县城乡供水一体化项目被树立为河南省标杆,被中央电视台、人民日报广为报道。新开普业务架构如下图所示:如上图所示,新开普一直以技术和产品创新驱动公司发展,是国家重点扶持的高新技术企业,软硬件一体化的数字产品解决方案、全系列的智能终端产品以及本地化的软件产品和云平台产品全部自主研发,在郑州、北京、上海、深圳等城市设立了7大研发中心,在全国100+ 个城市设立了本地化的服务机构,贴近客户零距离服务。2、上云历程新开普的上云历程,伴随着阿里云的成长及阿里云十年以来深度的技术支持,主要经历以下三个阶段:第一阶段,2013-2018年,该阶段依托于云服务的赋能助力企业数字化转型。业务上云、线下服务线上迁移,通过100+个SaaS服务覆盖1000多所高校,服务1000万+大学生,借助阿里云的弹性计算能力支撑日均200万+日活。第二阶段,2018-2022年,该阶段通过云原生提升业务的极致体验,满足业务规模快速增长之下的极致体验,通过云原生赋能达到了99.99%的无故障时长和秒级的扩容,有效保障了700万+的日交易笔数。第三阶段,2022年至今,该阶段核心是通过AI赋能业务创新,提升资源利用率实现降本增效。资源利用率提升路径从哪里着手最有效?首先要跟实际的场景结合。一个典型的业务场景:从物联网端到互联网端的“高并发、低延时”的短时集中交易场景。该交易场景的集中时段在中午,要在30分钟之内完成350万笔以上的支付交易,同时单笔交易必须在两秒以内完成,其跨越了本地的POS终端网络、云平台的网络、三方支付的网络以及手机移动网络。整个的交易链路环节要在两秒以内完成,跨越4个网络,所面临挑战非常大,留给业务系统的交易时长只有0.5秒。为保障0.5秒的交易限时以及集中交易的性能,我们的CPU资源使用率维持在相对低的水位,因此,提升算力资源性价比成为我们首选等优化路径?在阿里云技术专家的支持指导下,我们进行了倚天适配,实践证明可以通过倚天ECS实例实现有效降本。二、倚天ECS实例降本实践实践数据证明,在同等算力资源规格下,倚天ECS实例在业务稳定运行的资源利用率阈值接近X86服务器的两倍。算力性价比提升明显,达到了预期的降本目标。1、降本实践过程在倚天适配过程中,主要考虑以下四个维度的要素。第一,迁移之后整体的可靠性不受影响;第二个,用户体验不打折;第三,迁移成本和迁移工作量;第四,迁移之后的降本效果。通过以上各个要素分析,可以发现整个迁移过程中有几个关键的操作:首先,通过软件适配性分析JDK和操作系统,寻找适配最佳的运行环境变量;其次,进行功能和性能验证,通过功能验证业务的可用性以及代码改造的工作量,通过等比压测分析同等规格下主要业务场景的性能指标差异;最后,性能的调优和共创,依托于阿里云和平头哥的专家支持,进一步提升算力性价比。2、实践经验分享(1)经验一:使用阿里云Dragonwell JDK+龙蜥操作系统,可有效降低CPU使用率倚天ECS实例的适配过程中出现了CPU使用率高的情况。对于新开普的应用场景,原先使用CentOS7+OpenJDK8的环境,适配后采用阿里云Dragonwell JDK+龙蜥操作系统,CPU使用率降低至正常水平,代码几乎零改造。(2)经验二:单台ECS内存使用率虽提高,但性能提升明显在我们的业务场景下,适配后单台倚天ECS的内存使用率比X86高10%左右,这与降本的目标相悖。基于该情况,通过测试发现虽然单台倚天ECS的内存使用率增长了10%,但由于其性能提升明显,ECS总数减少,ECS数量下降带来整体的内存使用率反而下降了35%。(3)经验三:资源利用率提升的阈值与业务特性相关资源利用率提升的阈值与业务的特性相关。在新开普的“高并发、低延时”的短时集中交易场景,在业务稳定运行、阈值适配之后,资源使用率从30%提升到60%,增长了近50%,CPU核数降低了39%。3、实践成果适配的实践数据显示,实例数下降了39%,内存降低了35%,基本达到了通过算力性价比提升资源利用率实现降本增效的目标。三、未来展望未来AI如何赋能业务创新加速?目前,新开普正在借助大模型的能力提升数字人助手——完美校园小美同学的能力,当前试点了10所学校,每所学校每天大约有2000+ 的用户客服自动对话工作,准确率在85%左右。期望借助大模型能力提升QA自动生成和多轮对话的互动能力,进一步提升精确度和减少人工。另外,在创新交互场景上从师生的生活服务扩展到知识学习方面;也期望通过大模型的赋能将AI创新场景延展到公司智慧政企、智慧农业和智慧水利,借助大模型的能力打造农业小助手、企业BP小助手,助力新开普成为世界一流的数字产品解决方案服务商。