918博天堂(中国区)旗舰厅

关于918博天堂 产品中心 监控设备箱 智能一体化机箱 电源防雷箱 非标机箱机柜 智能运维终端 智能运维终端 工业级交换机 W6000 工业级交换机(4口) W6000 工业级交换机(8口) 数字设备 数字刻录仪/Digital Video Recorder 解决方案 新能源/电站防雷方案 石化矿业防雷方案 电力输送/交通运输防雷方案 通信广电防雷方案 数据中心/工厂防雷方案 搏天堂旗舰 工程实例 电力能源 石油石化 通信广电 交通运输 数据中心 车间建筑 新闻中心 企业资讯 技术文章 918博天堂(中国区)旗舰厅 联系我们

918搏天堂官方|二宫步美|实战 基于数智时代AI网络的创新与实践

918博天堂智慧     2025-02-11    

  在科技飞速发展的今天◈ღ,数智时代已来临◈ღ,数字与智能技术深度融合◈ღ,推动各领域数智化变革918搏天堂官方◈ღ。2024年初政府工作报告启动了“人工智能+”行动计划918搏天堂官方◈ღ,加快形成以人工智能为核心的新生产力◈ღ。同年7月◈ღ,二十届三中全会发布的《中共中央关于进一步全面深化改革二宫步美◈ღ、推进中国式现代化的决定》将人工智能列为八大战略性产业之一◈ღ,加速其产业发展◈ღ。国家金融监督管理总局也强调利用AI大模型助力金融机构降本增效◈ღ,加速数智化转型◈ღ。

  近年来◈ღ,以大模型为核心的AI技术取得显著进展◈ღ。以ChatGPT为代表的聊天机器人展示了强大的内容生成能力◈ღ,Sora的推出推动了多模态技术的发展◈ღ,而OpenAI O1的创新则提升了处理复杂推理任务的能力◈ღ,向通用人工智能迈进◈ღ。此外◈ღ,AI智能体架构及大模型的小型化二宫步美◈ღ、轻量化成为新方向◈ღ,尤其在银行业的数智化变革中发挥重要作用◈ღ,降低了AI技术的应用成本并拓宽了其在金融领域的覆盖面◈ღ。

  中国邮政储蓄银行提出“SPEEDS”科技战略◈ღ,构筑“邮储大脑”作为数智能力的核心基座◈ღ。2024年9月◈ღ,千卡算力资源池建成并投入使用◈ღ,具备支撑千亿模型训练◈ღ、微调及推理的能力◈ღ,目前包括研发代码生成大模型◈ღ、营销大模型◈ღ、运维大模型等场景已投入使用◈ღ。

  数智化是邮储银行金融科技发展的关键目标之一◈ღ,构建强大的数智底座至关重要◈ღ。作为连接各元素的桥梁◈ღ,网络必须先行规划和建设◈ღ,为全行数智化转型奠定基础◈ღ。

  从数字化到数智化的转变意味着服务能力与应用模式的升级◈ღ。推广的大模型需要具备训练与微调能力◈ღ,这要求网络能满足AI集群训练的通信需求◈ღ,确保各NPU间参数与数据的高速传输◈ღ,实现无拥塞◈ღ、高稳定及自优化的算网协同◈ღ。AI推理服务将广泛部署于数据中心◈ღ、分支网点及移动设备◈ღ,网络需支持全行统一的流量视图与调度◈ღ,确保AI能力全覆盖◈ღ。此外◈ღ,AI技术推动了网络的发展◈ღ,利用大模型提升服务水平◈ღ,降低运维成本◈ღ,能在复杂环境中实现多层次的安全防护◈ღ。

  网络技术与AI技术的融合正推动金融行业的数智化变革◈ღ。一方面◈ღ,需持续加强网络基础设施建设◈ღ,提供与AI新技术相匹配的服务能力◈ღ;另一方面◈ღ,AI技术为网络注入新活力◈ღ,通过智能体架构整合小模型及工具◈ღ,快速识别网络异常◈ღ,提高网络可靠性◈ღ,预测流量模式◈ღ,优化资源分配◈ღ,动态调整带宽◈ღ,满足变化需求◈ღ。

  邮储银行运营数据中心积极探索网络变革◈ღ,提前布局网络使能数智服务与AI赋能网络◈ღ,投产支持千卡规模大模型训练的高性能RoCE网络◈ღ,并上线的广域智能流量调度平台◈ღ,优化总分行间的智能互联◈ღ。同时◈ღ,邮储银行正开展联合创新◈ღ,构建运维大模型◈ღ,实现故障一键诊断◈ღ、智能网络运维助手及智能工单服务◈ღ,大幅提升运维效率和服务水平◈ღ。

  网络在AI训练中扮演核心角色◈ღ,与传统通算网络差异明显◈ღ。随着模型参数与数据量增加◈ღ,单机训练难以满足需求◈ღ,需采用分布式并行计算将数千节点高效协同◈ღ,通过数据或模型参数分片部署至多个NPU进行并行计算◈ღ,并在每次计算后进行参数协同◈ღ。“分布式并行计算+无拥塞网络”成为关键技术◈ღ,依赖高速支持RDMA的网络保证集群算力线性度◈ღ,确保无故障◈ღ、无局部拥塞◈ღ。AI大模型网络需具备高带宽◈ღ、低延迟特性◈ღ,以满足AI计算的集合通讯需求◈ღ,动态避免网络拥塞◈ღ,确保数据快速◈ღ、准确传输◈ღ。

  总之◈ღ,AI训练网络与服务器的NPU◈ღ、上层任务调度软件及集合通讯算法紧密配合◈ღ,需从组网方式◈ღ、算网协同和训练优化上进行一体化设计◈ღ,以提升训练效率◈ღ。此外◈ღ,网络还需支持云边协同◈ღ,实现AI推理在分支和终端设备上的部署◈ღ,使训练成果贴近用户侧◈ღ,提升效率和用户体验◈ღ。

  2024年9月◈ღ,邮储银行运营数据中心成功投产千卡AI训练集群◈ღ,保障千亿模型训练与百亿模型上线◈ღ。AI大模型训练涉及初始加载◈ღ、数据准备◈ღ、并行训练◈ღ、Checkpoint保存及模型发布等步骤◈ღ。

  业务◈ღ、管理和样本面网络采用TCP部署◈ღ;参数面网络需支持RDMA的高带宽无损网络◈ღ,确保计算节点间参数高效交换◈ღ。

  围绕大模型训练特点◈ღ,我行进行了RoCE网络的设计与建设◈ღ,重点考虑以下要求◈ღ:高速互联◈ღ,防止网络瓶颈导致训练失败◈ღ;无损网络保障RDMA访问性能◈ღ;动态负载均衡以满足多任务并发要求◈ღ,实现算力扩展◈ღ;从集群层面监控及运维◈ღ,确保断点续训的有效性(如图1所示)◈ღ。

  为保障高速互联◈ღ,我行参数面网络采用200G RoCE网络◈ღ,组网采用Spine-Leaf两层CLOS架构◈ღ,Leaf和Spine之间采用Fullmesh全连接◈ღ,具备万卡扩展能力◈ღ。服务器使用200GE接入Leaf交换机◈ღ,端到端收敛比为1:1◈ღ,提供无阻塞高带宽网络◈ღ,支持大模型高线性度并行训练◈ღ。

  训练网络与计算任务的协同及网络质量对集群性能影响重大◈ღ。例如◈ღ,175B的GPT-3模型训练时◈ღ,即便网络丢包率仅为千分之一◈ღ,GPU有效计算时间也会减少13%◈ღ。为此◈ღ,我行采用RoCE无损网络技术◈ღ,通过PFC(Priority Flow Control)机制进行流量控制◈ღ,确保数据中心内的数据转发不丢包◈ღ。PFC机制允许在同一以太网链路上创建8个虚拟通道◈ღ,并为每个通道分配不同优先级◈ღ,可以单独暂停和重启任一虚拟通道而不影响其他通道的数据流◈ღ。设备会在端口上的8个队列各自设置PFC门限值◈ღ,当队列缓存使用超过设定门限时◈ღ,设备向上游发送PFC反压通知◈ღ,指示上游停止发包◈ღ;当缓存降至门限值以下时◈ღ,再发送PFC反压停止报文◈ღ,通知上游恢复发包◈ღ,从而实现无丢包传输◈ღ。

  为了实现高效负载均衡◈ღ,采用了控制器网络调优算法◈ღ,实现动态路由和计算调度协同◈ღ,避免训练过程中局部拥塞◈ღ,确保大模型训练稳定快速完成◈ღ。随着AI集群规模和复杂度的增长◈ღ,故障概率增加◈ღ,导致训练中断的风险上升◈ღ。为此◈ღ,我行搭建了面向AI算力集群的运管系统(如图2所示)◈ღ,提供集群范围内的监控管理◈ღ,深入洞察算力分配情况918搏天堂官方◈ღ,并实时监测性能变化◈ღ。实现了跨域设备管理与NPU训练任务路径感知◈ღ,具备AI网络关键指标实时监控和预检查功能◈ღ,能够快速诊断和处理训练过程中的低效及中断情况◈ღ。不仅提高了集群的整体运行效率◈ღ,还增强了系统的可靠性◈ღ。

  在数智时代◈ღ,网络作为关键基础服务◈ღ,需高效安全地连接银行业务组件◈ღ,提供负载均衡◈ღ、路由◈ღ、解析等服务◈ღ,并遵循行业和内部规范进行安全设计◈ღ,控制故障影响范围◈ღ。随着AI训练及大规模推理部署◈ღ,新需求如RoCE网络◈ღ、云-边协同为网络服务带来挑战◈ღ,但也为网络技术注入新活力◈ღ。

  为应对邮储银行复杂的网络环境◈ღ,运营数据中心建设了链路监控及分析◈ღ、日志辅助分析等小模型及工具◈ღ,并自主研发了统一监控平台◈ღ、自动化平台和网络性能监控平台◈ღ。但随着网络规模扩展和分布式应用的普及◈ღ,网络领域仍面临诸多挑战◈ღ,特别是多厂商设备在使用◈ღ、管理和运维上存在差异◈ღ,导致网络优化割裂◈ღ,加之工具多样◈ღ、数据繁多◈ღ,对网络工程师提出了更高要求◈ღ。AI模型的学习能力为解决这些问题提供了新途径◈ღ,智能体架构促进了多种工具的协同工作◈ღ,提升了网络服务质量◈ღ。

  邮储银行的数智化变革以分布式应用架构与智能服务为主线◈ღ,网络服务至关重要◈ღ。在分布式架构下◈ღ,各服务组件需通过稳定◈ღ、多层次的网络实现聚合与安全防护◈ღ,并实现跨中心的多活以增强业务韧性◈ღ。AI智能服务中二宫步美◈ღ,大模型训练依赖高性能网络◈ღ,推理需将模型顺畅部署到业务前端◈ღ,并实现全生命周期管理◈ღ。智能化网络服务是数智时代的核心基础能力◈ღ,保障了数智化变革的成功◈ღ。

  邮储运营数据中心提前布局◈ღ,探索具有邮储特色的网络大模型◈ღ,利用大模型的泛化学习能力◈ღ,结合行内规范◈ღ、手册和应急经验◈ღ,实现故障影响分析与处置建议推荐等交互式运维场景◈ღ。同时◈ღ,基于网络大模型构建智能体◈ღ,具备智能故障诊断◈ღ、自动化修复及网络容量规划等能力◈ღ,逐步构建高度自主◈ღ、智能的运维平台◈ღ,降低运维成本◈ღ,提升效率◈ღ,缩短故障时间◈ღ,为业务增长提供强大支撑◈ღ。

  邮储网络运维大模型架构如图3所示◈ღ,以网络产品手册◈ღ、行内处置指南和处置案例为知识库◈ღ,以华为NCE平台◈ღ、行内统一监控平台◈ღ、一体化运维平台等平台为工具库◈ღ,将这些工具和知识作为大模型的输入◈ღ,实现网络服务从感知洞察到理解生成的转变◈ღ。

  为提高网络数据查询效率◈ღ,我行实现了跨平台数据整合与分析报告生成◈ღ,解决因多种内部工具导致的信息查询频繁切换问题918搏天堂官方◈ღ。利用大模型学习能力◈ღ,导入系统API的YAML建模文件◈ღ,自动生成语料并理解API◈ღ,快速适配工具对接◈ღ。目前已整合多个系统及其20余个API的数据◈ღ,生成超过4500条API问答语料◈ღ,实现全网信息有效查询(如图4所示)◈ღ。

  在此场景中◈ღ,网络运维大模型通过学习现有知识◈ღ,生成针对查询接口的小模型◈ღ,随着新工具引入◈ღ,小模型可动态调整◈ღ,持续进化◈ღ,降低大型网络的监控查询成本◈ღ。

  为降低网络运维的理解门槛◈ღ,我行将知识库导入大模型进行知识提取与总结二宫步美◈ღ,解决网络设备与厂商多样◈ღ、设备版本及命令各异的问题◈ღ,以及故障处理手册◈ღ、流程和合规文件繁多的情况◈ღ。大模型吸收现有的合规手册◈ღ、流程手册和故障处理手册等内容◈ღ,通过LLM+RAG大模型应用范式获取这些知识◈ღ,自动梳理并提取挖掘存储到知识向量库◈ღ,提供知识向量检索和问答能力◈ღ,支持多轮对话◈ღ。这大大降低了网络运维的知识门槛◈ღ,使专业知识更易获取和应用◈ღ,减少了掌握专业知识的难度◈ღ。

  通过智能体自动完成信息收集与推理◈ღ,生成故障处置工作流并推荐处置建议◈ღ,高效扩展自动化处置能力◈ღ。我行制定了故障应急处置流程◈ღ,并以应急卡片形式集成对应操作◈ღ,迅速应对特定故障◈ღ。但随着卡片数量增加◈ღ,定制开发的工作量与成本上升◈ღ。

  借鉴LLM+AI Agent的开发范式◈ღ,我行通过大模型读取行内故障应急手册◈ღ,利用AI进行知识提取◈ღ,自动生成故障处置工作流◈ღ,并通过AI Agent对接ITSM◈ღ、拨测等系统◈ღ,自动挖掘◈ღ、分析数据并做出决策◈ღ,实现故障处置自动化◈ღ。同时◈ღ,将应急卡片导入大模型◈ღ,使其自动学习故障处置经验◈ღ,使用自然语言大模型更新和迭代工作流程◈ღ,降低了开发与维护成本◈ღ。

  对于复杂场景◈ღ,我行利用AI大模型的长序列处理能力◈ღ,包含更多上下文信息◈ღ,满足多轮对话需求◈ღ,并集成知识图谱构建完整准确的知识网络◈ღ。复杂场景下的运维对大模型的语言生成质量◈ღ、泛化能力及多模态组合能力有较高要求◈ღ,这是我行未来工作的重点◈ღ。

  邮储银行作为国有大型商业银行918搏天堂官方◈ღ,坚持以金融科技构筑新质生产力◈ღ,紧跟大模型◈ღ、生成式AI◈ღ、通用人工智能技术趋势◈ღ,向新技术要效益◈ღ,向新要素要价值◈ღ。结合前期数智网络实践◈ღ,匹配行内SPEEDS科技战略◈ღ,邮储运营数据中心将在以下三个方面持续展开实践和探索◈ღ:

  首先◈ღ,我行将持续夯实人工智能AI基础设施建设◈ღ,由千卡集群规模扩容至三千卡规模◈ღ,满足全行业务应用需求◈ღ,探索云内网络与应用协同◈ღ,形成领先行业的高效AI集群◈ღ。

  其次◈ღ,我行将进一步扩展网络运维大模型覆盖范围◈ღ,由当前云数据中心向广域网扩展◈ღ,形成满足行内生产需求的高效运维平台◈ღ;同时◈ღ,在网络服务中应用更多大模型能力◈ღ,如自动化的运维脚本生成◈ღ,通过多模态文生图实现网络服务报表自动生成等◈ღ。

  最后◈ღ,网络安全领域有广泛的大模型应用空间◈ღ。数智时代银行的场景化服务上线速度快◈ღ,与用户◈ღ、生态伙伴◈ღ、同业的交互频繁◈ღ,网络安全问题更加突出◈ღ。通过AI智能手段◈ღ,可以更好地制定◈ღ、优化和执行网络安全策略二宫步美◈ღ,将安全网络边缘服务(SASE)在全网范围落实◈ღ,提升威胁检测准确性◈ღ,借助大模型的智能预测能力◈ღ,优化网络流量规划◈ღ,增强SASE对复杂网络环境的适应性◈ღ,提高整体网络安全与性能二宫步美◈ღ。918博天娱乐官网博天堂918国际厅◈ღ!918博天娱乐◈ღ,石油石化◈ღ,数据中心◈ღ,918博天堂官方网站◈ღ,数据中心/工厂防雷◈ღ,博天堂918◈ღ。



上一篇 : 918博天娱乐官网中光防雷2022年年度董事会经营评|小猪视频草莓视频|述
下一篇 : 搏天堂旗舰南旋控股(01982)附属与承建商订立建造合约|女人POOPING大便

918博天堂(中国区)旗舰厅| http://www.wlrblog.com
0755-2138 0067 http://www.wlrblog.com 918博天堂
 

首页 关于918博天堂 产品中心 解决方案 搏天堂旗舰 工程实例 新闻中心 918博天堂(中国区)旗舰厅 联系我们

Nav