你的位置:足交porn > 姐妹花 >
黑丝 千卡集群每年降本2000万!腾讯云推出AI Infra品牌
发布日期:2024-09-09 02:01    点击次数:115

黑丝 千卡集群每年降本2000万!腾讯云推出AI Infra品牌

作家 | 香草剪辑 | 李水青黑丝

智东西9月5日报说念,本日,腾讯云在腾讯群众数字生态大会上发布AI Infra(AI基础纪律)品牌“腾讯云智算”,将旗下高性能推测HCC、星脉网罗、AIGC云存储等单项家具才略整合,提供集算存网一体的高性能智算底座。

腾讯云智算目下已就业了90%的国内大模子头部用户,包括百川智能、智谱AI等。据腾讯公司副总裁、云与聪惠产业办事群COO兼腾讯云总裁邱跃鹏先容,腾讯云的集群千卡单日故障数是行业水平的1/3,数据读写成果是业界10倍,千卡集群通讯时分是业界一半。

在大会之前,智东西与少数媒体对话了腾讯云副总裁、云推测资深本事大众沙开波,深切换取了智算产业的阛阓趋势、本事难点等。

谈及AI对云推测的影响,沙开波合计长期来看,生成式AI的发展是具有笃定性的,大模子对智算产业来说是一块很大的增量,改日一定会有一个比较大的爆发节点。

之是以选拔在这时树立腾讯云智算的品牌,也与客户需求有很大的联系。另一方面,大模子推测、推理等场景对云基础纪律提议高条款,腾讯云算作惩办有策划提供方需要不断打磨家具才略,从而更好地解救这一类客户的业务需求。

一、集算存网一体,从斥地上架到启动锤真金不怕火仅1天

全体来看,腾讯云智算是一个集算、存、网于一体的高性能智算底座,整合了腾讯云高性能推测HCC、高性能网罗IHN星脉、高性能云存储、加快框架、容器、向量数据库、智算套件等家具,提供性能跳动、多芯兼容、机动部署的智算家具才略。

互联网企业、大模子厂商、腹地智算IDC、金融企业等是腾讯云智算现阶段的主要客户,具体到场景中除了公有云,还有特殊云、专有云的一些应用,其中大模子厂商是最主要的客户之一。

腾讯云智算在锤真金不怕火启动时效上大幅晋升,从斥地到位到运转锤真金不怕火,相较业界平均的30天时分削弱到仅1天。

在集群踏实性方面,腾讯云智算千卡单日故障卡数0.08,只须业界的1/6;数据读写成果上,Checkpoint团聚写入的峰值性达到业界10倍以上,1分钟就能完成万卡Checkpoint读写;网罗交换成果方面,通过就业器、网罗端、交换机和通讯库的全体自研优化,千卡集群的通讯时分占比为6%,是业界平均时分占比12%的一半。

▲腾讯云智算锤真金不怕火成果

跟着市面上的大模子参数不断增长,从百亿、千亿,逐步彭胀到万亿,模子锤真金不怕火对底层算力集群的条款也不断晋升。腾讯云是若何破解集群升级难点的?

沙开波谈说念,大范围推测集群的打造亦然腾讯云智算家具矩阵最思惩办的问题。其中,HCC高性能推测家具是成心用于高性能、踏实、大范围推测集群的构建,而若何将GPU等算力高效诓骗起来,则用到星脉网罗来提供卡之间的高效互联,模子锤真金不怕火过程中的Checkpoints高效读写对应的是高性能存储家具。

基于这些家具全体构建的推测存储网罗全栈惩办有策划,能力匡助客户达成大范围集群的高效诓骗。

二、4天训完万亿参数模子,网罗故障5分钟惩办

具体来看腾讯云智算的家具矩阵,包括高性能推测、网罗、存储家具,加快框架、向量数据库以及智算套件等。

视频专区

▲腾讯云智算惩办有策划

腾讯云HCC高性能推测集群发布于旧年4月,是行业最早发布的面向大模子锤真金不怕火、推理的算力集群。

HCC底层接受腾讯云自研星星海就业器,不错提供3.2T的超高互联带宽,算力性能比上一代晋升3倍。万亿参数的混元NLP大模子锤真金不怕火,最快4天就能锤真金不怕火完成。在踏实性方面,HCC千卡单日故障卡数为0.08,无中断锤真金不怕火时长达到300小时,是业界平均阛阓50小时的6倍。

腾讯云星脉网罗是其自研的高性能推测网罗IHN,解救超10万卡大范围组网、多型号异构GPU接入,网罗通讯成果比上一代晋升60%,大模子锤真金不怕火成果晋升20%。

星脉网罗具备高效的故障处理才略,在万卡集群下,网罗故障可达成1分钟发现,3分钟定位,5分钟惩办。

据沙开波先容,这是因为星脉网罗通过一些流量和拓扑的自动感知,进行流量替换中心的攻击,从而晋升统共网罗的糊涂,并在发现故障的时候迅速定位到是哪个链路出的问题,对链路进行攻击、额外处理,让统共锤真金不怕火不错不中断八成少中断。

腾讯云的AIGC云存储惩办有策划包括CFS Turbo、对象存储COS、数据加快器GooseFS以及数据处理CI等,针对AI大模子数据辘集清洗、锤真金不怕火、推理、数据智理全经由,提供全面高效的云存储解救,可将大模子的数据清洗和锤真金不怕火成果晋升一倍。

三、千卡集群每年降本2000万,助力传统企业AI转型

目下,腾讯云智算不错机动地解救公有云、特殊云以及溜达式云的输出,成为了国内90%头部大模子厂商的选拔,也匡助一大皆IDC厂商达成了AIDC转型。

沙开波解读了腾讯云智算具体的落地案例,公有云的一些大模子的客户在使用其竣工的智算惩办有策划后,一个千卡集群每年的资本比较曩昔传统的形式不错裁减2000万。

举例某社区电商的企业,在挑剔分析、图像分类等OCR、CV业务上应用腾讯云智算惩办有策划,在旧年下半年从国外的芯片更换成了腾讯云公有云上的国产芯片。在主要业务目的不变的前提下,只用了21天就完成了替换,其中两周操纵用来适配模子,一周操纵纠正推理框架,对不同芯片的适配终点高效机动。

▲腾讯云智算客户价值

在特殊云的落地上,腾讯云智算主要的客户是传统的IDC公司,它们原来具有机房、硬件、网罗上风,关联词短缺云、软件惩办有策划。

具体案例是,某传统IDC企业通过与腾讯云智算合营,组建新一代具备AI Infra基础才略的智算平台,并通过田户、计费经管等才略,为结尾用户提供一站式自主用云就业,达成到AIDC的转型。该客户还得到了本年的真确云大会用户最好扩充奖。

四、谈智算产业五大趋势,保合手兼容、绽放、公私一体

纵不雅统共智算产业,正处于快速发展的阶段,从产业范围、应用场景到本事编削皆在不断拓展。沙开波与咱们共享了腾讯云对改日趋势的办法,主要有五个层面。

领先是大模子的范围仍在合手续加多,这对AI Infra条款也越来越高,需要更大的算力集群,如安在更大集群下确保踏实性、应用性不错餍足条款是主要命题。

其次是多芯的才略。多芯一方面开始于供给端的挑战,需要AI Infra家具去适配各式芯片的才略,比如金融等行业的一些央国企会有国产化诉求,需要云厂商去兼容、适配国产化的芯片。

第三是目下全体AI应用,处于一个快速发展的阶段,在应用落地层面仍处于前期,改日可能会越来越快。从这个角度看,改日的推理比重可能也会迟缓加多。

第四是AI场景变得越来越平庸,许多行业还在探索的阶段。从腾讯云智算和许多客户的换取中,不错看出他们在这方面皆有很强的诉求,改日顺服会有一些编削的业务应用落地。

终末是对数据安全的需求横蛮。对许多国内企业来说,用于锤真金不怕火推理的业务数据,只可在我方的机房内部完成,这对家具才略的部署提议比较多诉求。

谈及腾讯云智算的全体策略标的,沙开波称腾讯云从ChatGPT出现后就一直在打磨家具,在原来的通用推测、云上去演进,让原有的云基础纪律能愈加餍足大模子时间对锤真金不怕火、推理场景的诉求。

这次发布腾讯云智算品牌,主要还是出于把曩昔一系列的责任组合起来,造成一个全体惩办有策划对外提供,向行业传递更准确、更竣工的信息。

相较其他友商,腾讯云智算品牌的主要策略是全体的兼容性、绽放性,以及公私一体。

结语:生成式AI鼓吹智算产业赶紧发展

凭借集算存网一体的高性能智算底座,腾讯云智算整合了多项上风家具,展现了在智算规模的本事才略和后劲。

跟着生成式AI的合手续发展,智算产业也许会乘着这股大模子的风“升空”。腾讯云智算以其兼容性、绽放性以及公私一体的策略黑丝,不仅机动地解救公有云、特殊云以及溜达式云的输出,同期也成为了国内大量大模子厂商的选拔,匡助一大皆IDC厂商达成向AIDC的转型。





Powered by 足交porn @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024