
。从应用程序要求的角度来看,越来越多的公司开始关注该模型的推理经验,这与商业和货币化实施有关。但是在推理的关键联系中,中国面临着瓶颈。不仅对基础设施的投资要比美国要少,而且还面临着诸如cast割电源卡和HBM的日本价格(高带宽内存)等困难。特别是,随着AI应用程序场景的不断扩展,对长期处理的需求,许多对话和理解正在增长,这进一步以中国AI推理的困境为特征。在真正的挑战下,华为推出了AI推理的“黑色技术”,以加快UCM(统一的高速缓存管理器)(统一的高速缓存管理器)。通过创新的建筑设计和储存优化,这种突破性技术破坏了HBM的容量限制,可提高对国内AI的看法大型模型性能,并改善了AI推理中国生态系统的主要联系。 Kapag nakatagpo ang Nvidia ng isang krisis sa tiwala dahil sa "backdoor" nito, aktibong binuksan ng Huawei ang UCM at binuksan ang tatlong mga layer ng pakikipagtulungan, na nagtataguyod ng domestic AI na pangangatuwiran na mag -bid ng Lumipat patungo sa isang positibong siklo ng“ karanasan sa pagpapabuti -paglago ng gumagamit -pagtaas na eNtherprise na pamumuhunan -teknolohiya in Lumipat patungo sa iSang positibong siklo ng” paalam na“ magbunton ng卡依赖”。 “记忆”围绕“记忆”的技术成功可能是实施中国人工智能行业的一场重大战斗。扩展全文
推理一直是关键,thechina的瓶颈在高光
AI技术的新兴发展在成本中心的模型中进行了出色的培训,但真正创造价值的是推理过程。
数据表明,当前对AI推理计算能力的需求超过了培训。 API调用数量在打开GPT-5的第一周,超过20亿次/分钟,70%的请求是复杂的理解(例如代码的产生,多步规划等),而平均每日代币呼叫国内火山发动机则达到16.4万亿,而超过70%的人已经接受了培训。
识别的性能与用户体验和商业可行性有关,并且是AI实施的关键。但是,在加深AI行业的实施时,理解的能力是吸入挑战,尤其是在对长文本处理的需求,许多对话和复杂的业务流程的需求增长时,了解绩效的要求变得越来越严格。
在这种情况下,一项名为KV缓存的主要技术诞生了。它可以优化计算效率并降低重复操作。键将暂时存储(键:功能代表历史输入)和值(值:基于密钥的featueRe,用于生成生成令牌的当前输出的参考信息。在不重新计算的情况下开发新的代币时,它将直接使用,这可以显着提高识别效率。
但是问题在于,KV缓存需要抓住GPU视频内存(例如高率宽hbm bandwid)tostore历史键/向量的值。文本的越长,可缓存的数据量越大,则可能。这是由HBM爆炸和DRAM引起的。
中国公司不比美国更好。一方面,中国的互联网公司刚刚在美国投资了十分之一。中小型企业的预算很小,无法负担许多HBM高端。另一方面,中国还面临出口控件,无法获得最先进的计算电源卡和HBM,而不可能的桩卡没有限制。
更重要的是,面对大量PB水平O的大量数据OF大型模型,HBM体系结构的传统体系结构的瓶颈变得越来越突出。随着人工智能代理(代理人工智能)的出现,时间,扩展量表,长期需求的进步以及构思任务的结合增加了。 KV缓存能力的增长超过了HBM容量。频繁的记忆溢出会导致理解中经常出现“失忆症”,这需要重复的GPU计算,从而导致滞后和延迟。
在各种困难下,大型国内模型陷入了“无法推动”,“缓慢推动”和“昂贵的推动”的问题。
数据表明,主要外国模型的输出速度为200个令牌/s间隔(延迟5ms),而在中国,通常小于60令牌/s(延迟50-100ms),最大差距为10次。在上下文窗口中,海外模型通常支持100万个令牌(例如GPT-5,Claude 3.5),而国内头模型(Kimi)仅为500,000,在对文本的长期审查中,缺少基本信息的国内模型的可能性超过50%。
这种经验显然是不愉快的,无法实施中国AI量表。从长远来看,一个恶性的商业周期将发展,甚至导致对中国业务的投资和投资放缓的投资下降,外国将扩大空间为国际AI竞争。
如何在没有显着增加计算能力基础设施的投资并促进AI在积极商业周期中的推理的情况下显着优化推理经验已成为中国的首要任务。
华为的“黑色技术”正在破坏推理经验的障碍
如前所述,在“代币经济”期间,KV缓存和Pamamemory数据是识别和降低计算成本的性能的主要优化。但是,高性能记忆(例如HBM)非常昂贵,不能无限制hEAP卡,而SSD传输速率(固态驱动器)太慢,这似乎形成了成本,性能和效果的“不可能的三角形”。回到Sohu看看更多