EN

开云2026世界杯

开云2026世界杯

世界杯开云 一台手掌大小、300克的AI主机, 为什么能跑122B模子?

发布日期:2026-05-26 05:51 来源:未知 作者:admin 浏览次数:

世界杯开云 一台手掌大小、300克的AI主机, 为什么能跑122B模子?

把一台能运行122B大模子的AI主机塞入口袋,需要付出什么代价?

曩昔泰半年,端侧AI硬件的逻辑正在发生变化。

两个月前,国内掀翻一场表象级的腹地部署Agent怡悦,多数AI爱重者初始“养虾”,让正本偏小众的Macmini偶然出圈,一度出现溢价和缺货。在更硬核的开发者圈子里,三四万元的英伟达DGXSpark相同热度不低,因为它依然简略在腹地运行千亿参数模子。

Macmini和DGXSpark同期走红,背后其实指向的是并吞个趋势:Agent正在连忙举高端侧AI硬件的门槛。

此前,40TOPS级别的AIPC,仅能完成对话、生成等轻量任务。但插足Agent时间后,开发者初始追求更大的模子、更永劫刻的腹地推理,以及信得过简略承担分娩力任务的端侧AI诱惑。

问题随之出现。Macmini弥散称心、低功耗,却很难支握更大的腹地模子;DGXSpark领有强悍性能,但价钱、功耗与散热,又很难信得过走向群众化。大算力、低功耗与小体积之间,似乎历久难以兼得。

Agent时间信得过败落的,不再仅仅一台更强的AIPC,而是一种简略7×24小时运行、低功耗、称心,并具备腹地履行智商的新末端。

一种介于AIPC与AI责任站之间的AgentComputer出现了。最近发布的渴望AI主机P7,仅300克、30W功耗的诱惑,领有190TOPS端侧AI算力,能在腹地运行122B参数模子。

AI2.0时间,需要奈何的AgentComputer?

传统AI更多照旧一问一答式交互,任务结尾后,模子也随之罢手运行。但Agent不同,它需要历久在线、握续调用模子、自主拆罢职务,并在腹地完成回顾、推理、履行等一整套经由。

这意味着Agent诱惑比拼的,不再仅仅瞬时性能,而是历久自由运行智商。

换句话说,AI2.0时间信得过需要的不是AIPC的浮浅升级版,而是一种介于AIPC与AI责任站之间的新末端,它既要具备运行大模子的智商,又必须兼顾低功耗、静音、小体积,以及7×24小时握续责任的自由性。

渴望AI主机P7,恰是在AI2.0需求下出身的AgentComputer新物种。它既尝试接近DGXSpark的大模子分娩力智商,又保留了雷同Macmini的低功耗与静音特质。

P7领有190TOPS异构AI算力(dNPU+SoC),其中160TOPS来后来摩漫界M50dNPU,30TOPS来自此芯P1SoC。整机最高支握122B参数模子腹地部署,最高可配置80GBRAM,并支握128K高下文窗口。

在无网环境下,P7腹地自主推理速率最高可达50Tokens/s,不错竣事7×24小时连结履行Agent任务。

围绕Agent历久在线需求,滚球app中国官方网站P7的机身唯有手掌大小,分量约300克,以致不错凯旋通过充电宝供电运行。为了在小体积下竣事握续自由运行,P7还将整机功耗死心在30W以内,并将运行杂音压低至35分贝以下。

这意味着,渴望AI主机P7依然初始信得过具备腹地分娩力价值。

更病笃的是,与传统PC+AI的念念路不同,P7并不是在原有诱惑中增多AI功能,而是围绕Agent场景重新界说末端逻辑。

举例,P7秉承了一机双模想象,在智能体模式下,腹地运行天禧Claw,将复杂任务尽可能留在腹地履行;在大模子模式下,则通过敞开APIKey接入各种AI期骗与智能体,凯旋承担腹地推理与Token生成智商。

P7的推出代表着曩昔唯有高功耗责任站能力承担的大模子腹地推明智商,初始有契机插足更低功耗、更低本钱的袖珍诱惑。

而唯有当大模子推理简略在低功耗、小体积条款下历久运行,Agent才有可能信得过从少数开发者诱惑,渐渐走向更无为的耗尽级与行业末端场景。

支握这种AgentComputer形态成立的,是P7背后一套不同于传统GPU道路的新算力决策。

千亿模子装入口袋之后,算力逻辑也变了

渴望在P7立项初期就依然明确,要作念一台能放入口袋、又能腹地运行大模子的AI主机。这意味着它的芯片必须同期满足三个着实互斥的条款:大算力、低功耗、小体积。

传统AI芯片很难同期兼顾这些需求,中枢在于数据搬运——打算单位与存储单位物理差异,数据在两者之间每每流动,开云2026世界杯中国官网带来零碎的能耗与延伸。

AI芯片行业因此束缚探索新的架构旅途,其中一个正在被越来越多厂商探索的所在等于存算一体,存算一体让数据在存储侧就近完成打算,从而减少搬运支拨,进步全体能效。

渴望遴荐引入存算一体架构芯片,看成P7的主要AI算力开头,也等于dNPU(DiscreteNPU),它雷同于寂然GPU的定位,领有更强的AI性能。

188金宝博官网app下载

这颗dNPU,恰是后摩智能在2025年推出的存算一体AI芯片——后摩漫界M50。

后摩漫界M50秉承存算一体架构想象,具备160TOPS物理算力,配备最高48GB内存与153.6GB/s带宽,典型功耗仅10W,能效达到传统架构芯片的5~10倍。

雷峰网了解到,M50在想象阶段就针对大模子部署进行了优化,通过SRAM与48GBLPDDR5的组合决策,在兼顾性能的同期,进步了千亿参数模子的可部署性与本钱可控性。

信得过的挑战不啻于芯片,而是怎么让千亿参数模子在一台300克级别的诱惑上历久自由运行。这需要渴望与后摩智能在腹地Agent系统、推理框架以及软硬件协同层面进行深度合作。

尤其是在Agent履行链路、模子调治与端侧资源处分上,渴望需要一套全新的系统智商来支握握续运行的AI任务。

从2025年下半年方式认真启动初始,渴望与后摩智能组建聚会团队,围绕硬件想象、软件适配与推理框架伸开了长达十多个月的聚会攻坚,最终竣事了在后摩漫界M50上运行千亿参数大模子。

现在,P7依然支握千问、智谱、DeepSeek等主流模子,并可竣事新模子的Day0适配,即模子发布本日即可完成运行支握。关于用户而言,这使得P7不再仅仅演示型诱惑,而是一台可历久运行Agent任务的腹地AI末端。

从芯片到系统,再到Agent履行智商,渴望与后摩智能正在共同考证一种新的AI主机形态。

跟着端侧大模子握续演进,这种兼顾性能、功耗与历久运行智商的AgentComputer,正在成为AI2.0时间最具推行落地后劲的末端所在之一。

Agent海浪重构硬件司法,存算一体迎来推理黄金时间

AI芯片的竞争逻辑,正在发生一场静默的翻转。

曩昔几年,行业的中枢方针是峰值算力,比拼的是谁能熟悉更大的模子,GPU也因此成为统共AI时间的中枢基础门径。

但当AI从1.0时间的生成一次陈述走向2.0时间的历久运行、握续履行任务的Agent形态后,芯片的评价体系初始变化:能效比、握续推明智商、腹地履行复杂任务的自由性,渐渐与峰值算力同等病笃。

这一变化并不是传统AI芯片的上风所在,却为新的架构旅途掀开了窗口。

一个较着的信号来自行业巨头。英伟达重金收购初创公司Groq中枢技能财富,将其LPU(LanguageProcessingUnit)说话处理单位用于高性能推理场景。后摩智能与Groq王人是存算一体技能道路,王人是基于SRAM想象居品,减少数据搬运、进步推理能效,仅仅居品叫法不同。

后摩智能在成立之初就专注于存算一体技能的研发与产业化,2024年推出针对大模子推理优化的后摩漫界M30,支握运行60亿参数模子,并赢得了中国出动等客户。

现在,基于后摩漫界M50,后摩智能依然搭建起M.2卡、DM.2卡、Pcie卡,最高640TOPS算力的完好居品矩阵,并完成了从技能原型到限制化商用的要道进步。如今后摩漫界M50已全面落地舆想AI主机P7、AIPC、桌面机器东谈主、AgentBox、智能语音末端、AI网关等多元端边场景。

后摩智能也在研发下一代芯片,观念是进一步进步能效比与大模子推明智商,以适配畴昔更复杂的Agent时间。

这是一个标识性的回荡点,GPU界说了大模子熟悉时间,而Agent的全面爆发,正将算力竞争从云霄熟悉中心,推向海量的端侧、边际推理节点。在这场算力花样迁徙中,以存算一体为代表的AI原生架构,不再仅仅GPU的补充或替代,更在从容建立端侧Agent时间的全新硬件门径。

跟着Agent初始向更多腹地诱惑浸透,行业关于低功耗、高能效端边推理芯片的需求也会握续增多。

畴昔,围绕端侧大模子推理,还会出现更多新的芯片形态与架构道路。

在这场Agent驱动的AI硬件范式切换中世界杯开云,AI原生的芯片成为竞争的要道,像后摩智能这么最初完成存算一体生意化落地的公司,正在插足更大的增长通谈。