7月26日,2025世界人工智能大会在上海开幕,诞生于南京经济技术开发区的初创企业后摩智能携自主研发的全新端边大模型AI芯片后摩漫界®M50等创新产品正式亮相,吸引业内关注。

今年,DeepSeek的出现让AI大模型走进人们视野。在离线情况下,笔记本、平板电脑如何实现智能交互、内容生成?智能会议系统如何实现多语种翻译、生成会议纪要?7月25日,后摩智能全新端边大模型AI芯片“后摩漫界®M50”等正式发布,让电脑、智能语音设备、机器人等智能移动终端在脱离“云端”情况下,依然具备本地大模型推理能力。
当前,大模型行业正经历深刻变革。AI大模型的推理能力与能耗密切相关,参数量越大、推理能力越强的模型通常能耗更高。比如,当智能录音笔的大模型全力运转,将会议录音转化为会议纪要时,其“思考”过程就会让方寸大小的芯片变得滚烫。这时,散热风扇便会来降温“救场”,但风扇产生的噪声又会影响录音效果,这样的矛盾在现实应用中时常发生。
对此,有专家表示,未来五年内,推理成本将占大模型全生命周期80%以上。相较于“云端”,在终端进行大模型部署的“最后一公里”或将成为决定未来产业格局的重要拐点。在这一背景下,高算力、高带宽、低功耗的存算一体技术将拥有大显身手的“舞台”。

后摩智能创始人兼CEO吴强介绍,自2020年在南京经开区成立以来,后摩智能就坚持深耕这一领域。“存算一体通过把计算和存储单元集成在一起,让数据就‘近’处理,而不是在‘云端’处理,从根本上解决了传统芯片‘数据传输慢、功耗高’问题。”
此次发布的M50芯片实现了160TOPS@INT8、100TFLOPS@bFP16物理算力,搭配最大48GB内存与153.6GB/s超高带宽,典型功耗仅10W,相当于手机快充功率,就能让PC、智能语音设备、机器人等智能移动终端,高效运行1.5B到70B参数的本地大模型,真正实现“高算力、低功耗、即插即用”。和传统架构相比,M50芯片的能效提升5至10倍,完美适配端边设备“算得快又吃得少”的需求。
后摩智能还同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。“这些产品可以广泛应用于消费终端、智能办公、智能工业等多元领域,均能在离线状态下实现全流程本地处理,从源头杜绝数据联网传输风险。”他介绍,除个人家用、办公商用等领域可以赋能终端设备拥有超强推理能力,在智能工业领域,还可以赋能产线质检、车路云协同等场景通过本地算力来完成实时分析决策。“在这个过程中,生产数据与运营信息都在设备端闭环处理,避免‘云端’传输产生泄密安全隐患。”


后摩智能通过深度融合存算一体技术与大模型,推动AI大模型在端边侧实现“离线可用、数据留痕不外露”,构建起“低功耗、高安全、好体验”端边智能新生态。“我们的目标是让大模型算力像电力一样随处可得、随取随用,真正走进每一条产线、每一台设备、每一个人的指尖。”吴强说。
通讯员 屈艳格 王刚