多模态AI是当下的热门概念,其结合了文本、语音、图像、视频、传感器数据、3D环境感知和图形等多种模态,通过标记化后送入大语言模型(LLM),可以实现更自然、高效的处理。
“通过将传感器数据转化为统一的神经编码(Token),可穿戴设备有望突破算力与带宽瓶颈,成为多模态 AI 生态的核心交互节点”。在 4 月 16 日举办的芯原股份可穿戴专题技术论坛上,芯原 NPU IP 研发副总裁查凯南发表《分布式神经级联中的图像标记化》主题演讲,深度解析 “神经级联” 架构如何通过图像标记化(Tokenization)技术,实现端侧设备与云端 / 边缘端的高效协同计算 。
芯原 NPU IP 研发副总裁查凯南
查凯南首先定义 “标记化(Tokenization)”为 “将传感器模态转化为神经编码的过程”,其核心价值在于将图像、语音等多模态数据归一化为统一的低维向量表示,实现跨设备高效传输与处理。他以经典视觉模型为例:

这种技术突破使多模态 AI 基础模型(如谷歌 PaliGemma)能够高效处理跨模态数据:“SigLIP 视觉编码器将图像转化为 Token,与 Gemma 语言模型的文本 Token 融合,最终实现‘拍照的人躺在海边吊床’等复杂场景的自然语言理解”,展现了标记化技术在多模态交互中的核心作用。

针对大模型算力需求与端侧设备限制的矛盾,查凯南介绍了 “分布式神经级联”方案:通过轻量化门控模型(Gating Model)在端侧进行数据筛选,仅将有效 Token 传输至边缘或云端,形成 “端侧感知 - 边缘决策 - 云端推理” 的三级协同架构。
在端侧预处理方面,可穿戴设备搭载轻量级 Token 化模型(如蒸馏后的学生模型),实时检测环境信息(如 “是否存在动物”),仅向云端传输有效 Token,减少无效数据传输。实测显示,该机制可降低 70% 的网络带宽消耗,适配 AR 眼镜等低功耗设备。
在跨设备协同方面,以谷歌智能家居生态为例,摄像头、手表、眼镜等端侧设备通过 Token 化技术统一数据格式,边缘服务器基于门控模型动态分配算力,实现 “本地设备快速响应 + 云端复杂推理” 的无缝协作。
神经级联可以协调边缘设备和云端设备,实现新的GenAI体验。芯原与谷歌合作的Open Se Cura项目已验证该方案的可行性。通过RISC-V架构的Kelvin处理器(256+ MACs/Cycle)与VIP9X00系列NPU的协同,实现了从端侧AR眼镜到云端服务器的无缝衔接。
查凯南强调,“这种架构让端侧设备从‘数据采集器’升级为‘智能过滤器’,显著提升系统整体能效比”。
查凯南表示,芯原致力于通过 “硬件 IP + 软件框架”双重布局,推动标记化技术商业化落地。

在端云协同上,芯原的 IP 矩阵包括:
据悉,芯原积极推动Open Se Cura 生态计划,联合谷歌构建端云协同开发框架,提供从 Token 化模型蒸馏、量化到跨设备通信协议的全套工具链。典型案例中,图像 Token 传输量较原始数据压缩 90% 以上,端云协同延迟控制在 20 毫秒以内,为实时翻译、工业巡检等场景提供技术支撑。
面对分布式神经级联的技术落地,查凯南坦言三大挑战:

另外,模型碎片化需要不同设备需适配多样化的压缩与蒸馏策略;硬件异构性需要考虑从RISC-V到ARM架构的兼容性问题;生态协同上则要考虑如何建立统一的API标准与数据交换协议。
展望未来,他指出 “标记化技术将推动可穿戴设备从‘功能孤岛’融入‘分布式 AI 网络’,成为连接物理世界与数字生态的神经节点”。随着芯原 端侧感知、移动端的VIP9X00系列和云端的CC9X00TC架构在客户项目中的落地,2025 年有望成为端云协同 AI 大规模商用的元年。