图像标记化推动多模态AI端云协同高效处理

您当前的位置: 首页 > 首页 > 新闻资讯

发布时间：2026-05-19 02:00:11

多模态AI是当下的热门概念，其结合了文本、语音、图像、视频、传感器数据、3D环境感知和图形等多种模态，通过标记化后送入大语言模型（LLM），可以实现更自然、高效的处理。

“通过将传感器数据转化为统一的神经编码（Token），可穿戴设备有望突破算力与带宽瓶颈，成为多模态 AI 生态的核心交互节点”。在 4 月 16 日举办的芯原股份可穿戴专题技术论坛上，芯原 NPU IP 研发副总裁查凯南发表《分布式神经级联中的图像标记化》主题演讲，深度解析 “神经级联” 架构如何通过图像标记化（Tokenization）技术，实现端侧设备与云端 / 边缘端的高效协同计算。

芯原 NPU IP 研发副总裁查凯南

图像标记化：从数据采集到神经编码

查凯南首先定义 “标记化（Tokenization）”为 “将传感器模态转化为神经编码的过程”，其核心价值在于将图像、语音等多模态数据归一化为统一的低维向量表示，实现跨设备高效传输与处理。他以经典视觉模型为例：

图像标记化技术重构分布式神经级联，赋能多模态AI设备（图1）

ResNet 等卷积网络通过特征提取生成图像标记，为目标检测、分割等任务提供高层语义表示；
自动编码器（AutoEncoder）通过压缩编码，在保持关键信息的同时减少数据量，实现 “传输功耗与存储容量的双重优化”。

这种技术突破使多模态 AI 基础模型（如谷歌 PaliGemma）能够高效处理跨模态数据：“SigLIP 视觉编码器将图像转化为 Token，与 Gemma 语言模型的文本 Token 融合，最终实现‘拍照的人躺在海边吊床’等复杂场景的自然语言理解”，展现了标记化技术在多模态交互中的核心作用。

神经级联架构：端云协同实现算力分配

图像标记化技术重构分布式神经级联，赋能多模态AI设备（图2）

针对大模型算力需求与端侧设备限制的矛盾，查凯南介绍了 “分布式神经级联”方案：通过轻量化门控模型（Gating Model）在端侧进行数据筛选，仅将有效 Token 传输至边缘或云端，形成 “端侧感知 - 边缘决策 - 云端推理” 的三级协同架构。

在端侧预处理方面，可穿戴设备搭载轻量级 Token 化模型（如蒸馏后的学生模型），实时检测环境信息（如 “是否存在动物”），仅向云端传输有效 Token，减少无效数据传输。实测显示，该机制可降低 70% 的网络带宽消耗，适配 AR 眼镜等低功耗设备。

在跨设备协同方面，以谷歌智能家居生态为例，摄像头、手表、眼镜等端侧设备通过 Token 化技术统一数据格式，边缘服务器基于门控模型动态分配算力，实现 “本地设备快速响应 + 云端复杂推理” 的无缝协作。

神经级联可以协调边缘设备和云端设备，实现新的GenAI体验。芯原与谷歌合作的Open Se Cura项目已验证该方案的可行性。通过RISC-V架构的Kelvin处理器（256+ MACs/Cycle）与VIP9X00系列NPU的协同，实现了从端侧AR眼镜到云端服务器的无缝衔接。

查凯南强调，“这种架构让端侧设备从‘数据采集器’升级为‘智能过滤器’，显著提升系统整体能效比”。

如何从IP产品到技术落地？

查凯南表示，芯原致力于通过 “硬件 IP + 软件框架”双重布局，推动标记化技术商业化落地。

图像标记化技术重构分布式神经级联，赋能多模态AI设备（图3）

在端云协同上，芯原的 IP 矩阵包括：

端侧的VIP9X00 系列 NPU：支持 40TOPS 算力（适配 7B 参数模型）至 160TOPS（支持 70B 模型），支持INT4/INT8量化，加上DECNano数据压缩技术可满足从智能手表到 AI 眼镜的差异化算力需求；
边缘侧的VIP9X00CC异构IP（NPU+GPGPU），提供3D堆叠内存架构，满足256TOPS算力需求；
云端的CC9X00TC-MP训练芯片，支持Transformer模型分布式训练。

据悉，芯原积极推动Open Se Cura 生态计划，联合谷歌构建端云协同开发框架，提供从 Token 化模型蒸馏、量化到跨设备通信协议的全套工具链。典型案例中，图像 Token 传输量较原始数据压缩 90% 以上，端云协同延迟控制在 20 毫秒以内，为实时翻译、工业巡检等场景提供技术支撑。

行业挑战与未来方向

面对分布式神经级联的技术落地，查凯南坦言三大挑战：

算力与能效平衡：边缘设备需在无 DDR 内存条件下运行轻量化模型，依赖稀疏化、低比特量化等技术进一步压缩模型规模；
软件生态统一：需定义跨设备 API 标准，解决不同品牌终端（如手表、眼镜、手机）的协同协议兼容性问题；
数据安全与隐私：在 Token 传输过程中引入 CHERI 安全扩展等技术，确保用户数据在端云交互中的安全性。

图像标记化技术重构分布式神经级联，赋能多模态AI设备（图4）

另外，模型碎片化需要不同设备需适配多样化的压缩与蒸馏策略；硬件异构性需要考虑从RISC-V到ARM架构的兼容性问题；生态协同上则要考虑如何建立统一的API标准与数据交换协议。

展望未来，他指出 “标记化技术将推动可穿戴设备从‘功能孤岛’融入‘分布式 AI 网络’，成为连接物理世界与数字生态的神经节点”。随着芯原端侧感知、移动端的VIP9X00系列和云端的CC9X00TC架构在客户项目中的落地，2025 年有望成为端云协同 AI 大规模商用的元年。

责编：Luffy

返回列表

上一篇 : 智能手表与眼镜端侧AI技术突破

下一篇 : 中微半导体增资40亿技术突破加速国产替代