Tether推出多架构兼容的AI微调系统,赋能终端侧模型演进
Tether于本周二正式发布面向微软BitNet大语言模型的跨平台LoRA微调框架,标志着人工智能训练正从中心化算力向分布式终端迁移。该系统可在智能手机、普通笔记本及消费级GPU设备上运行,无需依赖专业英伟达显卡即可完成模型优化。
异构硬件原生支持,打破算力垄断格局
作为其QVAC Fabric平台的关键组件,此框架是首个实现非英伟达芯片(涵盖AMD、英特尔、苹果M系列及移动GPU)上完整BitNet LoRA微调与推理加速的技术方案。相较于此前仅限企业级集群或云端部署的模式,此次更新显著降低了参与人工智能开发的门槛。
移动端实测性能表现
在三星Galaxy S25上,工程师使用约1.8万词元的生物医学数据集,对1.25亿参数的BitNet模型完成约10分钟的微调;针对10亿参数规模的模型,耗时分别为1小时18分钟(S25)和1小时45分钟(iPhone 16)。更值得注意的是,系统已具备在旗舰机上微调最高38亿参数模型的能力,并在iPhone 16上成功实现130亿参数模型的本地训练。
测试数据显示,移动GPU上的BitNet推理速度相较传统CPU提升2至11倍。同时,在同等任务下,10亿参数模型的内存占用较同规格16位Gemma-3-1B模型减少77.8%,极大缓解了设备资源压力。
技术融合驱动边缘智能新范式
BitNet采用三值权重机制(取值限定为-1、0、1),有效压缩模型体积并降低显存需求。结合LoRA技术仅调整小型适配层而非全量重训的特性,整体微调成本大幅下降。两者协同使原本仅限数据中心执行的训练流程,得以在个人设备上落地。
Tether首席执行官指出,该框架兼容联邦学习工作流,支持跨设备协同更新模型,且无需将原始数据上传至中央服务器,保障隐私安全。相关代码已按Apache 2.0协议开源,鼓励社区共建生态。
当前正值加密基础设施与人工智能计算深度融合的关键阶段。随着更多链上平台引入智能代理以辅助交易决策,此类可部署于终端的轻量化模型正成为构建下一代去中心化AI应用的核心支撑。