Cactus"是一家由Y Combinator支持的初创公司,通过跨平台、高能效的内核和原生运行时,使本地AI推理能够应用于手机、可穿戴设备和其他低功耗设备。它为设备上的推断提供了低于50ms的首次令牌时间,消除了网络延迟,并默认提供了完全的隐私保护。
SDK的v1"版本,现在处于测试阶段,提高了低端硬件上的性能,并增加了可选的云回退功能,以确保更高的可靠性。
Cactus允许开发者使用它的SDK在任何应用程序中本地部署模型,它为React Native"、Flutter"和Kotlin Multiplatform"提供了本地绑定。原生Swift"支持仍然很少,也不如对其他语言的支持成熟,但是iOS开发者可以在他们的Swift应用中使用Kotlin Multiplatform绑定。
在iOS和Android设备上,Cactus采用了比苹果Apple Foundation框架和谷歌AI Edge提供的平台原生解决方案更通用的方法来进行设备上的AI推理,后者是特定于平台的,只暴露了有限的、由供应商控制的功能集。Cactus支持多种模型,包括Qwen、Gemma、Llama、DeepSeek、Phi、Mistral等。为了提高效率和性能,它支持从FP32到2位的一系列量化级别。
Cactus提供内置的模型版本控制和无线更新。你可以在不要求应用更新的情况下向用户推送新的模型版本。SDK在后台无缝地处理下载、缓存和模型版本之间的切换。
Cactus SDK还支持为复杂或大上下文任务退回到基于云的模型,从而确保了健壮性和高可用性。根据Cactus的说法,“这解决了v0用户最常见的请求之一,他们需要保证关键的面向用户的功能的响应时间”。
在版本v1中,Cactus彻底修改了自己的推理引擎,从GGUF转换为专有格式,并包括优化的ARM-CPU内核,以便在所有支持的设备上获得更好的性能。这些SDK是从头开始重新构建的,以提高跨语言的API一致性,同时尽可能保持向后兼容性。新版本还引入了更新的遥测和监测系统。
这使开发人员能够深入了解他们的AI模型性能、使用模式和潜在的优化机会。这种数据驱动的方法使团队能够做出关于模型选择和部署策略的明智决策。
除了LLM推理,Cactus v1还支持工具调用和语音转录。Flutter SDK还提供RAG微调功能,而React Native SDK提供图像嵌入功能。根据Cactus的路线图,这些功能将很快扩展到其他SDK变体,以及语音合成。
为了更好地了解Cactus在不同设备上的性能",该公司发布了使用LFM2-VL-450m和Whisper-Small模型的基准测试,测量了每秒令牌数、预填充/解码等指标。基准测试采用INT8量化,并利用NPU实现实时性能和大型上下文处理。结果表明,Mac M4 Pro可以达到173 tok/s, iPhone 17 Pro可以达到136 tok/s, Galaxy S25 Ultra 91 tok/s, Raspberry Pi 5可以达到24 tok/s。
作为参考,最小的模型gemma-3-270m-it的压缩占用为172 MB,并且只支持补全。Qwen3-0.6B占用394 MB,支持补全、工具调用、嵌入、语音功能。在高端:Gemma-3-1b-it占用642 MB, Qwen3-1.7B占用1161 MB。
Cactus还为iOS"和Android"发布了聊天应用,可以使用不同的LLM,允许开发人员通过Cactus SDK访问时对延迟和吞吐量进行基准测试。
Cactus面向学生、教育工作者、非营利组织和小型企业是免费开放源代码的。它可以从GitHub"上克隆。
原文链接:
https://www.infoq.com/news/2025/12/cactus-on-device-inference/"
Cactus"是一家由Y Combinator支持的初创公司,通过跨平台、高能效的内核和原生运行时,使本地AI推理能够应用于手机、可穿戴设备和其他低功耗设备。它为设备上的推断提供了低于50ms的首次令牌时间,消除了网络延迟,并默认提供了完全的隐私保护。
SDK的v1"版本,现在处于测试阶段,提高了低端硬件上的性能,并增加了可选的云回退功能,以确保更高的可靠性。
Cactus允许开发者使用它的SDK在任何应用程序中本地部署模型,它为React Native"、Flutter"和Kotlin Multiplatform"提供了本地绑定。原生Swift"支持仍然很少,也不如对其他语言的支持成熟,但是iOS开发者可以在他们的Swift应用中使用Kotlin Multiplatform绑定。
在iOS和Android设备上,Cactus采用了比苹果Apple Foundation框架和谷歌AI Edge提供的平台原生解决方案更通用的方法来进行设备上的AI推理,后者是特定于平台的,只暴露了有限的、由供应商控制的功能集。Cactus支持多种模型,包括Qwen、Gemma、Llama、DeepSeek、Phi、Mistral等。为了提高效率和性能,它支持从FP32到2位的一系列量化级别。
Cactus SDK还支持为复杂或大上下文任务退回到基于云的模型,从而确保了健壮性和高可用性。根据Cactus的说法,“这解决了v0用户最常见的请求之一,他们需要保证关键的面向用户的功能的响应时间”。
在版本v1中,Cactus彻底修改了自己的推理引擎,从GGUF转换为专有格式,并包括优化的ARM-CPU内核,以便在所有支持的设备上获得更好的性能。这些SDK是从头开始重新构建的,以提高跨语言的API一致性,同时尽可能保持向后兼容性。新版本还引入了更新的遥测和监测系统。
除了LLM推理,Cactus v1还支持工具调用和语音转录。Flutter SDK还提供RAG微调功能,而React Native SDK提供图像嵌入功能。根据Cactus的路线图,这些功能将很快扩展到其他SDK变体,以及语音合成。
为了更好地了解Cactus在不同设备上的性能",该公司发布了使用LFM2-VL-450m和Whisper-Small模型的基准测试,测量了每秒令牌数、预填充/解码等指标。基准测试采用INT8量化,并利用NPU实现实时性能和大型上下文处理。结果表明,Mac M4 Pro可以达到173 tok/s, iPhone 17 Pro可以达到136 tok/s, Galaxy S25 Ultra 91 tok/s, Raspberry Pi 5可以达到24 tok/s。
作为参考,最小的模型gemma-3-270m-it的压缩占用为172 MB,并且只支持补全。Qwen3-0.6B占用394 MB,支持补全、工具调用、嵌入、语音功能。在高端:Gemma-3-1b-it占用642 MB, Qwen3-1.7B占用1161 MB。
Cactus还为iOS"和Android"发布了聊天应用,可以使用不同的LLM,允许开发人员通过Cactus SDK访问时对延迟和吞吐量进行基准测试。
Cactus面向学生、教育工作者、非营利组织和小型企业是免费开放源代码的。它可以从GitHub"上克隆。
原文链接:
https://www.infoq.com/news/2025/12/cactus-on-device-inference/"