AI摘要:千呼万唤始出来,北京时间 2026 年 5 月 20 日凌晨,Google I/为了拓展 Gemini 的能力边界,Google 也把自己的办公套件(Google Workspace)全面 AI 化:用户可以用语音调用 Gemini 查找邮件信息(Gmail Live)、写作(Docs Live)甚至是生成图像(Google Pics)。Google I/O 的主题演讲的到这里就告一段落了,看到这里,可能有人会觉得此次 Google I/O 只不过是 Google 在 AI 大战落伍后的「画饼」行为。
千呼万唤始出来,北京时间 2026 年 5 月 20 日凌晨,Google I/O 2026 终于开幕。因为 Google 提前用 The Android Show「分流」了 Android 17 的新功能,AI 终于成为了 Google I/O 2026 的主角。
但不同于其他 AI 企业,Google 同时掌握 Gemini、YouTube、Google 网页搜索、Android 等多个不同的互联网生态入口。因此「如何用 AI 为这些生态服务『赋能』」,也成了此次 Google I/O 的重点。
Gemini Omni、Gemini 3.5:新模型让 Google AI 更全能
Gemini 模型方面,Google 在 Google I/O 上正式发布了最新、最全能的 Gemini Omni。有多全能?用一句话来概括,就是「Gemini Omni 能从任何形式的输入,获得任何形式的输出」,且 Gemini Omni 还可以直接在生成过程中,以对话形式进行修改。
图片来源:Google
以 MV 生成为例,只要把音乐、视频、图片素材和对画面的大致需求「喂」给 Gemini Omni,Gemini Omni 就能直接输出对应的短视频。在活动上,Google 还演示了一个非常夸张的 AIGC 案例:
在一张白纸上手绘一个圆圈,再加上一句文字描述,Gemini Omni 就能直接输出一个完整的特效视频。但这还没完,如果你对画面元素或风格不满意,只要一句话就能在不变动其他画面元素的情况下,精准修改指定元素,比如「把玻璃建筑替换为肥皂泡」,后者甚至还拥有自己的物理碰撞效果。
图片来源:Google
用 Google 自己的话来说,「Gemini Omni 就像是视频领域的 Nano Banana」。
根据 Google 的介绍,Google Omni Flash 模型即日起将在 Gemini App、Google Flow、YouTube Shorts 等平台上线,对应 API 将在之后开放。
图片来源:Google
除了「全能模型」Google Omni,Gemini 在 Google I/O 上也升级到了 Gemini 3.5 版本(Gemini 3.5 Flash)。和 Gemini 3.1 Pro 相比,Gemini 3.5 Flash 在编程、现实环境智能体(Real-World Agentic)、大规模工具调用等测试上都有所提升。
当然了,对于 AI 模型而言,「有轻量级的 Flash 就必然有专业级的 Pro」——在活动上 Google 也预告Gemini 3.5 Pro 将在下个月登场,但并未公布其他信息。
用一句话来总结,那就是「多快好省」四个字,Google 这次全都做到了。
Google Antigravity、Gemini Spark:更快、更强的智能体
底层模型能力变强了,那基于 Gemini 的 AI Agent 自然也得到了升级。
图片来源:Google
开发者侧,Google 的 AI 开发环境 Antigravity 也用上了 Gemini 3.5 Flash。根据 Google 介绍,在 Gemini 3.5 Flash 的支持下,Antigravity 只用了 12 个小时就搭建了一个操作系统内核,而整个开发过程的 AI API 成本还不到一千美元。
图片来源:Google
Google 甚至用 Antigravity 和 Gemini 3.5 Flash 重构了 Google 搜索的交互界面,提出了全新的「生成式 UI」概念。平时常用 Google 或其他 AI 搜索引擎的朋友应该知道,即使在搜索页面开启了 AI 模式(此处指的不是在 AI App 中以「询问」实现的知识库搜索),这个 AI 模式依旧是以对话框(ChatBox)的形式输出结果。
图片来源:Google
对于一般的 AI 搜索来说,对话框的交互模式确实够用了。但如果用户问出的某个问题需要一些直观的演示,比如「陀飞轮是怎么工作的?」,文本框模式就排不上用场了。对此,Google 基于 Antigravity 的编程能力,打造了一个「自适应、自生成」的 AI 搜索 UI。
图片来源:Google
简单来说,面对复杂问题是此时 Google 搜索会用「Vibe Coding」的方式,直接写一个可以互动的前端网页,直接以互动的方式回答用户的问题。
千呼万唤始出来,北京时间 2026 年 5 月 20 日凌晨,Google I/O 2026 终于开幕。因为 Google 提前用 The Android Show「分流」了 Android 17 的新功能,AI 终于成为了 Google I/O 2026 的主角。
但不同于其他 AI 企业,Google 同时掌握 Gemini、YouTube、Google 网页搜索、Android 等多个不同的互联网生态入口。因此「如何用 AI 为这些生态服务『赋能』」,也成了此次 Google I/O 的重点。
Gemini Omni、Gemini 3.5:新模型让 Google AI 更全能
Gemini 模型方面,Google 在 Google I/O 上正式发布了最新、最全能的 Gemini Omni。有多全能?用一句话来概括,就是「Gemini Omni 能从任何形式的输入,获得任何形式的输出」,且 Gemini Omni 还可以直接在生成过程中,以对话形式进行修改。
图片来源:Google
以 MV 生成为例,只要把音乐、视频、图片素材和对画面的大致需求「喂」给 Gemini Omni,Gemini Omni 就能直接输出对应的短视频。在活动上,Google 还演示了一个非常夸张的 AIGC 案例:
在一张白纸上手绘一个圆圈,再加上一句文字描述,Gemini Omni 就能直接输出一个完整的特效视频。但这还没完,如果你对画面元素或风格不满意,只要一句话就能在不变动其他画面元素的情况下,精准修改指定元素,比如「把玻璃建筑替换为肥皂泡」,后者甚至还拥有自己的物理碰撞效果。
图片来源:Google
用 Google 自己的话来说,「Gemini Omni 就像是视频领域的 Nano Banana」。
根据 Google 的介绍,Google Omni Flash 模型即日起将在 Gemini App、Google Flow、YouTube Shorts 等平台上线,对应 API 将在之后开放。
图片来源:Google
除了「全能模型」Google Omni,Gemini 在 Google I/O 上也升级到了 Gemini 3.5 版本(Gemini 3.5 Flash)。和 Gemini 3.1 Pro 相比,Gemini 3.5 Flash 在编程、现实环境智能体(Real-World Agentic)、大规模工具调用等测试上都有所提升。
当然了,对于 AI 模型而言,「有轻量级的 Flash 就必然有专业级的 Pro」——在活动上 Google 也预告Gemini 3.5 Pro 将在下个月登场,但并未公布其他信息。
用一句话来总结,那就是「多快好省」四个字,Google 这次全都做到了。
Google Antigravity、Gemini Spark:更快、更强的智能体
底层模型能力变强了,那基于 Gemini 的 AI Agent 自然也得到了升级。
图片来源:Google
开发者侧,Google 的 AI 开发环境 Antigravity 也用上了 Gemini 3.5 Flash。根据 Google 介绍,在 Gemini 3.5 Flash 的支持下,Antigravity 只用了 12 个小时就搭建了一个操作系统内核,而整个开发过程的 AI API 成本还不到一千美元。
图片来源:Google
Google 甚至用 Antigravity 和 Gemini 3.5 Flash 重构了 Google 搜索的交互界面,提出了全新的「生成式 UI」概念。平时常用 Google 或其他 AI 搜索引擎的朋友应该知道,即使在搜索页面开启了 AI 模式(此处指的不是在 AI App 中以「询问」实现的知识库搜索),这个 AI 模式依旧是以对话框(ChatBox)的形式输出结果。
图片来源:Google
对于一般的 AI 搜索来说,对话框的交互模式确实够用了。但如果用户问出的某个问题需要一些直观的演示,比如「陀飞轮是怎么工作的?」,文本框模式就排不上用场了。对此,Google 基于 Antigravity 的编程能力,打造了一个「自适应、自生成」的 AI 搜索 UI。
图片来源:Google
简单来说,面对复杂问题是此时 Google 搜索会用「Vibe Coding」的方式,直接写一个可以互动的前端网页,直接以互动的方式回答用户的问题。
可惜的是,这项功能要等到 26 年夏季才会向用户开放。但好消息是,这项功能属于 Google 搜索的更新,不需要花钱订阅 Gemini 也能使用。另外,Gemini App 本身的 UI 也得到了升级,与新的 Android 视觉元素更加统一。
得益于 Gemini 3.5 Flash 的多模态能力,Google 搜索的 AI 预测和多模态能力也得到了提升。除了文字、以图搜图外,全新的 Google 搜索也可以直接输入视频或文档;曾经按照大数据智能排序的搜索推荐,现在也升级成了基于 Gemini 3.5 Flash 的 AI 搜索补全。
图片来源:Google
除了前台可见的升级,Google 还全面提升了搜索 Agent 的「后台能力」:全新的 搜索 Agent 可以在后台全天运行,按照用户的要求持续监控特定信息。比如小雷在睡觉前就可以让搜索 Agent 时刻关注 OpenAI、Anthropic、Grok、Perplexity 等 AI 企业和 X 上的 AI 新闻,在出现不容错过的热点时直接邮件轰炸我的手机,让我爬起来写稿。
说到 Agent,Google 还在互动上正式发布了面向个人用户的全新 Agent——Gemini Spark。和其他 AI Agent 一样,Gemini Spark 同样可以 24×7 全天接管用户的手机和浏览器。但不同于当前主流的托管类 Agent,Gemini Spark 会运行在专门的虚拟化环境中。
图片来源:Google
很显然,Gemini Spark 同样由 Gemini 3.5 Flash、Antigravity 驱动,自然也支持语音交互和后台响应。而在外部联动上,Gemini Spark 不仅可以直接和 Google 生态的其他组件(Google Docs、Google Calendar、Gmail 等)直接联动,还可以通过 MCP 协议与外部 App 互联互通,实现更全面的任务托管。
Google 并未在活动中公布 Gemini Spark 的平台适配情况,雷科技预计 Gemini Spark 会以 Gemini App(iOS)、Google 搜索组件(Android)的方式登陆手机。
图片来源:Google
而在 AI Agent 运行时(无论前后台),新加入的 Android Halo 功能会在 Android 手机屏幕左上角常驻一个 Agent 状态标记,方便用户随时跳转到 Agent 界面,感觉就和现在手机的「摄像头提示」「麦克风提示」差不多。
在雷科技看来,Android Halo 的出现,其实也从另一个角度强调了 Agent 的重要性:尽管从技术上讲,Gemini Spark 只是一个「软件功能」,但其地位早已和摄像头和麦克风一样,是手机不可或缺的核心组成。
图片来源:Google
电脑方面,Google 提到 Gemini Spark 将在 26 年夏季登陆 Chrome 浏览器。
但不同于豆包等部分付费的国内 AI Agent,Gemini Spark 为全订阅功能,下周会开放给 Google AI Ultra 订阅用户。
值得一提的是,为了区分企业用户和高用量个人用户,Google 在原本的 AI Pro(每月 20 美元)、AI Ultra(每月 250 美元、限时降价至每月 200 美元)之间,额外加入了一个「青春版」AI Ultra 等级(每月 100 美元)。
图片来源:Google
看得出,即使是「财大气粗」的 Google ,也难以靠免费模式维持这种全面 AI 带来的巨大算力成本。说到底,AI 的尽头是算力,算力的尽头是硬件,而硬件的尽头是钱。在 AI 时代,互联网巨头已经难以靠硬件销售和服务订阅来维持 AI 的成本了。
夸张点说,随着 AI Agent 的能力进一步扩展,付费 AI 服务很有可能会变得跟手机套餐一样,成为我们「刚性消费」的一部分。
音频眼镜首次登台,Gemini 生态日渐完善
在去年,Google 展示了带显示功能的 AI 眼镜。在今年的 google I/O 上,Google 也带来了「音频版」智能眼镜的预览。首先,尽管名字叫「音频智能眼镜」,但这类 Gemini 眼镜并不是界环那种纯音频眼镜,而是搭载摄像头、拥有 AI 视觉和多模态输入能力的音频眼镜。
由于眼镜要 26 年秋季才发布(高概率是配合高通骁龙峰会上的新芯片),所以 Google 并未在 Google I/O 上公布重量、传感器型号、续航等产品具体信息,只展示了产品外观和大致的功能。
图片来源:Google
设计方面,Google I/O 上提到了三星与 Gentle Monster、Warby Parker 两大知名眼镜品牌合作打造的智能眼镜。功能上,两款眼镜和现有的 AR1 智能眼镜类似,可以用语音或右边镜腿的触控板唤醒 Gemini。
得益于 Gemini 底层模型和 Spark 智能体的能力,Gemini 眼镜可以全自动把用户的语音指令拆解成 Agent 动作,并在用户的手机上后台执行。用户可以在眼镜上用语音要求 Gemini「买一杯上次点的咖啡」;手机上的 Gemini 就可以自动打开咖啡 App、自动添加商品到购物车,并在用户语音确认(应该和国内 AI 眼镜一样采用声纹验证技术)后直接下单。
图片来源:Google
值得一提的是,Google 还提到 Gemini AI 音频眼镜将支持 Android 和 iOS 两个平台。可以肯定的是,在 iOS 极为严格的 App 沙盒机制下,Gemini 音频眼镜的能力和 Android 平台相比必然大打折扣。
为了拓展 Gemini 的能力边界,Google 也把自己的办公套件(Google Workspace)全面 AI 化:用户可以用语音调用 Gemini 查找邮件信息(Gmail Live)、写作(Docs Live)甚至是生成图像(Google Pics)。
图片来源:Google
结合此前 Android 17 选题里提到的高端 Googlebook,谷歌今年是在不遗余力地把 Gemini 塞进自己能掌控的每一个生态硬件里。
Google I/O 的主题演讲的到这里就告一段落了,看到这里,可能有人会觉得此次 Google I/O 只不过是 Google 在 AI 大战落伍后的「画饼」行为。但在雷科技看来,Google I/O 2026 主题演讲提到的内容,其实意味着谷歌终于摸到了 AI 时代的正确门票。
比如针对「AI 能干什么」这个问题,Google 直接对自己的「发家业务」开刀,用生成式 UI 改变了 AIGC「回合制」「单向交互」的设定。这种从单向到双向的转变也出现在了 Gemini 智能硬件中。过去很长一段时间里,AI 硬件赛道都没有出现真正的「双向 AI 设备」:硬件是硬件,AI 是 AI,两者割裂极为严重。
图片来源:Google
而这一次,Gemini 3.5 Flash 的多模态能力,真正让音频眼镜等设备成为了 Gemini 的「物理器官」,再加上上周发布的 Googlebook,Gemini 终于拥有了主动感知世界、主动输出结果的能力。
更重要的是,Gemini 正利用其在 Android 系统中的「特权」,构筑一道其他厂商无法逾越的护城河。当海外的 Anthropic、国内的各类大模型智能体还在沙盒机制的边缘试探,用 MCP 协议艰难地搞跨 App 协同操作时,Gemini 已经在 Android 底层实现了畅通无阻的原生互通。
还记得我们开头是说过的「Google 同时掌握 Gemini、YouTube、Google 网页搜索、Android 等多个不同的互联网生态入口」吗,在 Google I/O 2026 上,这些四面「开花」的生态入口,终于等来了「结果」的季节。
但话又说回来,Gemini 高度依靠 Google 生态,这对 OpenAI、Grok 来说或许是个挑战;但对国内 AI 企业来说,这也是 Gemini 留给他们的机遇。
毫无疑问,Gemini 在海外再怎么大杀四方、原生互通,这套全家桶生态在国内依旧「水土不服」。但这套「多模态输入输出 + 私有系统 + 全天候托管 Agent」的业务逻辑,却给国内 AI 企业指明了发展的道路:
海外有谷歌在原生底层大刀阔斧地破除沙盒限制,国内厂商同样能在定制安卓系统里搞起自己的「独立王国」。
更重要的是,中国品牌在智能体本土化落地上的卷度,甚至比原生安卓还要激进,还更接地气。在 Google I/O 2026 上,Google 亮出了 Gemini 的底牌,接下来就看国内 AI 巨头们和手机品牌们如何强强联手,用合作「破局」了。