谷歌首席AI架构师揭秘:谷歌如何用2年半完成AI逆袭
那时的谷歌,在大模型赛道上明显落后,AI Studio仅有3万用户且零收入,团队在激烈的竞争中承受着巨大压力。
从坦诚落后到Gemini 3引爆市场,谷歌完成了一场令人瞩目的逆袭。这场翻身仗的背后,是三个关键转变:
第一, 从实验室思维转向战场思维,建立“每六个月重大迭代”的更新节奏;
第二, 放弃大而全,聚焦三大杀手锏,让模型真正理解人类意图、服务全球用户、具备使用和创造工具的能力;
第三, 激活谷歌的终极武器,调动六大洲2500名专家,实现从芯片层到搜索、Android等亿级产品的端到端协同。
在这场关乎未来的AI军备竞赛中,一家巨头如何放下身段承认落后,又如何在短短两年半内后来居上?在与GoogleDeepMind高级产品经理洛根·基尔帕特里克的对话中,卡武克乔格鲁首次揭示了逆袭背后的真实故事。
以下为卡武克乔格鲁专访精华内容:

问:Gemini 3发布后市场反馈积极,你如何评价这一代模型的突破?
卡武克乔格鲁:在完成基准测试和预发布验证后,Gemini 3的实际表现确实达到了我们的预期。这个模型不仅具备强大的技术能力,更重要的是在真实应用场景中获得了用户的认可。虽然仍有完善空间,但目前的反馈令人鼓舞,用户关注的创新点与我们设定的技术方向高度一致。
问:从Gemini 2.5到Gemini 3.0,技术进步的速度似乎仍在加速。你如何看待这种发展态势?
卡武克乔格鲁:当前AI领域确实保持着惊人的创新节奏。无论是在基础研究还是工程实践层面,我们都看到了持续突破。这种进步源于一个良性循环:当技术在实际场景中产生价值时,我们会获得更多反馈,进而催生新的创新思路。随着待解决问题的复杂度和多样性不断提升,这种挑战反而推动着我们向前发展。
问:基准测试在技术发展中扮演着怎样的角色?
卡武克乔格鲁:基准测试与模型开发是相辅相成的关系。比如,以号称“人类最后考试”的HLE(衡量AI解决人类级复杂难题能力)基准测试中,早期模型只能达到1%或2%的水平,如今DeepThink之类的先进模型已能突破40%的水平。而像GPQA Diamond这样的挑战性基准,虽然我们仍在逐步提升其中1%的性能,但它们确实指向了尚未完全解决的核心难题。
问:在GPQA等基准测试上的进展,是否意味着我们需要重新定义技术前沿?
卡武克乔格鲁:基准测试确实重要,但它与真实进步之间并非完全划等号。在我看来,衡量技术进步的根本标准在于实际应用。当科学家借助模型推进研究、学生通过它完成学业、工程师利用它解决实际问题时,当这些工具真正融入人类知识工作的各个环节,我们才能说实现了真正的进步。基准测试的作用,在于为这种进步提供可量化的参照维度。
三大技术支柱与产品飞轮:Gemini 3的破局之道
问:在模型迭代过程中,团队如何确定技术突破的重点方向?对于Gemini,特别是Pro模型,你们试图在哪些方面进行重点提升?
卡武克乔格鲁:我们主要聚焦三个核心维度:
首先是精准的意图理解。模型必须准确捕捉用户指令的深层意图,而非简单地进行模式匹配。这需要突破传统应答逻辑,建立真正的任务理解与执行能力。
其次,全球化服务能力。作为服务全球用户的技术平台,谷歌需要确保技术具备真正的包容性,能够触达全球的每个人。Gemini 3 Pro在多个非优势语言场景的表现突破,标志着我们向技术普惠迈出了重要一步。
最后,工具化与创造能力。在技术实现层面,我们正重点突破函数调用、工具运用、智能体行动与代码生成等核心能力。其中,工具调用能力具有独特的指数效应,它使模型既能灵活运用现有工具库完成复杂推理,又具备了创造新工具的原生能力。这种自我进化的特性,让模型从执行工具转变为创造工具的主体。
代码能力的重要性不仅体现在技术层面,更在于其作为数字世界的构建基石。在数字化深度发展的今天,代码已成为连接创意与现实的核心媒介,让每个想法都具备通过计算实现的可能性。
我们正在见证编程范式的根本变革。通过自然语言编程(或称氛围编程),创作者只需用日常语言描述构想,就能实时生成可用程序。这种”描述即实现”的新范式,将技术门槛降至前所未有的程度。当创意与实现之间的屏障被打破,创新不再是专业开发者的特权,而是每个拥有想法的人都可触及的能力。
问:谷歌新推出的智能体编码平台Anti-Gravity对模型优化有何价值?
卡武克乔格鲁:这类产品平台构成了我们技术演进的重要基础设施。从模型研发角度看,与开发者建立直接的产品级连接具有双重价值:
首先,通过AI Studio、Anti-Gravity等产品获得的真实用户反馈,为我们提供了最直接的技术优化方向。这些来自开发一线的需求信号,比任何模拟测试都能更精准地揭示模型需要改进的维度。
其次,这种产品与研究的闭环正在重塑我们的研发范式。正如搜索的AI概览功能通过海量用户交互持续优化,Anti-Gravity在发布阶段提供的深度反馈,同样成为推动模型迭代的关键动力。
需要强调的是,虽然基准测试为我们设定了技术攻坚的坐标,但真正衡量技术价值的标尺始终是现实世界的应用效果。只有当模型在具体场景中持续创造价值,技术演进才具有真正的生命力。
从研究到工程:首席AI架构师如何重塑技术落地范式
问:作为首席AI架构师,你如何看待模型研发与产品落地的协同关系?
卡武克乔格鲁:技术价值最终需要通过产品体验来实现。我的核心使命是确保谷歌各产品线都能获得最前沿的AI能力支撑,同时将产品反馈转化为技术演进的重要驱动力。
技术赋能与需求洞察的双向循环。我们致力于构建完整的技术赋能体系:一方面将尖端模型能力转化为产品价值,另一方面通过真实用户场景获取改进方向。这种双向循环正在重塑我们的研发范式,产品不仅是技术的应用场景,更是驱动技术突破的重要源头。
重新定义AI时代的用户体验。当前我们正处于人机交互范式变革的关键节点。新型AI技术正在重新定义用户对产品的期待,包括交互方式、服务深度和信息呈现形式。这就需要我们与各产品团队紧密协作,共同探索下一代智能体验的边界。
构建AGI的实践路径。我们坚信,AGI的实现必须通过与真实世界的持续交互。产品平台恰恰提供了这种宝贵的连接通道,让我们能够收集来自亿万用户的反馈信号,持续校准技术发展方向。这正是我们将产品整合视为AGI演进核心环节的根本原因。
问:你提到与客户和产品共同构建AGI的理念,这似乎超越了传统的研究模式?
卡武克乔格鲁:这正是我们方法论的核心理念。构建AGI不是封闭的实验室研究,而是与真实世界持续互动的工程实践。
为此,我们正在建立一套基于工程思维的完整体系:
系统化的安全架构:从模型预训练阶段开始,安全考量就深度融入开发全流程。我们不仅设有专业的安全团队,更让每位研发人员都具备安全意识。在每次迭代评审时,安全指标与性能指标具有同等重要的地位。
全局协作的工程实践:Gemini 3的发布体现了谷歌独特的协同能力。就像现代航天工程需要全球协作一样,我们汇聚了六大洲的技术团队,实现了从底层研究到产品集成的无缝衔接。这种规模的技术协调,确保了模型发布时就能在全线产品中提供一致的用户体验。
产品驱动的技术演进:当AI概览、Gemini应用等产品在开发初期就参与模型优化,我们实际上建立了一个持续改进的飞轮。产品团队不仅是技术使用者,更是共同定义技术方向的战略伙伴。这种深度整合让我们能够快速将实验室创新转化为用户价值。
后Gemini 3时代:智能体、创作与专业化的下一战场
问:在Gemini 3取得显著成就后,团队将如何规划下一代模型的发展路径?
卡武克乔格鲁:我们始终在“庆祝成就”与“追求卓越”之间保持平衡。当前确实应该为Gemini 3取得的进展感到自豪,但同时也清醒地认识到技术突破永无止境。
从技术维度来看,我们识别出若干关键提升方向:
内容创作质量:虽然当前模型已具备出色的文本生成能力,但在保持风格一致性、情感准确性和逻辑严密性方面仍需加强
智能体与编程能力:这代表着最具潜力的突破领域。我们需要让模型在复杂任务规划、自主决策和代码优化方面达到新高度
专业化场景覆盖:尽管现有模型已服务了绝大多数开发者群体,但在处理特定领域的复杂需求时,我们仍需提升模型的精准度和可靠性
问:回顾Gemini的发展历程,为何在多模态领域能持续领先,而在智能体工具使用方面却经历了渐进式发展?
卡武克乔格鲁:这种差异源于技术演进逻辑的根本转变。Gemini项目代表着我们从纯研究范式向工程化思维的重大转型。早期团队主要由研究人员构成,我们擅长在封闭环境中解决定义明确的问题。
多模态技术正好符合这种模式,其技术挑战相对聚焦,评估标准也较为清晰。而智能体工具使用本质上是一个开放环境问题,需要与真实世界持续交互才能完善。
如今我们建立了完全不同的开发节奏:每六个月发布重大版本迭代,同时保持月度更新频率。这种工程化周期让我们能够将用户反馈快速融入技术改进,形成持续优化的闭环。
多模态大融合:从Nano Banana看生成式媒体的未来
问:在构建AGI的进程中,生成式媒体模型扮演着怎样的角色?
卡武克乔格鲁:生成式媒体模型的发展轨迹揭示了AI演进的内在逻辑。回溯学术发展史,图像生成曾是早期研究的重要切入点。通过视觉输出,我们能够直观检验模型对物理世界的理解程度。从PixelCNN等先驱工作开始,我们逐步建立起对生成模型的系统性认知。
然而技术发展呈现出有趣的辩证关系:当文本模型因其结构化特性成为快速进步的主要载体时,媒体模型经历了必要的沉淀期。但如今我们看到,多模态融合正成为技术发展的必然趋势。
这种融合并非人为推动,而是架构演进的自然结果。随着模型能力的提升,文本与视觉这两个原本分离的领域正在共享越来越多的底层架构。文本模型带来的语义理解与图像模型蕴含的物理直觉,正在形成强大的互补效应。
我们最近看到的Nano Banana模型正是这种融合的早期例证。它展现出模型同时处理视觉和语言信号的能力,让用户感受到系统真正理解了他们的创作意图。这种技术汇流不仅提升了性能指标,更重要的是创造了更符合人类直觉的交互体验。
