DeepMindCEOHassabis说,「它的表现与当前的1.5Pro型号一样出色。因此,你可以将其视为在相同成本效益、性能效率和速度下,整整提升了一个档次。我们对此非常满意。」而且,它不仅在执行Gemini过去能完成的任务上表现更优,还能完成新的任务。Gemini2.0现在能够原生生成音频和图像,并带来了新的多模态能力,Hassabis表示,这些能力为AI领域的下一个重大突破——Agent,奠定了基础。
可以说,原生多模态输入、输出的大模型时代来了。
本次主要发布四款产品:Gemini2.0Flash、通用助手ProjectAstra的新进展、ProjectMariner浏览器Agent助手、AI代码助手Jules。
现在可以在Gemini网页端使用Gemini2.0Flash,稍后会在Geminiapp中推出。
开发者可以在GoogleAIStudio和VertexAI使用Gemini2.0Flash模型,所有开发者均可使用多模态输入和文本输出,产品将于1月份全面上市,届时将推出更多型号。
同时2.0Flash还具有新功能,除了能够支持图片、视频和音频等多模态输入,2.0Flash现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用GoogleSearch、代码执行以及第三方用户定义的函数等工具。
开发者将能够使用Gemini2.0Flash生成包含文本、音频和图像的集成响应——这一切都通过单一API调用实现。这些新的输出模式现已向早期测试者开放,预计明年将更广泛地推广。所有图像和音频输出中将启用SynthID隐形水印。
开发者现在可以构建实时多模态应用,支持来自摄像头或屏幕的音视频流输入。自然对话模式如打断和语音活动检测均得到支持。API支持将多个工具整合在一起,通过一次API调用完成复杂用例。
基于Gemini2.0Flash的版本,谷歌今年I/O上推出的通用助手ProjectAstra有了很多功能的更新。
借助AI助手Geminiapp以及智能眼镜(不确定是否是首次亮相)等其他设备,谷歌正在将这些功能正在将这些功能应用于Google的的更多产品中。不得不说,智能眼镜对于谷歌在Astra项目上的努力来说,再合适不过了。
状态:期货,目前尚未全面推出,仅限受信任的测试人员使用。
在官方新闻稿中,谷歌CEO桑达尔·皮查伊将Agents定义为「能够更深入地理解你周围的世界,提前多步思考,并在你的监督下代表你采取行动」的模型。
ProjectMariner是使用Gemini2.0构建的早期原型,它能够理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过Chrome扩展程序的形式完成任务。
这算是谷歌的「ComputerUse」了。
在WebVoyager基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,ProjectMariner作为单个智能体设置实现了83.5%的工作效率,达到了最先进的水平。
出于安全原因和技术限制,目前ProjectMariner只会在当前激活的网页上工作————你就像站在它身后,看着它使用你的电脑。而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。
基于Gemini2.0,Jules以异步方式工作,并与用户的GitHub工作流程集成,在专注于实际想要构建的内容时,它负责处理Bug修复和其他耗时的任务。
官方声称,利用了搭载代码执行工具的2.0Flash,在SWE-benchVerified测试中达到了51.8%的通过率,Claude3.5是49%。
Jules会制定详尽的多步骤计划来解决问题,高效地修改多个文件,甚至准备拉取请求,直接将修复内容提交回GitHub。
状态:期货,目前Jules开放给一小部分可信赖的测试者,并计划在2025年初向其他有兴趣的开发者提供。
上周,谷歌推出了Genie2,这是一种世界模型,能够从单一图像中创造出无尽的、可玩的3D世界。这一次,他们利用Gemini2.0构建了游戏Agents,这些Agent能帮助用户在视频游戏的虚拟世界中导航。它们仅凭屏幕上的动作就能推理游戏情况,并在实时对话中提供下一步行动的建议。
谷歌与Supercell等顶尖的游戏开发团队合作,探索Agent在游戏领域的应用。通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估它们理解游戏规则、应对挑战的能力。
除了探索虚拟世界的智能体能力外,谷歌还将Gemini2.0的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。
除此之外,谷歌还推出了一项名为深度研究(DeepResearch)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。有点类似kimi的深度搜索。