Gemini2.0发布！主打Agent+多模态，性能超1.5Pro可直接生成音频图片|神经网络在线更新_在线学习

DeepMindCEOHassabis说，「它的表现与当前的1.5Pro型号一样出色。因此，你可以将其视为在相同成本效益、性能效率和速度下，整整提升了一个档次。我们对此非常满意。」而且，它不仅在执行Gemini过去能完成的任务上表现更优，还能完成新的任务。Gemini2.0现在能够原生生成音频和图像，并带来了新的多模态能力，Hassabis表示，这些能力为AI领域的下一个重大突破——Agent，奠定了基础。

可以说，原生多模态输入、输出的大模型时代来了。

本次主要发布四款产品：Gemini2.0Flash、通用助手ProjectAstra的新进展、ProjectMariner浏览器Agent助手、AI代码助手Jules。

现在可以在Gemini网页端使用Gemini2.0Flash，稍后会在Geminiapp中推出。

开发者可以在GoogleAIStudio和VertexAI使用Gemini2.0Flash模型，所有开发者均可使用多模态输入和文本输出，产品将于1月份全面上市，届时将推出更多型号。

同时2.0Flash还具有新功能，除了能够支持图片、视频和音频等多模态输入，2.0Flash现在还可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用GoogleSearch、代码执行以及第三方用户定义的函数等工具。

开发者将能够使用Gemini2.0Flash生成包含文本、音频和图像的集成响应——这一切都通过单一API调用实现。这些新的输出模式现已向早期测试者开放，预计明年将更广泛地推广。所有图像和音频输出中将启用SynthID隐形水印。

开发者现在可以构建实时多模态应用，支持来自摄像头或屏幕的音视频流输入。自然对话模式如打断和语音活动检测均得到支持。API支持将多个工具整合在一起，通过一次API调用完成复杂用例。

基于Gemini2.0Flash的版本，谷歌今年I/O上推出的通用助手ProjectAstra有了很多功能的更新。

借助AI助手Geminiapp以及智能眼镜（不确定是否是首次亮相）等其他设备，谷歌正在将这些功能正在将这些功能应用于Google的的更多产品中。不得不说，智能眼镜对于谷歌在Astra项目上的努力来说，再合适不过了。

状态：期货，目前尚未全面推出，仅限受信任的测试人员使用。

在官方新闻稿中，谷歌CEO桑达尔·皮查伊将Agents定义为「能够更深入地理解你周围的世界，提前多步思考，并在你的监督下代表你采取行动」的模型。

ProjectMariner是使用Gemini2.0构建的早期原型，它能够理解和推理浏览器页面中的信息，包括像素和文本、代码、图像和表单等网页元素，然后通过Chrome扩展程序的形式完成任务。

这算是谷歌的「ComputerUse」了。

在WebVoyager基准测试（该测试针对智能体在端到端的真实世界网页任务的性能）中，ProjectMariner作为单个智能体设置实现了83.5%的工作效率，达到了最先进的水平。

出于安全原因和技术限制，目前ProjectMariner只会在当前激活的网页上工作————你就像站在它身后，看着它使用你的电脑。而它在采取某些敏感操作（如购买某物）之前，会要求用户进行最终确认。

基于Gemini2.0，Jules以异步方式工作，并与用户的GitHub工作流程集成，在专注于实际想要构建的内容时，它负责处理Bug修复和其他耗时的任务。

官方声称，利用了搭载代码执行工具的2.0Flash，在SWE-benchVerified测试中达到了51.8%的通过率，Claude3.5是49%。

Jules会制定详尽的多步骤计划来解决问题，高效地修改多个文件，甚至准备拉取请求，直接将修复内容提交回GitHub。

状态：期货，目前Jules开放给一小部分可信赖的测试者，并计划在2025年初向其他有兴趣的开发者提供。

上周，谷歌推出了Genie2，这是一种世界模型，能够从单一图像中创造出无尽的、可玩的3D世界。这一次，他们利用Gemini2.0构建了游戏Agents，这些Agent能帮助用户在视频游戏的虚拟世界中导航。它们仅凭屏幕上的动作就能推理游戏情况，并在实时对话中提供下一步行动的建议。

谷歌与Supercell等顶尖的游戏开发团队合作，探索Agent在游戏领域的应用。通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现，来评估它们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外，谷歌还将Gemini2.0的空间推理能力应用于机器人领域，尝试让智能体在现实世界中提供帮助。

除此之外，谷歌还推出了一项名为深度研究（DeepResearch）的新功能，基于高级推理和长上下文能力，它能直接帮你干研究助理的活儿——给个主题，自己出报告的那种。有点类似kimi的深度搜索。

THE END

Gemini2.0发布！主打Agent+多模态，性能超1.5Pro可直接生成音频图片

解析网络实践

Gemini2.0发布！主打Agent+多模态，性能超1.5Pro可直接生成音频图片

基于图神经网络的大语言模型检索增强生成框架研究算法大模型

神经网络中权重更新的理论和技巧人工智能

Android9.0来了 6个重大更新你得知道3人民网通信频道

2022年全国人工智能应用技术技能大赛理论知识竞赛题库大全

RAG：检索增强的前世今生 20240317 氢AI 大语言模型可以把大量的信息和知识压缩起来，提供一个友好但不精确的检索。出于神经网络的本质，...

BigjpgAI人工智能图片无损放大

济南大学主页平台管理系统逄金波中文主页

基于5G和人工智能的产品质量实时检测和优化

干货关于机器学习的知识点，全在这篇文章里了