Gemini2.0发布!主打Agent+多模态,性能超1.5Pro可直接生成音频图片

DeepMindCEOHassabis说,「它的表现与当前的1.5Pro型号一样出色。因此,你可以将其视为在相同成本效益、性能效率和速度下,整整提升了一个档次。我们对此非常满意。」而且,它不仅在执行Gemini过去能完成的任务上表现更优,还能完成新的任务。Gemini2.0现在能够原生生成音频和图像,并带来了新的多模态能力,Hassabis表示,这些能力为AI领域的下一个重大突破——Agent,奠定了基础。

可以说,原生多模态输入、输出的大模型时代来了。

本次主要发布四款产品:Gemini2.0Flash、通用助手ProjectAstra的新进展、ProjectMariner浏览器Agent助手、AI代码助手Jules。

现在可以在Gemini网页端使用Gemini2.0Flash,稍后会在Geminiapp中推出。

开发者可以在GoogleAIStudio和VertexAI使用Gemini2.0Flash模型,所有开发者均可使用多模态输入和文本输出,产品将于1月份全面上市,届时将推出更多型号。

同时2.0Flash还具有新功能,除了能够支持图片、视频和音频等多模态输入,2.0Flash现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用GoogleSearch、代码执行以及第三方用户定义的函数等工具。

开发者将能够使用Gemini2.0Flash生成包含文本、音频和图像的集成响应——这一切都通过单一API调用实现。这些新的输出模式现已向早期测试者开放,预计明年将更广泛地推广。所有图像和音频输出中将启用SynthID隐形水印。

开发者现在可以构建实时多模态应用,支持来自摄像头或屏幕的音视频流输入。自然对话模式如打断和语音活动检测均得到支持。API支持将多个工具整合在一起,通过一次API调用完成复杂用例。

基于Gemini2.0Flash的版本,谷歌今年I/O上推出的通用助手ProjectAstra有了很多功能的更新。

借助AI助手Geminiapp以及智能眼镜(不确定是否是首次亮相)等其他设备,谷歌正在将这些功能正在将这些功能应用于Google的的更多产品中。不得不说,智能眼镜对于谷歌在Astra项目上的努力来说,再合适不过了。

状态:期货,目前尚未全面推出,仅限受信任的测试人员使用。

在官方新闻稿中,谷歌CEO桑达尔·皮查伊将Agents定义为「能够更深入地理解你周围的世界,提前多步思考,并在你的监督下代表你采取行动」的模型。

ProjectMariner是使用Gemini2.0构建的早期原型,它能够理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过Chrome扩展程序的形式完成任务。

这算是谷歌的「ComputerUse」了。

在WebVoyager基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,ProjectMariner作为单个智能体设置实现了83.5%的工作效率,达到了最先进的水平。

出于安全原因和技术限制,目前ProjectMariner只会在当前激活的网页上工作————你就像站在它身后,看着它使用你的电脑。而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。

基于Gemini2.0,Jules以异步方式工作,并与用户的GitHub工作流程集成,在专注于实际想要构建的内容时,它负责处理Bug修复和其他耗时的任务。

官方声称,利用了搭载代码执行工具的2.0Flash,在SWE-benchVerified测试中达到了51.8%的通过率,Claude3.5是49%。

Jules会制定详尽的多步骤计划来解决问题,高效地修改多个文件,甚至准备拉取请求,直接将修复内容提交回GitHub。

状态:期货,目前Jules开放给一小部分可信赖的测试者,并计划在2025年初向其他有兴趣的开发者提供。

上周,谷歌推出了Genie2,这是一种世界模型,能够从单一图像中创造出无尽的、可玩的3D世界。这一次,他们利用Gemini2.0构建了游戏Agents,这些Agent能帮助用户在视频游戏的虚拟世界中导航。它们仅凭屏幕上的动作就能推理游戏情况,并在实时对话中提供下一步行动的建议。

谷歌与Supercell等顶尖的游戏开发团队合作,探索Agent在游戏领域的应用。通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估它们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外,谷歌还将Gemini2.0的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。

除此之外,谷歌还推出了一项名为深度研究(DeepResearch)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。有点类似kimi的深度搜索。

THE END
1.人工智能深入了解神经网络 通过Frank La La|2019 年 2 月 神经网络是很多高级的人工智能 (AI) 解决方案的基本元素。但是,很少人取消 derstand 这一概念的核心数学或结构化基础。虽然初始研究神经网络返回日期数十年来,它不是直到最近的计算能力和训练数据集的大小进行它们实际供常规使用。 https://docs.microsoft.com/zh-cn/archive/msdn-magazine/2019/february/artificially-intelligent-a-closer-look-at-neural-networks
2.深度学习轻量级神经网络模型,嵌入式微小设备也能实时检测轻量级神经网络的进步已经彻底改变了计算机视觉在各种物联网(IoT)应用中的使用,涵盖了远程监控和过程自动化。 然而,对于许多这些应用来说,检测小型物体,这是至关重要的,目前在计算机视觉研究中仍然是一个未探索的领域,尤其是在资源受限的嵌入式设备上,这些设备拥有处理器。 https://blog.51cto.com/u_15671528/12791754
3.深入探索神经网络反向传播算法在神经网络中,梯度计算是指利用反向传播算法计算损失函数对模型参数的梯度。主要通过链式法则,从输出层到输入层逐层计算梯度。梯度表示了函数在某一点的变化率,通过梯度可以找到最小化损失函数的方向。 反向传播算法 反向传播算法是一种基于链式法则的梯度计算方法,通过不断迭代更新模型参数,使得损失函数逐渐减小。在反向https://www.jianshu.com/p/914421a9533a
4.深度学习&神经网络知识反向传播是一种高效的优化方法,它根据损失函数的梯度更新网络中的权重和偏置,以减小误差。这涉及到链式法则的应用,以便逐层计算梯度。 深度学习 基本原理 深度学习是指使用多层(深层)神经网络架构来进行机器学习的方法。所谓“深”,指的是网络中有较多的隐藏层,能够捕捉更复杂的模式。深度学习的一个显著特点是它可以https://blog.csdn.net/auiiii/article/details/144338942
5.实战项目远程AI手势识别&在线USB更新固件【实战项目】远程AI手势识别&在线USB更新固件 一、项目介绍 远程AI手势识别,主要采用了TinyMaix神经网络进行的手势识别功能,TinyMaix是面向单片机超轻量级的神经网络推理库,即TinyML推理库,可以让你在任意单片机上运行轻量级深度学习模型。项目的主控采用的是RA4M2-100PIN开发板,周边的传感器有HS3003温湿度传感器,ISLhttps://www.elecfans.com/d/2027985.html
6.联邦学习神经网络FedAvg算法实现python简单来说,每一轮通信时都只是选择部分客户端,这些客户端利用本地的数据进行参数更新,然后将更新后的参数传给服务器,服务器汇总客户端更新后的参数形成最新的全局参数。下一轮通信时,服务器端将最新的参数分发给被选中的客户端,进行下一轮更新。 3. 客户端 客户端没什么可说的,就是利用本地数据对神经网络模型的https://www.jb51.net/article/247652.htm
7.智东西早报:中科大实现18量子比特纠缠北京AI产业白皮书发布据介绍,这是一个自我监督的物体追踪模型,研究人员给神经网络提供的是大量无标记视频数据。模型要学会预测黑白视频中物体的颜色,最关键的步骤是物体跟踪。 #通信圈# 1、中国移动宣布明年2月采购5G智能手机 7月2日消息,日前,中国移动发布《5G终端产品指引》。中国移动在《终端指引》中明确提出,要在今年9月采购测试终https://zhidx.com/p/122927.html
8.andrewng机器学习课程笔记它是用来让神经网络自动更新权重WW的。 这里权重WW与之前线性回归权值更新形式上是一样: 那现在要做的工作就是求出后面的偏导,在求之前进一步变形: 注意J(W,b;x(i),y(i))J(W,b;x(i),y(i))表示的是单个样例的代价函数,而J(W,b)J(W,b)表示的是整体的代价函数。 所以接下来的工作就是求出?https://www.cnblogs.com/marsggbo/p/7429210.html
9.黑龙江省北安市城镇基准地价更新探究.pdf首先, 明确基准地价更新内涵和相关基础理论,为基准地价更新实证研究奠定理论支撑;其次进行 北安市城镇土地分等,城镇土地定级的调整,结合指数模型和BP神经网络进行更新基准地 价评估,得到当前条件下商业、住宅基准地价和工业用地区片价等;再次,定量分析北安市 城镇基准地价更新结果现状和时空变化规律,根据更新结果定性https://max.book118.com/html/2017/1103/138720374.shtm
10.一文详解神经网络BP算法原理及Python实现在手工设定了神经网络的层数,每层的神经元的个数,学习率 η(下面会提到)后,BP 算法会先随机初始化每条连接线权重和偏置,然后对于训练集中的每个输入 x 和输出 y,BP 算法都会先执行前向传输得到预测值,然后根据真实值与预测值之间的误差执行逆向反馈更新神经网络中每条连接线的权重和每层的偏好。在没有到达停止https://cloud.tencent.com/developer/article/1076834
11.99%依赖神经网络,特斯拉FSD重大更新,V12到底有什么不一样?但端到端模型的“黑盒”问题目前产业界尚未有十分成熟的解决方案,因此中信证券认为,其最终能否迈向追求极致安全性的L4全无人驾驶仍待观望。 原标题:《99%依赖神经网络!特斯拉FSD重大更新,V12到底有什么不一样?》https://www.thepaper.cn/newsDetail_forward_25460026
12.深圳先进院等提出忆阻器神经网络的高能效权重更新方案在新的学习方案中,随机提取训练样本,基于训练样本更新整个卷积神经网络的权重,计算梯度值获取权重更新的方向,引入忆阻器非理想特性,给予忆阻器单脉冲进行权重更新,该方法不需要复杂的外围电路设计,节省了芯片面积和功耗。研究基于新的学习方案提出了四种权重更新方式,将传统的SGD和PL作为基准,在基于LeNet5网络对MNIST图像https://www.cas.cn/syky/202108/t20210803_4800979.shtml