谷歌自诞生后的20多年,始终保持着创新型、富有活力和潜力的企业形象。谷歌从斯坦福大学宿舍成立20余年后,它已努力发展成一家具有深远影响力的国际企业,成为世界上最有价值的公司之一。谷歌持续在人工智能领域推陈出新,现如今,上百项谷歌服务正在通过机器学习变得更加智能。谷歌正尝试着利用AI及其他先进技术尝试去解决巨大、复杂且棘手的人类难题。
1.1.致力于汇整全球数据,供大众使用并带来效益
怀揣着打造世界上最好的搜索引擎的愿景,Google公司成立。1996年1月,加州斯坦福大学理学博士生的拉里·佩奇和谢尔盖·布林在学校开始着手研究关于搜索的研究项目。1998年,拉里·佩奇和谢尔盖·布林成立Google公司。
1.2.为科学洞见下注,人工智能领域的先行者
1.2.1.1996年-2004年:萌芽期,专注“用户体验”,极致搜索产品问世
独创PageRank算法迅速成为搜索引擎领导者。当时的一系列知名商业搜索引擎不再投资于改进自身的搜索技术,随着互联网信息指数级增长,此类搜索引擎的搜索质量不断下降。而谷歌创始人拉里·佩奇和谢尔盖·布林坚信搜索是他们能解决最长期、最重要的问题。他们的目的非常单纯——为用户找到更好的搜索结果。1998年,谷歌正式上线,由创始人拉里·佩奇和谢尔盖·布林负责运营和维护。
1.2.2.2004年-2008年:快速扩张期,并购开启新发展阶段
在埃里克·施密特任职期间,谷歌通过上市和后续一系列并购快速扩张,逐步实现由搜索引擎公司向科技公司的转型。
1.2.3.2008年-2015年:技术突破期,持续为科学洞见下注
2013年,谷歌以13亿美元的价格收购以色列地图服务公司Waze——该公司主业为利用移动设备的GPS信息来进行行车路线智能规划,并且拥有庞大社交用户群体,谷歌后续将其整合进了谷歌地图之中。2013年深层神经网络先驱之一的杰夫·辛顿来到谷歌,并加入了一个致力于机器学习平台研发的创意精英团队,这只团队便是著名的GoogleBrain。2014年谷歌收购Deepmind——一家专注于人工智能领域的公司。Deepmind成立于2010年,总部设于英国伦敦。该公司采用先进的深度学习技术和神经网络,以推动人工智能和机器学习的发展。2016年,DeepMind开发的AlphaGo程序以4:1击败韩国围棋冠军李世石,成为人工智能领域的里程碑事件。
1.2.4.2015-至今:重组转型成立Alphabet公司,制定AIFirst战略
1.3.以影响力最大的首席执行官为核心,吸引创意精英
谷歌的两位创始人分别是拉里·佩奇和谢尔盖·布林。两人卓越的远见和聚焦用户改进产品的思维奠定了谷歌的企业文化根基。拉里·佩奇1973年出生在美国密歇根州东兰辛市的一个犹太家庭,父亲卡尔文森·佩奇是一个密歇根州立大学计算机教授,拥有计算机科学博士学位,母亲葛洛丽亚·佩奇也是密歇根州立大学的计算机教授。1996年,佩奇进入斯坦福大学学习,在攻读计算机理学博士学位期间,拉里·佩奇遇到了谢尔盖·布林。谢尔盖·布林出生在苏联莫斯科的一个犹太家庭,父母两人皆毕业于莫斯科国立大学。6岁时与父母移居至美国,之后于马里兰大学学院市分校上学,并沿着其祖父与父亲的脚步学习数学,同时双修了计算机科学。毕业后,谢尔盖进入斯坦福大学。
谷歌始终遵循的组织原则是:找出最有影响力的人物,组织就以此人为中心。自上市以来谷歌经历过三次较大的组织架构调整。在刚上市时是“三驾马车”共同决策的组织架构,其中施密特担任CEO负责公司运营,两位创始人专注于技术领域,公司内部以项目组形式开展工作。2011年,创始人佩奇重新出任谷歌CEO,开始简化组织架构,各个重要的产品部门分别由一位高级副总裁负责,独立提出产品计划,此举提升了产品部门的自主权。此阶段组织架构为“CEO+高级副总裁”模式。2015年,谷歌持续探索谷歌云业务、资本投资、自动驾驶等创新领域。为充分划分公司业务,增强产品部门创新独立性,谷歌组建母公司Alphabet。至此核心业务归于谷歌,非核心业务拆分为谷歌平级子公司,与谷歌一同归于母公司Alphabet下。2019年,Alphabet和Google均由桑达尔皮猜担任CEO。
1.4.两大类业务构建谷歌基本盘、多元化科技齐头并进引领未来
根据2022年Alphabet年报,谷歌的业务主要可以分为两大类:谷歌服务和谷歌云。
谷歌云过去五年实现高速增长、2022年营收约为2018年5倍、基础云平台提供最大驱动力。谷歌云为各种规模的企业客户提高了基础设施和云平台服务、以及通信和协作工具。2022年谷歌云增长率为37%,其中最大驱动力为谷歌基础云平台,其次是GoogleWorkspace产品。
谷歌其他收入过去五年内实现稳步增长,未来可期。谷歌其他收入中包含了以下几个部分:
1)GooglePlayStore商城内第三方应用程序销售的费用;
2)谷歌硬件的销售,包括Fitbit可穿戴设备、Pixel的硬件产品、GoogleNest居家产品;
4)其他产品和服务。
2.2.费用率:持续投入研发、流量获取效率提升
研发费用持续增长,重视业务长期发展,投入人工智能研发改进现有产品。谷歌近三个季度2022Q3/2022Q4/2023Q1的研发费用分别为103/103/115(单位:亿美元),研发费用率为15%/14%/16%。谷歌一直是一家重视研发与创新的公司,2018-2022研发费用均为谷歌占比最大的费用支出,2022年全年研发费用率相较于2021提升1.7pp,达到14%。谷歌将继续在战略重点领域投入大量研发资源,寻找新的创业产品并改进现有产品,尤其是投入支持人工智能研发。谷歌将继续投资技术基础设施,包括服务器、网络设备和数据中心,以支持业务长期发展。
近五年谷歌服务营业利润提升,其他业务及谷歌云亏损逐年收缩。谷歌云在2023年Q1实现扭亏为盈,2023年Q2谷歌云业务收入达到80.3亿美元,同比增长28.0%,占比继续提升,在AI热度下,作为提供人工智能训练算力基础的谷歌云有望实现用户数、营收持续高增。
3.1.谷歌搜索:统治搜索引擎市场,持续技术革新
3.1.1.谷歌搜索发展历程:早期创新搜索算法突围,探索AI赋能方案
1)有越多的网页链接到某个网页,则说明这个网页越重要,网页对应的PageRank值越高。
2)PageRank值高的网页链接到某个网页,说明被链接的这个网页也很重要。
谷歌的搜索技术近二十年来一直在不断迭代更新。早在2010年至2014年间,谷歌已推出多代人工智能算法:2010年推出的咖啡因算法帮助谷歌更有效地抓取和存储数据;2011年针对网络内容质量发布熊猫算法,能够使得高质量的网站排在搜索结果前列;2012年针对网络外链发布了企鹅算法,能够识别非法链接或垃圾邮件;2013年推出蜂鸟算法可以使得谷歌搜索的自然语言查询能力得到优化;2014年鸽子算法用于改善本地搜索。
谷歌自2015年起开始将人工智能技术运用到自身搜索引擎当中。2015年引入人工智能RANKBRAIN,它是第一个部署在搜索引擎中的深度学习算法,RankBrain通过了解搜索中的单词与现实世界概念的关系,帮助搜索者找到以前无法找到的信息。如今RankBrain仍然是当今支持搜索的主要AI系统之一。
2019年谷歌更新了BERT算法——理解意义和上下文的模型,将它用于谷歌搜索中。BERT算法建立在Transformer架构上。BERT不是简单地搜索与单个单词匹配的内容,而是理解单词组合如何表达复杂的想法。BERT理解序列中的单词以及它们之间的关系,因此它可以确保不会从搜索者的查询中删除重要的单词。
3.1.2.谷歌搜索竞争格局:长期处于市场主要统治地位
3.3.YouTube:全球在线视频龙头、持续增长前景广阔
3.3.1.YouTube发展历程:应时代机遇而生,颠覆传统电视行业
3.3.2.YouTube发展现状:全球在线视频网站龙头
YouTube近年来用户数量保持高速增长,继续全球化进程,紧跟短视频潮流。2021年9月,YouTubu推出短视频平台YouTubeShorts,statista数据显示,2022年6月YouTubeShorts月活跃超15亿。
疫情期间YouTube实现高速增长,2022相较2019用户数量提升63%,预期未来YouTube注册用户数量将持续增长,增速放缓。截至2023年1月,Statista估计,印度拥有4.67亿活跃的YouTube用户,是全球YouTube活跃用户最多的国家。其次是美国拥有2.46亿活跃的YouTube用户。
申请加入YPP需要达到以下任一条件:
1)大于1000名订阅者,且在过去12个月内获得4000小时有效播放;
2)在过去90天内获得超过一千万次有效播放。YPP计划的参与者还可以通过“超级留言”、”频道会员”、”商品展示”等方式创造收入。
我们认为,YouTube仍然是当今全球最受欢迎的社交媒体之一,且依靠谷歌技术和内容激励政策打造了具有良好盈利能力的内容生态闭环,在过去的五年内实现高速增长。未来YouTube用户数量、营业收入将持续增长。
3.4.谷歌地图:数字地图行业引领者
谷歌地图能够提供以下服务:
1)搜索地点和当地商家信息;
2)室内地图功能可以进入建筑物内部查看商店、机场或酒店等地点的内部环境和其他人上传的地点照片;
3)路线规划和导航功能,同时能够提供最新的交通情况数据;
4)使用增强现实的实时视图导航;
5)商家可以通过“GoogleMyBusiness”服务将其位置添加到Google地图;
6)提供卫星拍摄地图。
4.1.IaaS+PaaS:AI为云计算注入新动能谷
1)主张多云,可使用谷歌云搭建不局限部署在谷歌云(Anthos),可使用谷歌云分析数据但不要求存储在谷歌云(BigQueryOmni);
2)由合作伙伴主导交付,避免渠道冲突;
3)客户承诺的支出额度即可用于谷歌云,也可用于合作伙伴产品;
4)接受合作竞争,不排斥与谷歌云重叠的产品在其云市场上架;
5)允许销售伙伴转售ISV产品,鼓励各类伙伴协同;
6)基于丰富专业知识储备为合作伙伴提供深度支持。
谷歌云提供包含网络、计算、存储空间、数据库与数据分析、机器学习等多方面产品服务。提供包括零售、快速消费品、金融服务、电信、游戏、制造业等多行业的解决方案。据公司年报披露,谷歌云分为基础云平台和Workspace。
上线基于VertexAI的生成式人工智能服务,为谷歌云注入新动能。谷歌云的优势在于AI和ML服务,其强大的机器学习和人工智能技术能够赋能给客户应用。VertexAI集成了谷歌云构建、部署和管理的功能。AI和ML模型的工具客户也可以利用Google预先训练的机器学习API,如视觉API或者自然语言API。我们认为,传承谷歌“开源精神”价值理念下的谷歌云能够继续在未来发挥自身的差异化优势,开放生态取得的灵活性优势能够让企业与谷歌云的合作更为便利。谷歌云有望在未来继续实现高速增长,实现弯道超车。
4.2.SaaS:GoogleWorkspace打造云协同办公提效工具
GoogleWorkspace提供了Gmail、日历、Meet、Chat、云端硬盘、文档、表格、幻灯片、协作平台等应用。QuadrantStrategies在报告《GoogleWorkspacevs.Microsoft365ImpactonBusiness》中指出,在提升沟通效率、提升移动办公效率、激发团队创意等方面,认同GoogleWorkspace的用户比例超越认同Microsoft365的用户。在《福布斯》评选的潜力独角兽企业中,有96%选择GoogleWorkspace作为云端协作平台。GoogleWorkspace能够在五个方面助力企业能够随时随地高效协作:
1)内置安全机制和自动更新功能,抵御潜在安全威胁;
2)集成式开放平台无缝集成应用,可打造个人高效工作平台;
3)将超过30亿用户熟知并惯用的协作应用汇聚到GoogleWorkspace中;
4)GoogleWorkspace能够帮助企业人力资源团队吸引、聘用人才;
5)落实移动办公理念,提供数字化工作空间。
谷歌在GoogleWorkspace中嵌入智能助手DuetAI,帮助用户提升生产力,释放更多创造力。
1)DuetAI能够在Gmail和Docs中根据提升生成完整的回复,并且将该功能引入移动设备中使其能够在旅程中使用;
2)DuetAI能够从文本提示中生成图像,并且展示在幻灯片中;
3)DuetAI能够替使用者生成想要跟踪和管理的项目计划;
4)DuetAI能够在会议中生成独特的虚拟背景。
5.1.安卓系统:开源精神,打造全球第一移动端操作系统
安卓凭借其开放性和安卓设备的高性价飞速占领市场,获取全球移动端操作系统最高市场份额。Statcounter数据显示,截至2023年,全球移动端安卓市场份额为70.28%,iOS为28.99%。移动端操作系统市场集中化程度高,目前安卓和iOS系统占据市场份额总和超99%,加上与系统匹配相对完善的应用生态,未来很难会有能够撬动移动端操作系统市场的新玩家出现。
我们认为随着智能手机在非洲、南美等地区普及率进一步上升,嵌入谷歌产品的安卓系统有望进一步扩大其市场份额。据GSMA报告,2030年全球智能手机普及率将由76%上升到92%。而其中安卓系统占据市场主导地位的地区至2030年智能手机普及率也将迎来大幅提升。
谷歌生态依托安卓渗透到移动终端用户,引入谷歌搜索、视频、地图、支付等应用打造移动端谷歌生态,抢占流量入口。安卓虽然是“开源”操作系统,设备商不需要为操作系统支付任何费用,但手机制造商需要遵守以下条件才能免费获取带有GooglePlayStore的安卓系统的使用许可。
1)设备上需要安装谷歌诸如YouTube,Gmail,GoogleMAP等软件,其中最主要的是谷歌搜索与Chrome浏览器。与此同时,在iOS设备中,谷歌需要支付十亿左右美金将谷歌设置为原始搜索引擎;
2)需要将谷歌搜索设置为默认搜索引擎;
3)制造商需要将谷歌应用程序推送到主屏幕上;
4)不得在不同的设备上使用其他修改版本的安卓系统。
由于2019年以来欧盟针对谷歌的反垄断案某些条件在欧盟不再适用,但使用安卓系统在大部分条件下都需要同时使用谷歌生态应用。制造商也可以选择不安装搜索和Chrome浏览器,但此时须向谷歌支付使用许可费。少数中国智能手机制造商如华为会使用无法访问GooglePlayStore的安卓系统。由于会损失用户对安卓系统的大部分使用体验,除特殊原因外,大部分智能手机制造商不会选择该模式。
5.2.Chrome浏览器:重视交互价值,集成谷歌应用构建生态关键一环
5.3.硬件产品:围绕谷歌软件打造广泛覆盖硬件产品
围绕谷歌软件打造广泛覆盖硬件产品,产品线覆盖面包含手机、平板、智能手表、笔记本电脑等智能终端产品品类。GooglePixel是由Google在2013年起推出的智能硬件系列,包括安卓智能手机、安卓平板电脑以及Chromebook笔记本电脑。
从GoogleStore官网可以看到,谷歌的硬件产品能够完美地适配安卓系统和多款谷歌服务软件。如GoogleAssistant能够对谷歌开发的播放器Chromecast进行命令控制。谷歌的硬件产品线包括:1)Fitbit于2021年被谷歌收购,主要产品包括智能运动手环、智慧手表、无线可穿戴设备等;2)Chromecast,一款数据媒体播放器;3)GoogleNest,前身是前苹果工程师TonyFadell和MattRogers创立的NestLabs公司。于2014年被谷歌收购,主要产品为智能音箱、智能显示器、智能恒温器、烟雾探测器、路由器、家庭安防系统等智能家居产品。GoogleI/O2023展示了首款折叠屏产品PixelFold、正式发布了大屏产品:GooglePixelTablet,Google认为平板电脑更适合在家中使用,作为智能家居中枢和用于流媒体播放和视频通话的多媒体终端。还发布Pixel7a,相较于上一版本在处理器和摄像头方面进行了升级。
创新业务(OtherBets)是Alphabet母公司下与Google平行的一系列独立运营子公司的统称。包括Waymo自动驾驶公司、XCompany等。
6.1.自动驾驶Waymo:致力于打造全自动驾驶技术
Waymo起源于2009谷歌内部的自动驾驶项目,2016年成为独立自动驾驶公司。Waymo的使命是让人员和物品能够轻松安全地到达目的地。WaymoDriver能够用于旅行车、SUV和大型集装箱卡车(Class8Truck)等多种车辆,提供叫车、卡车运输和本地送货等多元化服务。
WaymoDriver采用不同于“驾驶辅助技术”的全自动驾驶技术。驾驶辅助技术仍然需要真人司机坐在方向盘前,全神贯注地注意路况,并随时准备好在汽车遇到无法自行处理的情况时接手处理,而全自动驾驶技术指完全自动化驾驶。乘客全程无需知道如何驾驶车辆,只需在后排就座,静待WaymoDriver将自己安全送达目的地。WaymoDriver开始在新区域运营之前,首先需要极为详细地绘制该地区的地图,包括车道标记线、停车标志、路缘和人行横道等。然后WaymoDriver将这些特别详细的自定义地图与实时传感器数据搭配使用(而不仅仅依赖于信号强度不稳定的GPS等外部数据),以便随时确定其确切的道路位置。
Waymo使用主动学习来训练模型,利用TPU和谷歌的深度学习框架TensorFlow。实现全自动驾驶WaymoDriver还需要强大的硬件和计算能力。
2)摄像头:让WaymoDriver同时全方位观察车辆周围的动静。采用高动态范围技术和热稳定性设计,在日光和弱光条件下都能“明察秋毫”,还能应对更加复杂的环境,甚至能识别数百米外的交通信号灯、施工区域以及环境中的其他物体。JaguarI-PACE车型装有29个摄像头;
3)雷达:使用毫米波频段为WaymoDriver提供对象的距离和速度等重要细节。雨、雾和雪都不会影响雷达正常运行;
4)车载计算机:结合了最新的服务器级CPU和GPU,能够实时获取汽车上数十个传感器提供的信息,识别不同的物体(如其他汽车和行人),并计划通往目的地的安全路线。
6.2.Xcompany:穿过田野、越过海洋奔赴理想
6.2.1.Mineral:致力于用最先进的AI技术解决粮食种植问题
2023年1月,Mineral从Xcompany中“毕业”,成为了一家独立的Alphabet公司,致力于解锁更具可持续性,气候适应力和生产力的粮食系统。
6.2.2.Tidal:致力于运用技术保护海洋生态,促进可持续发展
Tidal利用水下摄像头和机器感知工具来解释复杂的海底环境。摄像头不断收集鱼的运动影像、运用计算机视觉技术解释鱼的图像,帮助有助于渔民了解鱼的生长方式,识别疾病并监测喂养。Tidal的水下系统旨在承受偏远地区的寒冷温度、腐蚀和强流。摄像头能够360旋转捕捉完整画面,同时利用机器学习技术远程快速处理和解释图像。
7.1.Tensorflow:影响最为深远的深度学习基本框架之一
Tensorflow是一个端到端的机器学习平台,能够提供数据准备、构建机器学习模型、模型部属、实现各个机器学习任务阶段的解决方案。Tensorflow前身为谷歌大脑团队研发的DistBelief机器学习系统。Tensorflow模型能够在web、移动设备和边缘设备、服务商上部署。Tensorflow支持类似NumPy的多维数组的数值运算、GPU和分布式任务处理、自动微分计算、机器学习模型的构建/训练/部署等功能,由于其在各方面的性能优于现在流行的大部分主流框架,因此在工业场景下应用广泛。持续成长的机器学习社区生态系统,2023年更新诸多新功能,能够在不影响准确性的情况下降低模型训练成本提升资源效率。KerasCV和KerasNLP可以让使用者运用几行代码访问预先训练过的模型。DTensor通过组合并行技术来帮助用户纵向扩展模型并高效训练模型。使用JAX2TF和使用JAX数值库编写的模型现可以在TensorFlow生态系统中使用。
7.2.谷歌LLM:先发优势基础上的长期深度布局,AGI之路上的量变到质变
7.2.1.Transformer模型:主流LLM的基石
Transformer模型是当前主流大语言模型的基石,现如今流行的GPT、BERT等语言大模型由Transfomrer架构衍生而来。Transformer模型基于Encoder-Decoder结构,创新自注意力机制,基于Transformer模型架构,AI发展走向新纪元。Encoder-Decoder结构是一种处理问题的思路,以文本处理为例,Encoder即编码器对输入句子X进行编码,将输入句子通过非线性变换转化为中间语义表示C。对解码器Decoder来说,其任务是根据句子X的中间语义表示C和之前已经生成的历史信息y1,y2….yi-1来生成i时刻要生成的单词yi。谷歌的几位研究人员在2017发表的论文《注意力是你所需的一切》(Attentionisallyouneed)的论文中基于Encoder-Decoder结构使用自注意力机制取代了在NLP任务中常用的RNN网络结构,创造性地解决了长期记忆难题,NLP任务得以从串行运算变成了并行运算。在此之后,AI领域众多专家纷纷采用这个架构开发和训练自己的模型。
7.2.2.LLM发展历程及特点
7.2.3.BERTvsGPT:Transformer结构下诞生的双子
BERTstyle的模型(Encoder-DecoderorEncoder-only)在情感分析等领域效果显著,下游任务效果能够大幅提升。BERTstyle的LLM:BERT模型通过遮蔽句子中的屏蔽词进行训练,这种训练模式被称为掩码语言模型(MaskedLanguageModel)。允许模型对单词和使用它们的上下文间关系有更深入的理解。这类模型使用TransformerArchitecture在大型文本语料库上进行训练,在情感分析等领域具有显著效果。这样的架构使得BERT失去了直接生成文本的能力,换来双向编码的能力下游任务效果大幅提升。BERT发布之初便在SQuADv1.1测试中达到了93.2%的F1分数(准确性的衡量标准),超过了91.2%的人类水平分数。GPTStyle模型为Decoder-only架构模型,通过给定前文生成序列中的下一个单词。Deocoder-only架构模型具备灵活性和多样性,能够被广泛地运用于如文本生成、问答等下游任务。
7.2.4.PaLM/PaLM2:PaLM在多项子任务中优于GPT,PaLM2大模型将可部署到边缘端
PaLM首次大规模采用机器学习系统Pathways,该系统能够高效地利用大量芯片进行并行计算。通过此系统PaLM在6144个TPUv4芯片上训练了5403.5亿参数的语言模型,其训练效率是以往这样规模的模型难以达到的。BIG-Bench是一个面向人工智能(AI)的基准测试套件,该套件涵盖了各种AI任务,PaLM在BIG-Bench在58项任务中,表现明显优于GPT-3、Gopher和Chinchilla(Gopher、Chinchilla均为DeepMind此前发布的大语言模型)。并且在模型参数达到一定规模时,5-shotPaLM540B的得分高于要求解决相同任务的人类的平均得分。
建立在GoogleBrain和DeepMind团队进展之上推出的PaLM2拥有四个不同规模版本,最小的Gecko模型可以在移动端运行。2023年5月谷歌发布大语言模型PaLM2,并且同时宣布推出超过25种由PaLM2提供支持的产品和功能。PaLM2建立在谷歌的基础研究和最新的基础设施之上,提供了不同规模的四个版本以便胜任不同任务和部署:“壁虎”(Gecko)、“水獭”(Otter)、“野牛”(Bison)和“独角兽”(Unicorn)。其中,轻量级的Gecko模型可以在移动设备上运行,能够在离线的状态下在设备上运行交互式应用程序,每秒能够处理20个token。相较于PaLM,PaLM2在语言、推理、编程三方面能力改进,还能用特定领域知识进行微调,能够打造“定制化”大模型。PaLM2对科学和数学等内容进行了广泛的训练,具有优越的逻辑和推理能力。同时还接受了逾百种的多语言文本训练使其能够理解并生成精确的结果。PaLM2还能够根据特定领域知识进行微调,谷歌健康团队打造的Med-PaLM2医用大模型在美国医疗执照考试中达到了专家水平。
7.2.5.Bard:对话式AI应用程序
8.2.谷歌AIFirst战略:用AI实现公司使命
8.3.从DeepMind到GoogleDeepMind:持续引领深度学习发展、实现AGI通用人工智能理想
新成立的GoogleDeepMind汇集AI领域的顶级科学家、工程师、伦理学家,致力于解决智能问题,推动科学进步,造福人类。过去DeepMind研发的AlphaGo击败了人类围棋世界冠军选手、AlphaStar在《星际争霸Ⅱ》中战胜了人类职业玩家、AlphaFold成功预测蛋白质结构,赢得了蛋白质结构预测技术关键评估(CASP)、DeepMind发布的论文在学术界和业界都产生了广泛的影响。我们认为,谷歌在AI市场上是有长期能力积淀,又有意愿,并且还具有灵活性、自主性、拥有AI研究内部组织的创新者。谷歌在AI领域的长期积淀,负责任和创新的人工智能技术,将持续会谷歌提供竞争力。谷歌CEOSundarPichai认为人工智能技术将使得谷歌比以往任何时候都更接近谷歌的创始使命——组织世界信息并使其变得普遍可用和有用。SundarPichai宣布于2023年4月20日合并谷歌最著名的两个AI实验室DeepMind和GoogleBrain,并成立新的GoogleDeepMind。
8.4.算力:TPU专为处理神经网络工作中的矩阵运算而设
CPU是基于冯·诺依曼结构的通用处理器,能够与软件和内存协同工作。优点是其灵活性可以在CPU上为许多不同类型的应用加载任何类型的软件。每次计算时,CPU从内存加载值后,对值执行计算,然后将结果存储回内存中。相比计算速度相比,内存访问速度较慢,并可能会限制CPU的总量。这通常称为冯·诺依曼瓶颈。
GPU在单个处理器中包含数千个算术逻辑单元(ALU),在用于深度学习的训练工作中,GPU的量比CPU高出一个数量级。现代GPU通常包含2500-5000个ALU。大量处理器可以同时执行数千个乘法和加法。GPU架构非常适合并行处理大量运算(如神经网络中的矩阵运算)。但GPU与CPU具有相同的问题。对于数千个ALU中的每一次计算,GPU都必须访问寄存器或共享内存,以读取运算对象以及存储中间计算结果。
TPU是Google针对具体应用定制开发的专用集成电路(ASIC)芯片,用于加速机器学习任务的训练。CloudTPU是一项可以让用户将TPU用作GoogleCloud上的可伸缩计算资源网络服务。TPU专为处理神经网络工作中的矩阵运算而设计。TPU包含数千个乘法和累加的运算器,运算器间直接连接形成大型物理矩阵,这种物理矩阵结构被称为脉冲阵列。CloudTPUv3在单个处理器上包含两个128x128ALU的脉冲阵列。在执行神经网络计算中TPU首先将参数从内存加载到矩阵运算器中。然后TPU从内存中加载数据。当每个乘法被执行时,其结果将被直接传递给下一个乘法器求和。因此,最终输出将是数据和参数之间所有乘加运算的结果。整个计算和数据传递的过程中,不需要访问内存。所以能够减弱冯·诺依曼瓶颈,在神经网络计算中实现高计算量。
谷歌最先进的TPU和GPU等计算基础设施将被部署在谷歌云之上,谷歌云还将扩大对谷歌最新基础模型的访问。谷歌致力于提供世界一流的工具,以便客户可以训练、微调和运行自己的人工智能模型,并具有企业级的安全性、安全性和隐私性。
8.5.迈向多模态AGI,离智能未来更近一步
8.5.1.多模态具身语言模型PaLM-E
2023年3月谷歌发布多模态具身语言模型PaLM-E,能够理解图像、生成语言、并且结合两者生成复杂的机器人指令、还拥有强大的正迁移能力。PaLM-E由谷歌和柏林工业大学的团队共同打造,PaLM-540B语言模型与ViT-22B视觉Transformer模型,训练数据集包含视觉、连续状态估计和文本输入编码的多模式语句,参数量为5620亿。PaLM-E仅有解码器,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本。经过图像提示训练,PaLM-E可以生成图像描述文本,还能指导机器人完成复杂的长跨度任务。
PaLM-E基于不同模态的训练数据进行训练,展现出了强大的正迁移能力。相较于单一任务机器人模型,性能显著提升。PaLM-E展示出的灵活性和适应性未来将有可能会人机交互领域广泛应用。
2023年谷歌开发者I/O大会上,谷歌DeepMindCEOHass提出,未来会推出文本的大语言模型Gemini,Gemini将会具有以往模型中没有的多模态功能。
8.5.2.结合多模态大模型的RT-2机器人
谷歌DeepMind推出RT-2(RoboticTranformer2)是谷歌DeepMind实验室的结果,它是将视觉-文本多模态大模型的“推理”、“识别”等能力和机器人实际操作能力结合起来的机器人项目。具备符号理解能力、推理能力、人类识别能力。其中推理能力是RT-2机器人的核心优势,RT-2机器人能够进行数学、视觉推理并且能够进行多语言理解。VLA指的是”机器人动作模态”,基于此模态,RT-2可以将具体的机器人动作数据转化成大模型利用的文本token。RT-2本次升级主要基于谷歌原有的基础大模型,如RT-2PaLM-E变体,能够在神经网络模型中充当LLM、VLM和机器人控制器,因此RT-2具备执行的思想链推理的能力。RT-2提高了机器人在陌生场景中的性能,体现了大规模预训练带来的优势。
8.6.AI深度赋能谷歌产品助推商业变现
自从转向“AIFirst”战略后,谷歌正在持续不断地用其最新发展的人工智能技术重新构造包含谷歌搜索在内的核心产品:
2)谷歌地图:2022年的I/O大会上推出了沉浸式视图,即利用AI创建一个地方的高保真地图,让用户可以在到达之前就能先获得身临其境般的体验。2023年推出沉浸式路线视图将AI技术扩展到Maps最擅长的领域:能够提前看到整个旅程,帮助用户到达目的地;
3)谷歌相册:谷歌的首批AI原生产品之一。机器学习技术使得用户能够在谷歌相册的照片中搜索人物、日落或瀑布等内容。除搜索以外,谷歌相册甚至能利用魔术编辑器(MagicEditor)让用户实现编辑照片的功能;
5)谷歌Workspace:2023年5月谷歌宣布在GoogleWorkspace中嵌入智能助手DuetAI,能够在写作、组织、可视化、召开会议等多方面加速工作流程,大幅提升生产力。
6)谷歌云服务平台:2023年6月谷歌宣布上线基于VertexAI的生成式人工智能服务VertexAI——机器学习平台服务。VerteAI是第一个提供人类反馈强化学习的企业级机器学习平台服务,B端用户能够根据自身具体应用与平台功能进行集成。据谷歌23Q2EarningsCall,超过70%的AI独角兽企业是谷歌云的用户。
9)YouTube:YouTube正在使用AI自动生成视频字幕,让更广泛的受众(包括失聪或听力障碍者)更容易访问这些视频。社区环境和内容创作对YouTube这样的UGC在线视频平台来说尤为重要。2023年谷歌在YouTube的创作者安全中心中扩展了AI功能去识别线上有害信息以保持良好的社区环境。
我们认为,谷歌最新AI技术应用于谷歌核心产品上会为其带来新的生命力。谷歌核心产品拥有广泛的用户,MAU超20亿产品便有6个,具有深厚的数据积累,谷歌一系列核心产品有望在谷歌一系列先进人工智能技术的加持下,在未来迸发蓬勃生机。2023年谷歌在I/O开发者大会宣布25款谷歌核心产品将由大语言模型PaLM2、多模态大模型Gemini谷歌最新的AI研究技术赋能。