国际在线消息:1月8日,中国软件产业最具影响力盛会——“2020中国软件产业年会”在北京国家会议中心举行。本次年会将探讨在当前智能化引领、数字化转型背景下如何充分发挥软件驱动下的数字变革,推动经济发展的质量变革、效率变革和动力变革,以及工程教育计算机类专业认证发展趋势等重大问题;探索软件的进步和发展如何提升云计算、大数据、人工智能、区块链等新技术、新模式、新业态演进,以及如何为经济发展不断注入新动能等众多焦点问题。
大会现场,百度副总裁、深度学习技术及应用国家工程实验室副主任吴甜发表“智能时代的AI软件平台”的精彩演讲。
以下为现场实录全文:
人类其实历史上已经经历了机械技术、电气技术、信息技术分别为驱动力的三次工业革命。看看工业革命的整个过程就看到产生巨大推动力的技术,他们产生推动以后就快速带动社会进入到新的工业化大生产的状态。所以能看到这些技术本身具有非常强的通用性,而这些技术在带来一系列改变的时候呈现出来的共同特点都是实现了标准化、自动化和模块化。
今天人工智能技术成为了第四次科技革命的驱动力,我们看看这样新的变革当中是否也存在这样一系列的通用性技术。深度学习的发展已经推动人工智能进入这样的状态,因为深度学习技术带来的人工智能技术已经和很多场景有了更紧密的结合。使得一系列可能原来在应用场景有各种各样问题的技术在今天都可以非常通用性的解决问题,能够在场景中落下去,能够带来所带来的一系列的价值,我们认为这样一系列的工作背后应该有AI大生产平台能够支撑人工智能技术进入到产业当中,为产业带来价值。
这样的大生产平台是以算力和数据作为基础,以深度学习平台作为核心底座。上层有通用的AI能力,比如说语音识别,视觉上各种各样的识别、检测的接口。还有自然语言处理一系列的能力接口,当然在大量场景使用技术的时候只有这些通用能力是不足够的。要这些场景上进行定制的训练,所以有定制训练平台以及这些新的AI技术要和原来的在产业当中已经在运转的贴合业务逻辑一系列的软件系统能够结合的时候有相应的部署和集成平台,最终能够形成最终落地的技术解决方案。
因为人工智能技术本身是需要有大量的数据计算的,所以有AI安全的保驾护航会非常重要。在这样一个大生产平台上,今天我想介绍两类平台:一类是深度学习平台;一类以对话系统作为例子介绍定制训练平台。
飞桨是一个产业开源开放平台,在飞桨上已经形成了合资框架,包含有开发训练预测,能够解决深度学习同时进行研发的时候一系列的底层问题,能够使这些工程师有一个更高效的方式把深度学习技术应用起来。在此基础上开放了自然语言处理、视觉、推荐以及语音技术相应的技术模型库,当然也有包含预训练模型库,在此基础上开发套件和各种各样的工具组件能够覆盖到自动化学习、记忆学习、联邦学习等等系列不同的学习方法,在此基础上还有服务平台为希望得到更低门槛使用的一系列的开发者使用的最终的平台。整个一套成为了一个深度学习的开源开放平台。
在飞桨这样的平台上有四大领先技术:首先是在开发方面,开发的产业提升的框架兼顾了动态图和静态图不同的开发模式。动态图的开发模式会使开发人员更符合自己的思考逻辑,开发起来的灵活度非常高。而静态图的方式性能会非常高,两者结合可以兼顾到开发的灵活性和最后使用的训练性能。同时飞桨平台上提供的网络结构自动设计这样一个工具,在某些领域已经超过了专家设计的网络结构带来的准确率。大家知道网络结构设计也是深度学习研发过程中非常复杂的环节,往往需要有资深的算法工程师才能做好设计。有了网络结构深度学习的话也可以大幅度降低门槛。
第二个领先技术是超大规模深度学习训练模型。深度学习在使用的时候对算力的消耗非常大,数据也非常巨大。以互联网产品上的实例来举例子。比如说语音搜索、信息智能化推荐这些场景都是有海量的内容数据以及海量的用户数据需要进行训练计算。在飞桨上开发的一系列分布式训练过程可以支持到百亿训练数据,支持到千亿以及万亿参数高效的运行训练。这些在互联网产品上因为是在线实时计算,还提出了流式终身学习的训练要求,它的要求就是在实时进行参数更新,在飞桨平台上这样的一个能力具备。
第三个平台部署的时候常常面对不同的硬件平台、不同的操作系统,这样其实对一个平台来说能够支撑到多端多平台的部署会非常重要。一个渠道是多平台、多操作系统,也可以看到和主流实践相比起来速度也是全面领先。
第四个领先技术是官方模型库。基于飞桨平台上放了一系列产业级官方模型库,这些模型都是在百度的自身业务上通过了业务了考验和打磨,提供的都是在工业型的应用上经得住考验的模型,这个里面有视觉、推荐语音方面上百个模型,同时开放了上百个模型。
当我们把人工智能技术和传统的产业场景结合的时候其实有发现,在产业场景来说是有多个困难的。首先像问题的定义就是一个困难,即使问题定义好了对模型选择上也是面对着纷繁复杂的模型也有很长的验证周期。完成以后和系统结合以后,在传统产业里面常常有很高的性能要求,同时还有设备限制以及软件平台的限制,我们也在飞桨平台上面对场景开发了端到端开发套件。基于这样一个套件首先进行案例的投射,能够使得使用者根据自己的场景选择出最接近的案例,同时会有一系列的开箱即用的工具箱,帮助开发者快速把这个过程搭建起来,并且调优评估得到想要的模型,最后经过部署集成工具与自己的系统结合。当然过程中所有工具都是开源的,所以可以进行深度的定制。
这里还有一个环节是预训练和迁移学习结合的过程,我们把这样的过程称为飞桨的Master,所谓的Master就是这里提供了在百度的自带数据和知识并且运用百度的训练以及很多算法工程师所设计的大模型技术上提供学生丰富的预训练模型库。再加上迁移学习的工具和平台使使用的场景仅用少量的数据就可以实现较好的结果。很多场景中用较少的开发成本适配更好的垂直产品,整个这样的计算法流程进一步极大的简化。
可以看到一个案例,这是在农业地块自动分割场景的案例,是我们和飞桨的合作伙伴PaddleSeg完成的,我们的合作伙伴都有在这个场景下的数据已经对场景本身的认知,他们选择了飞桨平台上的模型以及综合了遥感、图像、大数据以及更好的模型快速完成了农业地块分割这样一个场景上的方案,通过这样的方案农农业地块的识别和监控上得到耕地面积提取准确率大于90%的模型,整套方案对最后的收益有10%的提升。而且对每亩的人工成本也大幅的减少了。
有了对语言的理解,就像人类在对话的时候听明白了第一步,下一步还需要对话过程顺畅的进行下来,我们把这样一个过程相应的软件化和平台化。我们提供了可编程、自学习的对话管理技术。这样一套技术当中开发者可以通过UNIT对话,然后再加上自学习的能力最后实现非常流畅的对话管理过程,可以看到这个例子。
这个例子当中有出现异常的发生,也出现了用户的反馈,机器人也进行了一系列的干预,整个的过程非常流畅的。
第三方面是我们在很多场景下其实有大量的文档,比如说像客服场景,客服要处理很多业务文档。通过已有的业务文档可以快速形成对话式的文档问答,通过文档的分析生成文档模型,这样就不用人工的对常有问答对话的处理,形成一个文档问答的能力。不管是通过直接理解得到答案还是通过询问的理解,现在UNIT平台上都可以实现。这样的平台上面对自己的场景搭建自己的AI对话机器人。
当然百度在推进一系列AI基础软件的时候也在推进相应的人才培养。刚才说到的深度学习的人才和对话技术都有相应的人才计划。这一系列的人才计划我们发现AI技术和产业结合既懂场景又懂AI技术怎么用的复合型人才非常重要,所以推出了相应的课程、教学平台,他们在对话基础上有推出了智能数字化解决方案的培养,这是研发型的人才。同时也有智能对话训练师,他们像数据的整理,数据的标注以及对智能对话专家经验的输出一系列的人才,相信这样一系列的人才培养也会带动AI与产业化的结合更加紧密。
我想总结一下智能时代的AI软件平台我们看到它的特征和传统的软件平台相比,因为AI面对的场景的分散度更加分散,所涉及到的产业行业更加广泛,所以本身的基础软件平台有更强的开放性,所以我们大量的平台都是用开源形式或者开放的方式开展。第二个在这些平台上需要有更强的共享性,因为AI技术很多能力,本身在很多业务场景之间具有一定的共享性,以及在这样一套平台上也是需要一种生态的方式,使得整个链条生态上的几乎是创新的方式去开展的,所以总结起来的话,我们开放性、共享性、生态性是智能时代的AI软件平台的三大特点,谢谢大家!