在线公开课如何基于模型训练平台快速打造AI能力?京东科技开发者

目前,人工智能领域尚未形成完善的参考框架。但人工智能标准化白皮书(2018版)基于人工智能的发展状况和应用特征,从人工智能信息流动的角度出发,提出了一种人工智能参考框架,这个框架描述了整个AI能力的产生。

基础设施提供者(算力)

基础设施提供者为人工智能系统提供计算能力支持,实现服务与外部世界的沟通,并通过基础平台实现支撑。AI上的计算能力通常由智能芯片提供;与外部世界的沟通则通过新型传感器实现,比如摄像头、麦克风以及各种物联网设备,它们负责搜集终端数据供业务使用;基础平台包括分布式计算框架提供商及网络提供商提供平台保障和支持,即包括云存储和计算、互联互通网络等。比如京东智联云为大家的技术平台,其中包括算力支持,云主在线存储、微服务等,同时也可以基于整个产品体系打造一个整体服务平台。

信息提供者(数据)

信息处理者(算法)

大多数人对人工智能的理解可能更偏向于算法这部分,比如对数据的清洗、提取特征值等,这相当于一个数据建模的过程,在此基础上进行一些模型训练。然后再针对业务场景提供智能推理、智能决策等支持。智能推理和智能决策最终会输出有价值的智能信息,这就到了“智能执行与输出”环节,输出整个智能信息流动过程的结果,包括运动、显示、发声、交互、合成等功能,这也是整个AI的能力产生的结果。

用于云端推断的芯片也是我们所说的第二种类型的芯片。目前主流的人工智能应用需要通过云端提供服务,将采集到的数据传输送到云端服务器,用服务器的CPU/GPU/TPU去处理推断任务,然后将数据返回终端。

第三类芯片运行在设备端,包括智能手机、智能安防摄像头、机器人、自动驾驶、VR等,它能够快速做一些推断和决策,并且不受网络的影响。怎么去理解?假设现在有一个摄像头,如果我们要把这个摄像头采集到的所有数据都发送到服务端进行处理,那么可以想象需要多少点网络带宽才可以满足。但是如果我们把一些数据处理的任务放到终端完成,而仅把处理结果上传,这样对网络的要求就会低很多,并且用户的体验也能明显提升。

数据是我们成功的起点,在人工智能领域,数据主要有两类:结构化数据和非结构化数据。结构化数据是高度组织和整齐格式化的数据,它是可以放入表格和电子表格中的数据类型,能够用SQL来查询,并且适用于机器学习,数据分析挖掘等。

非结构化数据不能用表格型表示,它没有一个统一的格式。这种数据通常存储在非关系数据库中,并使用NoSQL进行查询,适合用于深度学习去处理。在互联网发展起来之后,非结构化数据的量已经越来越大了,现在企业数据中80%都是非结构化的数据。

对于企业而言,获取数据的方式通常有三种:

数据越准确,与自身的业务越匹配,那么用这些数据训练模型进行业务推断的结果就越接近于真实场景,因此为企业自身带来的价值会更大。如何评判数据的质量?有四个纬度:

简单来讲,数据与自己的业务关联度越高越好,这是首要标准。另外还要关心数据的时效性,以及用户的需求。对于可信性,不同的业务场景有对应的专业人员,让他们去制定行业标准,进行数据标注,可以在很大程度上保证业务数据的质量。

在整个AI能力的锻造过程中,算法研究是其中一步,也是重要一步。机器学习是传统人工智能里的一个新的分类,主要研究如何模拟和实现人类的学习习惯。简单来讲,机器学习通过各种算法训练模型,并用这些模型对新问题进行识别与预测。

训练数据收集

原始数据是机器学习过程的第一步,它从各个渠道被采集而来。数据集通常会分成两个部分:一部分用来做训练,即训练集;另一部分用来做验证,也就是测试集。

数据预处理

由于收集到的数据往往比较粗糙或者噪音较多,需要将这些数据进行预处理,包括业务敏感数据脱敏,对不合格的数据做一些清洗、格式转换,或是特征提取等处理,得到有效的训练数据。

训练预测模型

到了训练预测模型阶段,算法工程师就可以出面了。在正式开始模型训练之前,我们需要结合数据和业务的特点选择合适的算法。机器学习可以实现的目标被分为:分类、回归、聚类、异常检测等。前期算法工程师需要通过测试集和训练集,在集中可能的算法中做一些Demo测试,再根据测试的结果选择具体的算法,这样可以规避大范围的训练模型改动带来的损失。

模型评估

选择出一个模型后我们需要去验证以下这个模型是不是合格。如何评估呢这就要用到之前说的测试集对模型进行测试。由于测试集对模型来说是完全新的数据,因此可以客观地度量模型在现实世界中的表现情况。这个过程其实是一个循环迭代的过程,我们会在这个过程中对算法进行改造或者对参数进行调整,最后得到一个比较理想的模型。我们通常会将这个模型做成一个服务供人们去使用。

以京东智联云为例,京东智联云将训练好的模型提供成下图中这样的在线服务API。它分成几个方向,每个方向都有对应的通用AI能力,让大家去应用。比如在零售领域,会将一些京东领先的算法模型封装成通用的API提供给用户。每一个API都会提供一些调用方法的接口,用户可以在线申请使用。当然了,我们也提供离线版本或者SDK,方便和用户的业务进行深度结合。

京东智联云人工智能部平台推出了一款叫NeuFoundry的产品。作为京东丰富场景的最佳实践,NeuFoundry提供从数据标注-模型开发-模型训练-模型评估-模型发布的一站式人工智能开发平台,提升AI开发的效率、降低开发成本。该平台不仅支持图像类、文本类深度学习,还支持机器学习,比如销量预测等,此外,它还会通过预设模型来进行海量数据训练,让智能供应链更加智能聪明。

NeuFoundry提供的主要服务包括:

数据管理

以数据库及对象存储等方式,提供海量存储空间,存储和管理用户数据,并提供数据标注、数据分析等功能服务;

AI能力定制化

可根据实际业务所需要的能力和场景,结合企业实际业务数据,训练定制化AI能力;

AI服务支撑

智能中台为各类AI能力的运行,提供基础环境支撑,保障AI服务稳定、可靠提供业务服务。

在NeuFoundry的数据管理服务中,该平台可以提供数据集管理和标注服务,同时内置公开数据集和定制行业数据集;此外,还提供工具支持用户在线标注或者导入已有标注数据,包括常见的文本、图片、视频、音频等。

在NeuFoundry提供的模型训练任务中,平台支持TensorFlow、Caffe、PyTorch等常见的引擎框架及多种项目运行方式,并且为不同类型的开发者提供多种交互方式。如针对对算法比较精通的算法工程师提供任务提交和JupyterNoteBook方式;对于业务开发人员,提供通过图形化拖拽或者自动化训练方式,方便快速的定制化AI模型,不需要掌握算法开发能力。

为什么说NeuFoundry可以帮助企业加速AI能力锻造?因为在NeuFoundry中,针对常见的业务场景,我们预置了一些行业领先的算法模型在里面。用户只要把自己的业务数据放上来,通过自动化的训练方式,就可以用这些算法来快速迭代属于自己的定制模型。通常,用户在NeuFoundry上只需两步就可以创建自己的API能力:

(1)选择场景和数据,提交任务;

(2)查看模型评估结果,发布成服务。

AI能力打造其实只是“智能平台”的一个环节,整个京东智联云会针对金融领域及具体的应用场景,在此基础上从业务、技术、数据等角度出发为企业提供不同领域的解决方案。

在金融AI场景架构图中,基于底层的运行资源和数据资源之上,不同应用场景的开发层基本上是一致的。往上看,是包括客流分析、内容审核、用户行为解析、智能决策、用户画像、风险控制在内的一系列预置服务,这些服务会根据金融场景进行专门的优化和定制。

通过学习本篇课程,我们了解了AI能力是如何开发的,及京东智联云在这方面的探索与能力NeuFoundry——一站式AI能力铸造厂是基于京东零售及零售基础设施、丰富的场景和海量数据打磨的人工智能开发平台最佳实践,积累了成熟的一站式模型开发工具和优质的数据集,并沉淀为成熟模型与AI服务。NeuFoundry可为大中小企业提供一站式开发平台,助力企业快速低成本构建自己的智能中台,完成智能化转型。

Q&A课程问答

QNeuFoundry不同框架,模型训练出来后如何部署,支持什么部署?

ANeuFoundry提供JupyterNotebook环境,用户可以在Juypter环境中,完成训练和部署验证的环节。如果是通过NeuFoundry提供的自动化任务训练出来的模型,NeuFoundry可以帮助用户把模型发布成一个在线服务。

Q针对这次的疫情,衍生出口罩纠正模型,大面积遮挡的人脸识别,客服防控疫情咨询客服等等,我想知道这些数据获取和模型的准确度如何把控?

Q样本比较少,怎么训练,效果才能好?

A这个是很多企业想去做AI建设的时候,碰到一个比较典型的问题,就是说自己的业务数据可能不是太好去抽取或者提炼。这个刚刚我也提到了,如果您在这个行业积累不够的话,您可以去做一些行业的采购。数据量级的要求呢,以图像分类为例,大概这个量级在几百张到一千张的时候,他的准确性在一定程度上就能满足业务需求了,再增加数据提升效果就没那么有效。如果说您的业务场景跟京东智联云这一块的能力比较贴合的话,那我们这块也可以帮您去做一些数据准备,或者说行业场景的支持。

THE END
1.深度学习平台(SINGA)4.高性能:SINGA采用C++作为核心开发语言,并结合Python、C、CUDA等语言,以实现高效的跨平台运行能力。它利用GPU加速器优化深度学习运算,提升训练速度,同时其内存优化机制也有助于提高训练效率。 5.模型动物园:在Github和Google Colab上的SINGA仓库中提供了各种特定领域的深度学习模型,如医疗保健和科学等领域的模型,方便https://blog.csdn.net/weixin_43156294/article/details/144281329
2.深度学习—智慧树网深度学习(Deep learning,DL)是人工智能、机器学习研究中的一个非常有潜力的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人类大脑的机制来解释数据,例如图像、声音和文本。由于深度学习模型能够在大规模训练数据上取得更好的效果,因此在人工智能、机器学习领域中有着良好的应用前景。深度学习已经成功攻克了http://coursehome.zhihuishu.com/courseHome/1000013900/127200/
3.飞桨PaddlePaddle深度学习一般分为训练和推理两个部分,训练是神经网络“学习”的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型。有了训练好的模型,就要在线上环境中应用模型,实现对未知数据做出推理,这个过程在AI领域叫做推理部署。用户可以选择如下四种部署应用方式之一: https://www.paddlepaddle.org.cn/tutorials/projectdetail/1550309
4.微博深度学习平台架构和实践微博深度学习平台架构和实践 随着人工神经网络算法的成熟、GPU计算能力的提升,深度学习在众多领域都取得了重大突破。本文介绍了微博引入深度学习和搭建深度学习平台的经验,特别是机器学习工作流、控制中心、深度学习模型训练集群、模型在线预测服务等核心部分的设计、架构经验。https://www.51cto.com/article/553994.html
5.金电联行Ark(方舟)平台深度学习模型训练软件免费在线试用金电联行-Ark(方舟)平台深度学习模型训练软件页面为您介绍金电联行-Ark(方舟)平台功能介绍以及产品定价、行业案例、文章点评等相关信息,便于您更快速的了解金电联行-Ark(方舟)平台深度学习模型训练软件。https://www.36dianping.com/space/5875360113
6.LintCode深度学习 算法 一次遍历 大数据 lambda函数 Library Access modifiers python System Settings optimal Linux | File System, 文件系统 暴力解法 Pandas 小顶堆 Data standardization AI | Data Processing, 数据处理 AI | Machine Learning, 机器学习 AI | Deep Learning, 深度学习 System swift Thread Mode 最短SQLhttps://www.lintcode.com/tag/
7.2020年最值得收藏的60个AI开源工具语言&开发李冬梅SiamMask 是一款实时在线目标跟踪与目标分割统一框架。技术简单、通用、快速高效。它可以对目标实时跟踪。此款库还包含预训练模型。 项目地址:https://github.com/foolwood/SiamMask DeepCamera 世界首个自动机器学习深度学习边缘 AI 平台 ARM GPU 上的深度学习视频处理监控,用于人脸识别以及更多方法。将数码相机变成人工https://www.infoq.cn/article/2uabiqaxicqifhqikeqw
8.度小满自动机器学习平台实践标注平台主要为 AI 算法的训练提供标注数据,自从深度学习诞生以来,模型已经具有了很高的复杂度,AI 算法效果的瓶颈从模型设计上转移到了数据质量和数量上,所以数据的高效生产是在 AI 算法落地中至关重要的环节。 ATLAS 的数据标注平台主要有两方面的能力特性:多场景覆盖和智能标注。 http://528045.com/article/4dad678f6d.html
9.关于发布可解释可通用的下一代人工智能方法重大研究计划2022通过规则与学习结合的方式,建立高精度、可解释、可通用且不依赖大量标注数据的人工智能新方法。开发下一代人工智能方法需要的数据库和模型训练平台,完善下一代人工智能方法驱动的基础设施。 (三)面向科学领域的下一代人工智能方法的应用 发展新物理模型和算法,建设开源科学数据库、知识库、物理模型库和算法库,推动人工https://www.ncsti.gov.cn/kcfw/xmsb/202205/t20220518_79110.html
10.cubestudio开源云原生一站式机器学习/深度学习/大模型AI平台cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vlhttps://github.com/HutCat/cube-studio
11.基于深度学习的个性化在线学习资源推荐研究基于深度学习的个性化在线学习资源推荐研究,在线学习,学习资源,个性化推荐,深度学习,深度神经网络,随着新兴计算机技术快速崛起和在线学习平台数量的增多,学习资源形式也越来越多样化,同时也造成教育资源规模呈指数式增长,导致学习https://wap.cnki.net/lunwen-1019952816.html
12.在线深度学习平台在线深度学习训练平台华为云为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:在线深度学习平台。https://www.huaweicloud.com/theme/1082406-4-Z-undefined
13.LLM:预训练+指令微调+对齐+融合多模态+链接外部系统为了进一步提高LLM在未见任务上的指令泛化能力,即Zero-Shot能力,需要在自然语言众包指令数据上微调预训练模型,参考论文FLAN 。微调数据集来自于通用的NLP基准集,通过指令模板改造输入输出的格式得到CoT和非CoT任务的指令数据集,见下图。微调后可以显著提高在各种模型类(PaLM、T5、U-PaLM)、各种学习样例设置(Zero-Shot、https://www.shangyexinzhi.com/article/10160427.html
14.深度学习计算机视觉实战畅想中心数据平台在线试读 下载 注:如果您的电脑尚未安装PC客户端,请先 安装客户端 后再下载阅读!手机扫描阅读此书 支持(Android/Iphone) 简介 目录 评论 简介 本书内容可分为四个部分。第一部分包括第1-2章,主要讲解深度学习和计算机视觉基础;第二部分包括第3-6章,主要讲解图像处理知识;第三部分包括第7-11章,主要讲解计算机https://www.cxstar.com/Book/Detail?ruid=2a4ec7b2000111XXXX&packageruid=25f8e7ac012727XXXX
15.学堂在线学堂在线是清华大学于2013年10月发起建立的慕课平台,是教育部在线教育研究中心的研究交流和成果应用平台,是国家2016年首批双创示范基地项目,是中国高等教育学会产教融合研究分会副秘书长单位,也是联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台。目https://www.xuetangx.com/?channel=i.area.navigation_bar
16.三维一体教育平台—三人行,必有我师学校教育、家庭协助、社会关注,最大限度共享教育资源;在线考试,试题上传,海量试题搜索;试题库拥有丰富的试题;是一个全国各种学历考试,资格认证考试的全真在线模拟考试网站,提供自动阅卷评分以及试题解析等多功能服务,是各类考生考前辅导学习的练兵必备工具https://www.ch3dedu.com/wiki/search.jsp?ct=FB15144199320FA8CE71ECBE824E261E
17.科学网—[转载]群视角下的多智能体强化学习方法综述该类问题的相关研究是将单智能体的深度强化学习算法应用在多智能体系统中,分析是否能在动态环境中涌现出新的行为。Zheng等人[10]设计了面向满足超多智能体群体智能分析的MAgent平台。Tampuu等人[15]在乒乓球竞争环境中,使用独立的DQN算法,查看两个智能体能否学会比赛动作。事实证明,原来独立的算法也可以在零和游戏的https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
18.算法服务平台算法模型服务平台是一个面向企业用户的数字化服务平台,旨在为用户提供高效、先进的算法模型。它以数据为核心,利用机器学习、深度学习等前沿技术,为用户提供行业定制化的算法模型解决方案。 应用场景 用户情感分析 使用情感分析模型,对文本进行情感分析,用于市场调研,客户服务和社交媒体监测。 https://wakedata.com/wakeAI.html
19.新国人,中小学生在线学习平台新国人专注K12教育20年,积累了丰富的教学经验和名师专家资源、视频课程资源,结合教育大数据分析、人工智能核心技术,精心打造新国人在线学习平台,为全国中小学生提供学习问题诊断,制定个性化教育解决方案服务.http://www.xinguoren.cn/