对AI开发还不熟?试试这个开源AI模型生产平台,秒成专家级水平

近日,由云天励飞首席科学家王孝宇博士等多位国际AI科学家共同发起的AI基础软件平台YMIR正式发布。

什么是YMIR?

YMIR(挖米匠),是一个数据驱动的开源算法训练平台,能够做到以无代码开发的方式,实现数据管理、数据挖掘、模型训练、模型验证等功能。YMIR遵从Apache2.0许可协议,商用及个人使用均免费。

YMIR是由国际AI科学家共同发起的AI基础软件平台。发起成员包括:前Snap计算机视觉主席,云天励飞首席科学家王孝宇;美国硅谷NEC实验室媒体分析部主管、UCSD教授,印裔科学家ManmohanChandraker;前谷歌、亚马逊、Snap机器学习研究员,硅谷初创公司Heali联合创始人、首席AI官,法裔科学家WilliamBrendel等。

云天励飞首席科学家王孝宇

美国硅谷NEC实验室媒体分析部主管、UCSD教授ManmohanChandraker

前谷歌、亚马逊、Snap机器学习研究员,硅谷初创公司Heali联合创始人、首席AI官WilliamBrendel

YMIR的五大特点?

YMIR是一个高度自动化的AI模型开发产品。其将模型开发行为抽象为数据收集、模型训练、数据挖掘、数据标注等基本操作,并形成标准流程,提供一站式服务。实际使用时以图形化的交互界面完成数据与模型不断更新迭代的完整流程。由此,YMIR极大降低了AI模型研发的技能要求,不再要求从业者具备专业的AI技能。只要对系统操作员加以数据集、模型训练、模型迭代等概念知识的少量培训,其便具备模型开发的能力,因而对人工智能向各行各业的普及具备重大意义。

针对具备一定专业能力的算法开发人员,YMIR平台提供开放API,使用者可籍此将自己开发的模型训练、数据挖掘、数据标注、模型诊断等工具对接YMIR开放接口实现端到端的一站式模型开发。

YMIR主要以数据为中心,集成了数据和模型版本控制,同时引入工作空间等概念,实现多个模型开发任务的并行快速迭代,为模型的大规模批量生产提供平台性支持。

YMIRV1.0新增模型生产项目管理

1、傻瓜式迭代操作流程(保姆式模型开发流程指引)

在以项目管理为理念的研发制式下,模型研发项目被切分为几个关键模块。每个模块对应一个任务,这些任务具备前后依赖关系形成研发流程。只有流程前方任务完成后,流程后方任务才能被启动。如下图所示,当一个模型研发项目被创建后,即能看到页面上方的任务迭代流程指引,清晰说明当前步骤与下一步骤,仅需按照指引点击鼠标操作即可,操作对小白用户十分友好、非常银杏化。

项目创建成功后的页面

项目创建后的任务流程指引页面

2、数据集自动整理

YMIR新增数据集版本管理功能,能自动生成数据集版本并记录每次对数据集的操作。一方面,与上一版本相比,使用者无需通过手动命名数据集对不同功能数据集进行区分,系统会自动进行数据整理,归入训练集、挖掘集、测试集等,并对这些数据集的更新进行版本控制。数据集和模型的一一对应关系亦被记录下来。此功能对有大量数据挖掘的模型研发十分友好,减少数据集版本的冗余,提高数据集管理效率。YMIR用户再也不用对着上百个雷同的数据集无从下手。另一方面,模型的研发过程被完整的记录下来,可轻易重新生产模型。传统的算法研发人员工作交接涉及,数据集、模型、训练流程等多个复杂环节的交接,很难重复之前的工作。而在YMIR平台上产生的研发过程,尤其是数据集的迭代均有完整追踪,基本不需要交接流程,企业再也不用担心员工突然的离职。

数据集版本管理页面(1)

数据集版本管理页面(2)

模型迭代版本管理页面

YMIRV1.0无缝对接开放免费的标注工具LabelFree

数据标注的质量与效率直接影响模型训练的质量与效率,一个好的标注工具可以让模型训练事半功倍。LabelFree是一个开放的、可私有化部署的高性能数据标注系统。其操作简单、数据可靠,为算法服务提供可靠的底层数据支撑。

LabelFree项目管理页面

1.大幅提升标注质量

LabelFree支持在数据标注的早期阶段对标注质量进行严格把控。其支持多角色用户管理功能,当角色为质检员时,可对标注结果进行检查与复核。

2.大幅提升标注效率

LabelFree可大幅提升个人标注效率。其支持大量标注步骤快捷键操作,通过人机交互的优化显著提升标注效率。

快捷键使用说明

LabelFree亦支持团队标注。其支持多人协作完成同一标注任务,并实现任务自动分发。

3、可靠的数据安全管理

数据的完全私有化管理,最大程度的保护数据安全。数据集管理服务依托具有弹性伸缩能力的原生对象存储,为机器学习、大数据分析平台提供高性能、高可用的数据基座。

4、完全的免费开放平台

LabelFree平台对数据集大小、用户数量、项目数量等功能均无限制,用户可在平台上进行各种自定义的数据标注任务并获得良好的体验。

重磅!挖米匠要开直播啦!手把手教大家使用YMIR,小白也能成为算法工程师!

欢迎大家试用新版本,接受所有吐槽哦~部署或试用过程中有任何问题都欢迎联系小助手“挖米匠”。

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
2.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了一种新的特征选择框架shap-select,该框架通过在验证集上对目标变量与原始特征的SHAP值进行线性或逻辑回归,并根据回归系数的符号和显著性水平来实现高效的特征选择。在Kaggle信用卡欺诈数据集上的评估表明,shap-select在解释性、计算效率和性能方面均表现出色。 https://www.bilibili.com/read/cv40067807
3.数据挖掘的五大流程数据挖掘的五大流程 2.数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大https://blog.csdn.net/qq_46078451/article/details/119472972
4.sklearn中的数据预处理常给自己加个油一、数据挖掘的五大流程: 1、获取数据 2、数据预处理 3、特征工程 4、建模,测试模型并预测结果 5、 上线,验证模型效果 二、数据预处理 Ⅰ、 数据无量纲化 定义: 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布 https://www.cnblogs.com/zywnnblog/p/15784067.html
5.数据挖掘技术方法(精选十篇)微博诞生也不过数年光景,就以之为例。微博是大家熟知的社交网站,通过社交网站的数据挖掘的管理流程,就可窥一斑而见全豹,对整个网络数据挖掘的方法与技术就都可以融会贯通了。我们可以举个例子,譬如应用面向对象的系统分析方法与设计等等。 2 网络数据挖掘方法https://www.360wenmi.com/f/cnkeyg31vygx.html
6.大数据一文总览数据科学全景:定律算法问题类型;什么是知识摄取的系统化流程:挖掘数据需要一套有条理的流程,这其中包括明确的步骤,以及每一步清晰可实现的目标。就好比跨行业数据挖掘标准流程(CRISP-DM)(https://en.wikipedia.org/ wiki/ Cross_Industry_Standard_Process_for_Data_Mining)。 与数据共眠:相关机构应当投资热衷于数据的专业人士。将数据转化为资源的不是https://zhuanzhi.ai/document/ba50f489f166e5f700f1800aab8dea65
7.信息系统项目管理师重点内容汇总(第八天)使用结构化分析 (Structured Analysis,SA) 方法进行需求分析,其建立的模型的核心是数据字典。围绕这个核心,有三个层次的模型,分别是数据模型、功能模型和行为模型(也称头状态模型)。在实际工作中,一般使用实体关系图 (E-R 图)表示数据模型,用数据流图 (DatFlow Diagram,DFD) 表示功能模型,用状态转换图 (State Trahttps://developer.aliyun.com/article/1416724
8.金融界带你一文读懂汽车金融科技平台灿谷集团同时在招股书中我们还看到,随着灿谷多年在汽车交易数据方面的积累,灿谷正计划拓宽服务范围并积累数据见解,并探索与腾讯,泰康人寿和滴滴出行等战略投资者合作的机会,以加强起全流程技术驱动的汽车交易服务。 可以说拥有这样的豪华股东群,灿谷是站在的巨人的肩上,这是其实力的象征,从领军人物、核心团队、业务流程、风险http://wwwcdn.cangoonline.com/news/detail/92
9.大数据应用导论Chapter1大数据技术与应用概述下面是一些机构的定义: 维基百科: 传统数据处理应用软件不足以处理的大型而复杂的数据集; 包含的数据大小超过了传统软件在可接受时间内处理的能力。 互联网数据中心(IDC): 为了能够更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术。 2、大数据的五大特征 1、数据量巨大(海量)https://cloud.tencent.com/developer/article/1733234
10.系统项目管理师(第4版)思维导图模板系统分析阶段的任务是根据系统设计任务书所确定的范围,对现行系统进行详细调查,描述现行系统的业务流程,指出现行系统的局限性和不足之处,确定新系统的基本目标和逻辑功能要求,即提出新系统的逻辑模型。系统分析阶段的工作成果体现在系统说明书中。 系统设计阶段 https://www.processon.com/view/654c455f8f11b40fe56ece43
11.2022年深圳大学中外合作办学项目金融科技与风险控制硕士招收持有【报名流程】 1、将境外大学录取通知书、本科大学成绩单、毕业证、学位证、英语能力证明材料(雅思或者托福或者托业或者多邻国)扫描发至lvbing@szu.edu.cn或luolz@szu.edu.cn任一邮箱进行初审。 2、招生办老师会通过邮件回复初审结果,确定复试资格。 获得初审通过邮件后,提交以下材料,相关表格和材料规格以初审通过通http://swift.szu.edu.cn/info/1002/1651.htm
12.商业数据范文12篇(全文)国内已经有大数据公司开发了这些架构在云端的大数据分析软件:它集统计分析、数据挖掘和商务智能于一体,用户只需要将数据导入该平台,就可以利用该平台提供的丰富算法和模型,进行数据处理、基础统计、高级统计、数据挖掘、数据制图和结果输出等。数据由系统统一进行管理,能够区分私有和公有数据,可以保证私有数据只供持有者https://www.99xueshu.com/w/ikeyf40bxoox.html