IDEA人物张磊博士,打造能“看”懂“想”透“做”好的智能体

张磊博士曾在微软工作了20年,主导和参与过大量研究项目。一直以来,张磊博士对大规模的视觉识别问题有着浓厚的兴趣和独特的思考,尤其是对如何利用海量的数据,从数据中挖掘隐含的视觉模式和结构的问题。

2013年,张磊博士发表重复图像聚类搜索算法解决论文《DuplicateDiscoveryon2BillionInternetImages》。这个论文中提出的算法在学术界和工业界都极具前沿性,对搜索引擎有巨大影响。

众所周知,传统的聚类算法复杂度基本是O(n2),在20亿量级的数据上采用传统方法进行聚类按当时的算力是无法做到的。论文中提出分而治之的策略:基于全图特征的哈希编码在数十亿图像中快速找到所有可能的重复图像聚类,并结合局部特征进行聚类生长和噪声清除。该策略的提出意味着在一个有2000个CPU的集群环境中,整个聚类过程可以在13个小时内完成。

论文中所提出的算法经过张磊博士和产品部门同事进一步的改进后,被用于必应图像搜索引擎中。该算法成为了整个图像索引底层数据处理的基础算法,每天都被用来处理上百亿的图像数据,进而改进图像搜索的质量。

以研究的力量为社会创造美好

其中,发表在ECCV2020上的视觉语言表示学习方面的研究工作《Oscar:Object-SemanticsAlignedPre-trainingforVision-LanguageTasks》,在六项视觉语言任务上取得研究领域最好的结果,并且促进了后续发表在AAAI2020上的研究工作《VIVO:VisualVocabularyPre-TrainingforNovelObjectCaptioning》,在nocaps挑战赛上取得首次超过人类性能的结果。

这些研究工作在研究团队和工程团队的共同努力下,短短几个月就转化到AzureAI产品中。后续进一步用到SeeingAI中,供盲人或者视障人士免费使用,为社会带来更多积极的影响与美好的改变。

视觉与机器人“看”懂“想”透“做”好

“视觉和机器人结合会产生更多研究问题,一个智能体能够‘看’懂、‘想’透、‘做’好,需要研究很多基础问题,任何突破都会对智能制造业带来巨大的影响。”

——张磊博士

2021年6月,张磊博士加入IDEA,并任计算机视觉与机器人研究中心的讲席科学家及平台负责人。众所周知,张磊博士是计算机视觉领域的世界级专家。外人鲜少知道,在张磊博士进行博士深造之前,是国内最早一批参与室内移动机器人的研究人员。

独特的研发经历让张磊博士选择在计算机视觉与机器人专业领域进一步深耕,尽管现在机器人的技术有了天翻地覆的变化,但是张磊博士相信研究的本质是相似的。张磊博士在谈及对于机器视觉与机器人研究中心的看法与解读之时,发表了独特的见解,为了保留更原始的表达,以下将展示张磊老师的原话阐述。

以下为张磊博士的原话阐述:

计算机视觉是人工智能领域的基础问题,主要解决的是感知过程中“看”的问题,但也有很多需要“想”的问题。比如在图像中看到一只鹿,现在的算法基本是基于物体整个区域的特征“背”下来的识别,要想“解释”为什么这是一只鹿,哪个地方是头哪个地方是脚,是需要额外的数据和标注的。如果不能对结果给出很好的解释,就会给识别的鲁棒性带来很多问题,在对抗攻击样本面前真的会犯“指鹿为马”的错误。这些问题都是值得在视觉方向上进行深入研究的好问题。

另外,智能还包含“做”的问题,也就是机器人和外部环境进行物理交互的问题。视觉和机器人结合起来会产生更多有趣的研究问题,要一个智能体能够“看”懂、“想”透、“做”好,需要研究很多基础问题,任何问题的突破都会对产业尤其是智能制造业带来巨大的影响。

这个趋势引发学术界和工业界很多的讨论,也促使我深入思考这个现象背后更本质的问题。通过深入地回顾机器学习背后的统计学习基础,我认为现在这个大数据大模型的方向是值得肯定的,因为它背后是有坚实的数学基础的,这个数学基础也就是泛函空间中的大数定律,这个定律告诉我们的是满足一定条件下,数据量趋于无穷大时,我们现在所用的函数拟合方法的收敛性。但是我们在实际问题中用到的数据量远远达不到无穷大的条件,也就是说,我们现在所谓的大数据模型训练,在统计学习的意义下,还只能算是小数据。要弥补这个问题,我们必须要更深入的研究表示学习的问题,研究在大数据学习的框架下如何引入结构和知识来提高机器学习的泛化能力,这将会是自然语言和视觉领域非常好的研究问题。

另外,视觉和机器人结合起来也会带来不一样的问题。大部分的视觉问题关心的都是被动视觉,不管是静止照片还是连续视频,计算机系统不会去影响物理世界的。但是机器人上有些问题就不太一样,机器人是可以动的,从一个角度看不清楚是可以移动一下换个角度来看的,甚至机器人的动作会改变当前环境的状态,这给视觉带来很多有趣的新问题。

此外,机器人本身也是非常有前景的方向。我们整个社会都在面临产业结构调整,机器人技术在智能制造业方面有着巨大的发挥空间。我们在这个领域中会重点研究室内环境中的移动机器人和工业环境中的智能机械手臂等技术,为新一代制造业赋能。

智能制造技术为新一代制造业赋能

“以IDEA为舞台,借助自己在工业界与研究院多年的研究经验,深入研究视觉和人工智能中的基础问题,通过研究创新带动产业发展,为社会的数字经济发展做出有益的贡献。”

计算机视觉与机器人研究中心旨在通过基础研究推动视觉及机器人技术的成熟和普及,探索大数据条件下基于大模型的表示学习问题,同时引入知识和结构来改进深度学习模型的推理和泛化能力,围绕智能制造业机器人所需的主动视觉和强化学习问题,研究更普适、更鲁棒、可解释的智能技术,从而打造智能制造业为代表的「工业AI」,为新一代制造业赋能。

视觉表示学习研究方向1

视觉表示学习,研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

虽然计算机视觉在过去几年中取得了显著的进展,视觉算法还面临很多挑战,譬如缺乏可解释性、易受对抗攻击等。解决这些问题,我们需要研究如何从大规模的复杂数据(包括文本、图像和视频)中学习和分析数据背后隐含的本质规律,并从机器学习的角度对数据的隐含规律进行数学表示方面的研究,研究如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性,并对视觉领域中的分类、检测、分割、跟踪等核心问题带来更全面的改进,在很多具体场景中产生实际的应用价值。

超大规模机器学习平台研究方向2

超大规模机器学习平台,研究系统级别的机器学习算法优化,分布式环境下的数据并行、模型并行、数值计算分析、优化算法等关键问题,有效提高大规模模型训练效率。

视觉领域中的基础问题,研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。

大数据大模型正在视觉领域中成为越来越重要的研究方向,这其实是我们在不断地验证统计学习中的大数定律。

研究领域一定会朝着两个方向去走,一个是我们前面讲到的引入结构和知识使得我们能够更加有效地利用数据,另一个是不断增加数据和模型规模来探测算法性能的边界,这两个方向往往也需要交织着同时往前走。

正如在NLP领域一样,大模型训练给机器学习带来很多系统级的问题,比如如何用尽可能少的GPU训练出尽可能大的模型。因此,我们会针对视觉中的问题研究系统级别的机器学习算法优化,通过改进多机多卡环境下的数据并行、模型并行、数值计算分析、优化算法等关键问题,在上千卡的环境下实现大规模高效率的模型训练,并通过开源模式为研究领域提供最新技术。

新一代智能机器人技术研究方向3

新一代智能机器人技术,研究制造业环境中机器人手臂和移动机器人的主动视觉、强化学习、智能控制等问题,为工业人工智能赋能。

中国正在进入工业自动化以及制造业现代化的重要阶段,亟需更普适、更鲁棒的智能技术。我们将会依托深圳在科技和制造业方面国际范围独有的优势,结合计算机视觉研究智能机器人方面的关键技术,研究制造业环境中机器人手臂和移动机器人所需的主动视觉、强化学习、智能控制等问题,通过核心技术的研究和突破培育一系列世界领先的智能制造机器人技术,并结合深圳的制造业打造新一代的智能制造机器人产品。

携手同行共进推动人类AI技术发展

作为计算机视觉与机器人研究中心的讲席科学家,张磊博士将带领团队,在计算机视觉领域与智能制作机器人领域进行前沿探索,突破培育一系列世界领先的智能技术,最终实现“为全社会从包括AI技术在内的新一代智能技术中普遍受益”的任务及愿景。

未来,张磊博士将与IDEA及科研同仁在不断交流磨合的同时,亦携手向同一个目标共进。为推动人类AI技术发展,立足社会需求研发颠覆式创新技术回馈社会,让更多的人从数字经济发展中获益而努力,这是IDEA的使命,也是这里每位科研人员的责任与追求。

除了张磊博士外,IDEA目前已聚集一批包括前哈佛教授、前微软技术高管在内的国际一流技术专家,共同致力于在数字经济核心领域产生国际顶尖的研发成果并培育一批国际顶级的高科技企业,带动深圳和大湾区万亿级人工智能与数字经济产业发展。

THE END
1.人工智能算法的分类与应用人工智能 (AI) 是当前科技领域的热门话题,其核心是各种算法的灵活运用。AI算法不仅实现了智能预测、分类,还在数据挖掘、自然语言处理和推荐系统等领域发挥着重要作用。接下来,我们将以科普的视角,带您深入了解 AI 的主要算法及其广泛应用。 一、监督学习 https://mp.weixin.qq.com/s?__biz=MzI3MzQ1NjMwOA==&mid=2247549220&idx=4&sn=25aa18da4b1e2824371e552b0ca3c8e6&chksm=eb214cffdc56c5e9303367ae4087102996613151dfa3c11fafe88950b683dbc8dadedd63bcaa&scene=27
2.AI视觉检测与机器学习:技术原理应用与发展趋势深度学习作为机器学习的子集,尤其适用于图像处理和视觉检测。基于卷积神经网络(CNN)等算法,AI视觉检测系统能够实现高精度的目标检测与分类。卷积神经网络(CNN):通过多层卷积提取图像的深层特征,实现物体定位与识别。YOLO与SSD模型:实现实时检测,适合对速度要求较高的场景。ResNet与DenseNet:优化网络深度,有效解决https://baijiahao.baidu.com/s?id=1818645172241710612&wfr=spider&for=pc
3.大数据机器学习算法概论腾讯云开发者社区大数据 机器学习 算法概论 ?算法概述? 算法是计算机科学领域最重要的基石之一,计算机语言和开发平台日新月异,但万变不离其宗的是那些算法和理论,数据结构和算法是软件开发必备的核心基础,是内功心法。下面举例拿推荐算法和分类算法的实际场景做下举例:https://cloud.tencent.com/developer/article/2479107
4.《视觉大数据智能分析算法实战》(刘衍琦曲海洋刘明明孙振当当网图书频道在线销售正版《视觉大数据智能分析算法实战》,作者:刘衍琦、曲海洋、 刘明明、孙振林、张耀刚,出版社:清华大学出版社。最新《视觉大数据智能分析算法实战》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《视觉大数据智能分析算法实战http://product.dangdang.com/29414478.html
5.《视觉大数据智能分析算法实战/人工智能科学与技术丛书》摘要书评图书 > 计算机与互联网 > 数据库 > 清华大学 > 视觉大数据智能分析算法实战/人工智能科学与技术丛书 自营 清华大学出版社京东自营官方旗舰店 京东价 ¥ 促销 展开促销https://item.jd.com/13190897.html
6.计算机视觉中的分布式处理与大数据算法原理:在计算机视觉中,分布式处理与大数据处理的算法原理包括图像处理、特征提取、分类、聚类等。 具体操作步骤:在计算机视觉中,分布式处理与大数据处理的具体操作步骤包括数据预处理、特征提取、模型训练、模型评估等。 数学模型公式:在计算机视觉中,分布式处理与大数据处理的数学模型公式包括均值、方差、协方差、相关系数https://blog.csdn.net/universsky2015/article/details/135785350
7.零基础学大数据算法零基础学大数据算法文档介绍内容阿里云为您提供零基础学大数据算法相关的67114条产品文档内容及常见问题解答内容,还有等云计算产品文档及常见问题解答。如果您想了解更多云计算产品,就来阿里云帮助文档查看吧,阿里云帮助文档地址https://help.aliyun.com/。https://help.aliyun.com/wordpower/397858-1.html
8.飞视智新(深圳)科技有限公司务实的AI视觉算法软件供应商 专注于计算机视觉目标识别,业务领域包括工业巡检、工业检测、AI医疗 AI医疗 多种全面保障,安心护航 工业检测 智能检测大数据解决方案 工业巡检 核心技术突破解决方案 智能查违 自动图像对比,检查建筑变化 新闻中心 从这里开始了解我们 http://www.fvitech.com/
9.中微技术VimicroSVAC人工智能数字视觉大数据的提供商中星微技术股份有限公司(中星微Vimicro)是SVAC人工智能软硬体、数字视觉大数据技术的提供商。中星微Vimicro产品涉及数字视觉芯片、算法智慧摄像机、安全智能视频服务器、安全门禁、视图安全云平台等。中星微技术是在人工智能领域,垂直整合国际领先芯片设计技术与新一代数http://vitechnology.corp.dav01.com/
10.如何实现紧致化的视觉大数据分析系统第三部分是检测算法的紧凑性。 在视觉特征紧凑型方面,视觉数据是大数据里面的主体,谈到大数据,我们首先想到的数据量最大的还是图像和视频数据。 如果不可以把图像和视频数据找到,它们的价值其实很难得到发现。我们这时候面临的问题是,需要在上百万或者上千万的数据集里面,高速高效的把相关视觉数据找到。这个问题本身并没https://www.elecfans.com/d/679747.html
11.通俗理解卡尔曼滤波(无人驾驶感知融合的经典算法)其他我们来具体分析其中几个岗位,比如视觉SLAM算法工程师。 那什么是slam呢?我们知道,传统的图像处理基本上是基于二维图像,而人眼是通过两只眼睛的视差(双目立体视觉)来感知周围的三维空间。随着三维视觉传感器的飞速发展,三维视觉核心技术:SLAM(全称 Simultaneous Localization And Mapping,译为同时定位与地图构建)技术,本质是https://www.saoniuhuo.com/article/detail-32817.html
12.视觉算法工程师视觉算法工程师招聘猎聘视觉算法工程师招聘频道为您提供大量的视觉算法工程师招聘信息,有超过10000多视觉算法工程师招聘信息任你选寻,招聘视觉算法工程师人才就来猎聘视觉算法工程师招聘!求职找工作就用猎聘聊。https://www.liepin.com/s/ffaf0cb236ba4cd09e3b07d583ba26c0/
13.视觉识别算法视觉识别算法 机器学习与数据挖掘 视觉识别算法 目标检测算法 人头检测 人头检测 功能介绍: 人头检测是人员计数分析系统的基础, 双照电子科技为你提供轻量便捷的人头检测技术 优势:双照电子科技人员检测技术,使用多场景,多设备,消耗资源低 优势: 双照电子科技人脸检测技术,支持口罩检测功能, 支持多场景复杂环境, 快速定http://www.shinetech-china.com/vision.html
14.科学网—平行视觉的基本框架与关键算法为了进一步解决复杂环境中视觉感知模型的科学难题,本文提出如图 1所示的平行视觉分析框架,实现基于实际图像分布的数据扩充和人工场景数据生成,并开展基于数据驱动的计算实验,设计和优化视觉算法。基于实际和人工之间的虚实互动,引入平行学习,持续反馈优化视觉感知模型。 https://wap.sciencenet.cn/blog-2374-1281878.html
15.智源社区票选2021AI十大进展出炉!5.AlphaFold2算法和蛋白质结构预测数据集开源 7月,DeepMind使用新开发的AlphaFold2算法预测出了35万种蛋白质的结构,其中包括人类基因组表达的约2万种蛋白质,以及其他20种生物学研究中的常用模式生物(如大肠杆菌、酵母和果蝇)表达的蛋白质,是过去用实验方法解决的蛋白质数量的两倍多。 https://www.ncsti.gov.cn/kjdt/ztbd/xydrgzn/lbt_848/202112/t20211231_54975.html
16.稳态视觉诱发电位频率识别算法研究进展稳态视觉诱发电位是脑-机接口系统中常用的控制信号之一。基于稳态视觉诱发电位的脑-机接口具有高信息传输率、训练时间短等优点,已成为脑-机接口研究领域的一个重要分支。本文从无监督学习算法、有监督学习算法和深度学习算法三个方面,归纳了近五年稳态视觉诱发电位频率识别算法研究的主要进展,并展望了值得关注的若干前沿https://www.biomedeng.cn/article/10.7507/1001-5515.202102031
17.算法捉虫:深度学习和计算机视觉改变昆虫学澎湃号·湃客算法捉虫:深度学习和计算机视觉改变昆虫学 原创Mark Buchanan 集智俱乐部 导语 计算机算法不仅可以帮助我们检查软件程序中的bug,也能助力科学家去寻找自然界中的真·bug。今年发表于 PNAS 的一篇论文,提出了基于传感器的大规模昆虫检测,利用深度学习技术,获得全面的生态信息大数据。https://www.thepaper.cn/newsDetail_forward_11862390
18.驾驶员眼部疲劳视觉检测算法及其ARM+DSP实现AET驾驶员眼部疲劳视觉检测算法及其ARM+DSP实现 摘要:将ARM+DSP技术应用于驾驶员的疲劳检测,使用S3C2440作为核心处理器,利用TMS320DM642作为视频采集处理模块,详细讨论了硬件平台与接口的设计。提出了一种简单有效的基于眼部特征的疲劳驾驶检测算法,结合单目机器视觉实现了驾驶员眼部睁闭状态的有效判定和疲劳驾驶的实时检测。http://www.chinaaet.com/article/177810