开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2022.07.24江苏
前记:本篇是对手机双摄原理及应用现状,未来布局的汇总。
为什么会出现双摄像头手机?
智能手机市场一直都是群雄争霸,竞争非常激烈。随着时代的发展,各大手机厂商的竞争焦点从以前的硬件军备竞赛逐渐延伸到影音娱乐领域,尤其越来越注重手机的拍照性能。随着手机的快速迭代,单摄像头手机的拍照性能在一定程度上达到极限,要想在拍照领域再度有所突破,必须要借助双摄像头,甚至摄像头阵列才能实现更多的应用。近两年,不少手机厂商推出了双摄像头(简称双摄)手机,摄像头从一个变成两个,到底是个噱头,还是真的物有所值,我们来探讨一下吧。
什么是双摄手机?通俗的讲,双摄手机是指一个智能手机某一面(一般是背面,也可能在前面)上有两个并排(横排或者竖排)的摄像头;如果学术一点讲的话,可以称为立体相机(stereocamera)。这两个相机可以模拟人眼双目视觉原理,利用立体摄影(stereophotography)算法获得三维信息。
双摄手机发展简史事实上,双摄手机并不是最近一两年才出现的新鲜玩意儿。早在2011年,如日中天的HTC推出了首款配备两颗500万像素摄像头机型G17,然而第一个吃螃蟹的人往往成为先烈,当时双摄像头的配置并未能打入主流市场。主要有两个原因:一是500万像素画质过低,先拍照后对焦后画质并没有得到提升;二是因为缺乏3D应用,让双摄像头成为鸡肋。
为什么双摄像头配置会东山再起?第一个原因是,用户需求的转变。从单纯追求高分辨率转到更多元化的应用需求。
第二个原因是:手机厚度的限制。
摄像头模组的厚度决定了手机的整体厚度。一方面用户希望手机越薄越好,另一方面拍照性能的提高需要更复杂更厚的镜头模组。比如智能手机用单个摄像头实现光学变焦是一件非常困难的事情,要想实现光学变焦需要复杂的镜头组合设计,这样设计出来的镜头模组就比较厚。所以这两者是不可调和的矛盾。即便是行业翘楚的苹果手机,也没办法很好的解决这一问题,这也是iPhone6摄像头突出的主要原因。从手机外观设计的角度来说,要解决颜值问题,必须要采用双摄像头。
双摄手机有什么用?按照双摄手机两个摄像头之间的距离来做个简单分类:两个摄像头之间离得比较近,两个摄像头取景范围相差很小,这样在两张图片进行融合的时候就不会因为错位产生不良的影响,可以利用两个摄像头不同的曝光和色彩信息进行融合,展现更真实的色彩,更丰富的细节,从而大幅提升成像质量。可以用来做夜景/暗光拍照增强、增加动态范围等应用。
两个摄像头之间离得比较远,得到的两张图之间相差足够大,可以用算法来取得景深信息,然后利用景深来做背景虚化,物体分割,三维重建,辅助对焦,动作识别等应用。
下面列举几个常见的应用。
1、背景虚化
背景虚化是一种常用的功能,很多人都对单反相机的大光圈背景虚化效果非常着迷。如下图右是原图,左图是iPhone7plus背景虚化的效果。
2、重对焦
利用计算得到的景深信息,可以实现先拍照后对焦。
3、夜景/暗光拍照增强
以华为P9为例,其配置一个彩色镜头一个黑白镜头。黑白镜头的大光圈保证了足够的进光量,让画面景物细节轮廓凸显,彩色镜头负责捕捉色彩,经过算法合成后可以呈现较好的夜景拍照效果。
4、光学变焦
通过广角和长焦的双摄像头搭配,可以让相机拥有更远的光学变焦。
如下图左边是iPhone7Plus广角相机拍摄的图片,右边是长焦相机拍摄的图片。
5、提高动态范围(HDR)
6、三维应用
因为通过双摄像头可以计算出景深信息,所以双摄在三维应用上将会有很多有趣的应用。比如可以测算物体的物理尺寸和距离,用来做三维测量;可以通过扫描来对真实物体进行三维建模;可以实现逼真的互动性很强的增强现实游戏等。这将大大拓展手机的应用价值。
双摄手机虽然有以上介绍的优势,但仍然存在不少问题:由于目前大部分双摄手机基线(两个摄像头的距离)较短,无法计算较远处的景深。所以背景虚化、重对焦等功能仍然和单反相机有很大差距,有许多槽点可以吐。三维应用也还处于起步阶段,有很多功能有待挖掘。
双摄手机的出现是行业发展瓶颈催生的必然结果,随着双摄手机越来越普及,双摄功能正趋于成熟,相信最近两年双摄技术会带来越来越多的有用有趣的应用。
双摄技术方案:
由于双摄技术的快速发展,目前已经衍生出了几种不同的双摄硬件和算法配置解决方案。不同手机厂商可能有不同的双摄配置,比如华为荣耀P9采用的就是黑白相机+彩色相机的硬件配置,而iPhone7plus采用的就是广角+长焦的配置。此外,随着技术的演化,同一厂商也可能推出多种不同的配置。比如,华为2014年底推出第一款双摄手机是荣耀6plus,后置两个相同的彩色相机平行排列,2016年推出的年度旗舰产品荣耀P9则是黑白相机+彩色相机的配置。
因此介绍原理之前,先对目前双摄的配置进行粗糙的分类。双摄手机一般包括一个主摄像头和一个辅助摄像头。根据不同的应用需求和侧重点,目前双摄手机通常有以下几种不同的组合形式:
1、彩色相机+彩色相机(RGB+RGB),主要用于计算景深,实现背景虚化和重对焦
2、彩色相机+黑白相机(RGB+Mono),主要提升暗光/夜景影像拍摄质量
3、广角镜头+长焦镜头(Wide+Tele),主要用于光学变焦
4、彩色相机+深度相机(RGB+Depth),主要用于三维重建
以上1、2、3的组合本质上是一种“叠加”。即把两个镜头拍摄的图像叠加融合,来达到提升拍摄质量、背景虚化、光学变焦等功能。这种应用双摄像头拍摄的图像差距越小越好,这样算法进行“叠加”的时候才能更精确。理论上两个摄像头离的越近越好,目前大部分双摄手机都是基于这样的配置,两个镜头之间的基线(两个镜头的间距)很短,一般都是10mm左右。而人类双眼的基线均值是64mm,相比之下目前的双摄手机基线太短,只能计算较近物体的景深(浅景深)。
1、彩色相机+彩色相机
单反相机让人为之着迷的一点便是通过调整不同光圈值,拍出如梦似换的背景虚化效果。我们知道,单反相机通过增大镜头光圈可以缩小拍照时的合焦范围。如下图,黑色的小人代表了拍摄的清晰范围,当采用较大光圈时,只有在对焦点附近的小人是清晰的,对焦点前后的小人都被模糊掉了。
单反相机可以通过调节光圈大小,来改变照片的虚化程度,双摄手机也可模拟单反相机调节光圈。通过重新调用照片中物体的景深信息,可以实现先拍照后对焦的功能,实现之前只有光场相机才能实现的重对焦功能。
如下图是利用双摄手机处理得到的重对焦效果:
红米Pro、vivox9
特别提示:
vivox9官网的双摄介绍:前置采用2000W索尼定制传感器+800W专业景深摄像头
红米Pro官网的双摄介绍:1300万像素后置相机+500万像素辅助深度相机
上述两款手机官网介绍中副摄像头标榜为景深相机或辅助深度相机,其实并不恰当。它们并非真的可以单独用来测量距离,其实只是普通的RGB彩色相机。只不过对成像质量贡献很小,主要用于和主摄像头一起提供立体视差从而计算景深。总结一下,景深信息实际是通过主副两个相机的视差共同计算的,单个RGB相机是无法直接得到景深的。所以我个人认为,红米pro和vivox9在双摄的副摄像头宣传上使用了误导性的不恰当的术语。
2、彩色相机(RGB)+黑白相机(Mono)
下面参考altek公司的一个简要的技术报告来解释一下该技术的原理。下图是一个简要的算法流程图。
图像融合部分是可以加开关进行控制的,根据不同应用的需要黑白和彩色图片都可以作为主要的融合参考,也可以分开使用。
我们知道自然光是由赤橙黄绿青蓝紫等不同颜色组成的,我们小时候玩的三棱镜就可以看到光的色散。如下图。
接下来介绍一个复杂一点概念:拜尔滤色镜。它其实是一种将RGB滤色器排列在光传感组件方格之上所形成的马赛克彩色滤色阵列。如下图,入射的自然光经过不同的拜尔滤色镜后就得到了相应的颜色。
360手机奇酷旗舰版、华为荣耀P9。
3.广角+长焦
这种组合最大的优势是光学变焦(opticalzoom)。光学变焦镜头通常是由多组独立的凸/凹透镜组成的,有的透镜是固定的,有的是可以沿光轴前后滑动的。复杂的变焦镜头可以包含多达三十多个独立的透镜以及多个移动部件。
虽然变焦镜头的组成比较复杂,但是可以按照功能划分为两部分:无焦变焦系统(afocalzoomsystem)和聚焦透镜(focusinglens)。如下图所示。
数字变焦(digitalzoom)和光学变焦(opticalzoom)有着本质的不同,可以简单的认为数字变焦为“假变焦”。为什么说它假呢?粗糙的类比一下,数字变焦相当于你把照片放在一个图像编辑软件里,裁掉周围的一部分图像,然后把剩下的一部分放大。所以你看,数字变焦仅仅是一个类似放大的效果,并不能真正的起到变焦作用,所以数字变焦的结果通常噪点较多,图像比较模糊。下图是光学变焦和数字变焦的直观对比:
但是老话说的好,条条大路通罗马,何必吊死一棵树。单镜头既然不行,用两个镜头是不是可以呢?
双摄像头的理论基础,就是把原本要求纵向空间的光学体系,在横向空间里宽裕的机身平面上铺开。现今手机厚度已经不可逆转的向7mm甚至更薄发展,但横向看机背上与屏幕平行的平面的空间是足够的。说白了,比起把镜头做得不突出机身,在机背上多放几个镜头明显要更容易。
经过相机模组厂商和算法提供商的严苛研发和测试,目前广角+长焦的双摄像头的组合变焦方案逐渐被业界广泛接纳。这其实是一种非常朴素的变焦思路:用两个焦距不同的摄像头搭配,宽视角的广角镜头可以“看”的很广,但是“看”不清远处的物体,而窄视角的长焦镜头虽然“看”的范围不大,但是“看”的更远更清晰。广角和长焦镜头组合搭配,在拍照时通过镜头切换和融合算法就能实现相对平滑的变焦。法子虽然笨点,效果的确不错。高像素的长焦镜头能保证广角镜头因变焦而损失的图像信息远低于单摄像头的假变焦,从而大幅提高手机的变焦性能。该组合方式可以得到较好的光学变焦体验。下图是广角+长焦的融合效果:
LGG5后置摄像机有两个,主摄像头1600万像素,视场角78°,f/1.8大光圈,暗光拍照效果比较好;辅摄像头800万像素,具有135°的超广角,这个是LGG5的杀手锏。LGG5的光学变焦方案就是在拍照时切换不同的镜头来实现光学变焦。但是这个135°的镜头已经算是鱼眼的范畴,它拍摄的图像边缘会出现畸变,并且还不是大家印象中鱼眼镜头那种由画面中心到四周均匀的光学性畸变,而是中间大部分画面正常而四周部分跳跃性的出现畸变。如下图所示。
相比之下,后来者iPhone7Plus的配置更为合理。iPhone7plus的双摄像头升级是iPhone问世以来在摄像头方面最大的一次飞跃。
其配置如下:
广角镜头:1200万像素,/1.8光圈,焦距28毫米
长焦镜头:1200万像素,/2.8光圈,焦距56毫米
2倍光学变焦;最高可达10倍数码变焦
通常来说焦距在85mm至300mm区域内的才可称为长焦镜头,而iPhone7plus的长焦镜头焦距只有56mm,只不过焦距比28毫米的镜头多了一倍,不过苹果也将其称为长焦镜头。
iPhone7plus的镜头组合并不像LGG5那样极端,可以避免出现边缘畸变。如下图左边是iPhone7plus广角相机拍摄的图片,右边是其长焦相机拍摄的图片:
这类双镜头搭配方案的光学变焦,本质和单反相机不同,更准确一点的话,应该称为双焦距。拿单反相机和iPhone7plus为例,我们来分析一下它们的2倍光学变焦有什么不同。
单反相机上的2倍光学变焦镜头,是可以实现无级光学变焦的,也就是可以实现1倍到2倍之间所有的焦距。用数学语言来说,就是可以实现[1,2]区间内任意实数倍的光学变焦倍数。这种光学变焦是平滑的。
而iPhone7plus的2倍光学变焦,实际是56毫米镜头在28毫米镜头数字变焦达到最远的时候切换到56毫米镜头,接过变焦的任务,这样使用起来就像是整体光学变焦能力提升了一倍。它是无法实现1倍到2倍之间的任意光学变焦的,其光学变焦只能取1和2两个值。这种光学变焦方式并不“平滑”。
那么就有人问了,为什么我使用iPhone7plus的时候感觉变焦很平滑啊,这是因为,苹果公司一向非常注重图像处理算法,所以iPhone系列手机摄像头通常在硬件上不是最先进的,但在拍照效果却一直非常出色。虽然iPhone7plus的双摄镜头光学变焦并非真正的平滑变焦,但在其强大的双摄图像处理算法的帮助下,实际使用时还是非常顺畅的,并不会出现变焦挫顿,仍然可以实现比单摄像头好的多的变焦效果和成像质量。
4.RGB+Depth
因为TOF相机使用的较为广泛,在此主要介绍一下TOF相机的原理。
TOF相机采用主动光探测,通常包括以下几个部分:
1、照射单元
如此高的调制频率和精度只有采用精良的LED或激光二极管才能实现。
一般照射光源都是采用人眼不可见的红外光源。
2、光学透镜
用于汇聚反射光线,在光学传感器上成像。不过与普通光学镜头不同的是这里需要加一个带通滤光片来保证只有与照明光源波长相同的光才能进入。这样做的目的是抑制非相干光源减少噪声,同时防止感光传感器因外部光线干扰而过度曝光。
3、成像传感器
4、控制单元
相机的电子控制单元触发的光脉冲序列与芯片电子快门的开/闭精确同步。它对传感器电荷执行读出和转换,并将它们引导至分析单元和数据接口。
5、计算单元
计算单元可以记录精确的深度图。深度图通常是灰度图,其中的每个值代表光反射表面和相机之间的距离。为了得到更好的效果,通常会进行数据校准。
TOF测距原理:
照射光源一般采用方波脉冲调制,这是因为它用数字电路来实现相对容易。深度相机的每个像素都是由一个感光单元(如光电二极管)组成,它可以将入射光转换为电流,感光单元连接着多个高频转换开关(下图的G1,G2)可以把电流导入不同的可以储存电荷(下图S1,S2)的电容里。
最小的可测量距离是:在较早的快门期间S0中收集了所有的电荷,而在延迟的快门期间S1没有收集到电荷,即S1=0。代入公式会得出最小可测量距离d=0。
最大的可测量的距离是:在S1中收集了所有电荷,而在S0中根本没有收集到电荷。然后,该公式得出d=0.5xc×tp。因此最大可测量距离是通过光脉冲宽度来确定的。例如,tp=50ns,代入上式,得到最大测量距离d=7.5m。
TOF相机影响因素:
1、多重反射。
距离测量要求光只反射一次。但是镜面或者一些角落会导致光线的多次反射,这会导致测量失真。如果多重反射使得光线完全偏转,则没有反射光线进入相机,从而无法正确测量反射面的距离。反之,如果其他方向的光通过镜面反射进入芯片,则可能会发生过度曝光。
在镜头内或在镜头后面发生多余反射会出现散射光,如下图所示,散射光会导致图像褪色,对比度下降等不良影响。所以要避免在相机正前方有强烈反光的物体存在。
前面说过,深度相机镜头上会有一个带通滤光片来保证只有与照明光源波长相同的光才能进入,这样可以抑制非相干光源提高信噪比。这种方式确实能够比较有效地过滤掉人造光源,但是,我们常见的日光几乎能够覆盖整个光谱范围,这其中包括和照明光源一样的波长,在某些情况下(如夏天的烈日)这部分光强可以达到很大,会导致感光传感器出现过度曝光。因此相机如果想在这种条件下正常工作,仍然需要额外的保护机制。
4、温度
电子元件的精度受温度的影响。所以当温度波动时会影响电子元件的性能,从而影响到脉冲调制的精度。前面说过一纳秒的脉冲偏差即可产生高达15cm的距离测量误差,因此相机要做好散热,这样才能保证测量精度。
TOF相机输出:
TOF相机内部每个像素经过上述过程都可以得到一个对应的距离,所有的像素点测量的距离就构成了一幅深度图,如下图所示。左边是原图,右边是对应的深度图。
深度信息融合
当我们获得了深度图后,下一步就是要把深度信息融合到普通RGB相机拍摄的彩色图片。这一步并非我们想象的那么容易,需要强大的算法来保障。在此列举两个因素为例进行说明:
1、深度相机的分辨率目前还比较低,一般都是VGA(640x480)以下。而现在普通的RGB相机分辨率都已经到千万像素级以上了,是深度相机分辨率的几十倍甚至上百倍。因此需要将低分辨的深度图变成和RGB相机一致的高分辨率,这种“从无到有”的分辨率提升需要利用彩色图中物体的纹理、边界等内容信息,这个过程要想保持细节是比较困难的。
2、深度相机和彩色相机融合时还需要知道两个相机的畸变系数、光学中心、相对旋转/平移量等一系列参数,这就需要对两个相机进行相机标定工作。而深度相机的低分辨率对于相机标定工作也是一个较大的挑战。
TOFVs双目视觉
读者可能会有疑问,现在双摄手机上的两个普通的彩色相机不就可以计算深度吗?和这个深度相机测距有何不同?
双目立体视觉测距的原理和人眼类似,通过计算空间中同一个物体在两个相机成像的视差就可以根据如下三角关系计算得到物体离相机的距离:
结构光技术就是使用提前设计好的具有特殊结构的图案(比如离散光斑、条纹光、编码结构光等),然后将图案投影到三维空间物体表面上,使用另外一个相机观察在三维物理表面成像的畸变情况。如果结构光图案投影在该物体表面是一个平面,那么观察到的成像中结构光的图案就和投影的图案类似,没有变形,只是根据距离远近产生一定的尺度变化。但是,如果物体表面不是平面,那么观察到的结构光图案就会因为物体表面不同的几何形状而产生不同的扭曲变形,而且根据距离的不同而不同,根据已知的结构光图案及观察到的变形,就能根据算法计算被测物的三维形状及深度信息。
业界比较有名的就是以色列PrimeSense公司的LightCoding的方案,该方案最早被应用于Microsoft的明星产品Kinect上。目前该公司被苹果公司收购,可见苹果公司也将在深度相机领域有所动作。
结构光技术受环境光源影响较大,更适合室内的应用场景,而且帧率较低,所以更适合静态场景或者缓慢变化的场景。其优势就是能够获得较高分辨率的深度图像。
典型代表手机:联想Phab2。
目前可以买到的具备直接深度测量的智能手机只有Google和联想合作的联想Phab2,2016年11月推出,是全球首款支持GoogleProjectTango技术的手机,其深度相机采用TOF技术方案,由PMD公司提供。
华硕也宣布将在2017年会推出带深度相机的手机ZenfoneAR,号称是全球首款同时支持GoogleProjectTango(AR)和Daydream(VR)的手机。
深度相机应用
深度相机的应用在智能人机交互、人脸技术、三维重建、机器人、AR等领域全面开花,目前商用深度相机最成熟的应用就是移动终端上基于人脸技术的多种有趣应用。
人脸技术二维人脸技术发展了几十年虽然已经比较成熟,但是人脸关键点检测在各种大角度、多表情、复杂光照、面部遮挡等情况下,想要实现实时鲁棒的高精度检测仍然比较困难。而高精度深度相机的出现极大的推动了人脸技术的发展,从二维直接跃升到三维。不得不说,iPhoneX的前置深度相机可谓是把三维人脸技术提升到了一个新的高度。它不受制于自然光照,即使前景和背景颜色相近也能实现完美的分割,在复杂头部姿态下的表现大大优于二维人脸技术。基于结构光的深度相机通过3万个红外散斑重建的三维人脸模型非常精细。
1、更加精细自然的背景虚化
相比于双摄的背景虚化,深度相机能够重建高精度的三维人脸模型,虚化效果层次感更强,细节更加丰富,人像更加立体自然。
人像光效的功能可以模仿专业人像摄影时的打光效果,营造出让人赞叹的影棚级效果。
动画表情可以将人脸表情实时转移到玩偶上,是一个非常有趣的应用,正是得益于深度相机获取的精细的三维人脸模型,才能实现如此精细的表情捕捉。
可以不夸张的说,三维美颜是对二维美颜的降维打击。二维美颜效果一般比较夸张,丢失了人脸本身的很多特征,导致常常“认不出来自己”的尴尬。而三维美颜更强调真实和立体,不仅能够全面继承二维美颜的效果,还可以根据三维的脸型进行定制化“微整容”,如隆鼻、丰唇、削掉高颧骨,去掉双下巴,调整五官比例等;此外还可以增加光影效果,如增加鼻子、脸颊两侧的阴影,使得人脸看起来更有立体感和真实感。
三维人脸识别是真正安全的人脸识别,可以有效的避免照片/屏显图片、换脸算法、戴面具/3D人脸模型等破解方法。非常适合于活体检测。
很多时候我们拍美照时并没有直视镜头,回看时懊悔不已。其实这个可以通过算法进行校正。根据人脸三维模型,结合人的面部朝向,我们可以将视线的方向调整到正对摄像头的方向,产生的视觉效果更有冲击力。
当然,这只是一个典型的应用。理论上来说,我们可以任意操纵眼球的转动,基于此可以开发一些好玩(奇怪)的应用。
1、人体骨架提取和跟踪
Microsoft推出的Kinect系列深度相机就是专门为体感游戏而生的。
和人体骨架提取和跟踪类似,手势识别跟踪也属于自然肢体语言。相较于RGB相机,深度相机可以更快速更准确的实现手指关键点的提取和跟踪。
三维重建&机器人
1、三维空间测绘
深度相机本身就可以直接测距,下图是Phab2pro手机后置TOF深度相机在三维空间测量示意图。
以前对人体或者物体进行三维重建需要复杂的激光扫描设备,距离消费级应用还很遥远。随着技术的发展,高精度、小型化的深度相机可以方便快速的完成扫描和三维重建工作。这可以极大的促进虚拟试衣,三维打印等技术的发展。
深度相机的水平视场角能够直接探测障碍物的距离,垂直视场角可以探测地面凸起或者上方障碍物,这极大提升了机器人利用视觉避障的能力。
在自身定位及地图重建导航方面,三维的视觉SLAM应用明显优于二维视觉SLAM。但三维视觉SLAM距离商用还有一段路要走,主要的原因有两个:一是深度相机的远距离测量精度还不够理想,它比激光雷达测到的平面数据在精度和稳定性都要差一些;二是RGB-DSLAM的算法和应用还需进一步发展完善,其性能效果和计算资源的消耗尚无法满足成熟商用需求。
AR大规模商用离我们越来越近了。想要实现实时的、身临其境的AR体验离不开高帧率、高鲁棒的深度图。AR互动核心技术之一是实时精准的SLAM技术,基于深度相机的SLAM方案是一个比较靠谱的解决方案。
目前深度相机在移动端的应用需求非常强烈,但是大部分的消费级深度相机仍存在:体积较大,成本较高,精度及鲁棒性不足的问题。因此适用于移动端的深度相机模组、计算机视觉算法资源比较稀缺。不过,受苹果的影响,目前整个安卓手机产业链正在快马加鞭,快速跟进适用于手机端的深度相机解决方案。
智能手机双摄像头产业链
随着近两年手机双摄技术的发展,双摄像头技术在夜拍降噪、快速对焦、光学变焦、景深应用等方面已经展示出了较好的效果。这离不开从底层的图像传感器芯片到中层的双摄处理算法再到顶层的手机厂商的一系列的努力。今天来说一说和手机双摄有关的产业链。双摄像头市场由终端客户,算法公司,模组厂,零组件供货商,平台厂等共同组成。
1、算法资源稀缺。
目前全球核心的双摄算法公司仅有Arcsoft、Corephotonics、Altek、Linx(已被苹果收购)、平台厂等几家。而产品应用与设计都是基于算法基础展开的。
2、制造难度大、产业规模化投资大。
双摄模组相较于普通的单摄模组,对制造精度有着更严格的要求,因此制造难度较大,对技术和设备都有非常高的要求。对这个问题,行业做出不仅一次的探讨,最终找到解决办法:引进AA制程。但引进AA制程的过程中,产业也仍需要再次面临高成本、高技术等新问题。
双摄算法公司
算法是双摄应用与技术的基础,选择的算法方案决定了技术设计方案,配合的硬件选型,制造难度等。目前能提供成熟算法的公司屈指可数,各家所擅长的领域又各有不同。全球范围内知名的双摄算法公司主要有:
此外,平台厂商高通、联发科、华为海思、上海兴芯微(X-Chip)都有自己的ISP(图像处理器),也在开发自己的双摄算法。
双摄图像传感器供应商
双摄模组供应商
双摄模组厂具有较高的技术、资金、客户资源壁垒。目前主要的双摄模组供应商按照地区分如下:
韩国:三星电机(SEMCO),LGInnotek(iPhone7plus)、Namuga
日本:夏普(Sharp)、索尼(Sony)
大陆:浙江余姚舜宇光学(Sunny)、深圳欧菲光(O-Film)、江苏昆山丘钛(Q-Tech)
台湾:光宝(Liteon)、富士康
香港:信利(Truly)
其中比较有竞争力的主要有:光宝,舜宇、信利、三星机电、Namuga。这里我们重点说明大陆的模块厂商表现。
舜宇作为大陆最老牌的模块厂,技术积淀最为深厚。在双摄上达到自研AA设备的水平。2015年舜宇宣布双摄研制成功,2016年成为华为P9双摄的主供货商。舜宇目前是大陆双摄最受益厂商。
欧菲光2012年成立,作为模块厂的后来者,在人才与设备引进上从不吝啬,发展势头惊人,2015年下半年出货量跃居国内首位。小米是其走量最大的客户,同时依靠和小米的合作,欧菲光实现双摄的量产。
丘钛作为大陆第三大的模块厂,在双摄上投入巨资购入AA设备。为了抢夺双摄订单,丘钛在市场上报价相对偏低。依靠红米PRO,成功量产双摄,并独家供应乐视酷派COOL1。红米与COOL1都是主打性价比的千元机,利润有限。丘钛要想向上突围还需努力。
双摄镜头厂商
双摄马达供应商
双摄AA制程
AA(ActiveAlignment)制程,即主动对准技术,是一项确定零配件装配过程中相对位置的技术。
在摄像头封装过程中,涉及到图像传感器、镜座、马达、镜头、线路板等零配件的多次组装,传统的封装设备均是根据设备调节的参数进行零配件的移动装配的,因此零配件的叠加公差越来越大,最终表现在摄像头上的效果是拍照画面最清晰位置可能偏离画面中心、四角的清晰度不均匀等。
传统常规制程和AA制程的区别如下:
而AA制程采用了不同的思路,不再要求每个零配件的组装都达到局部最优,而是采用了更灵活的全局最优策略。AA制程设备在组装每一个零配件时,首先检测被组装的半成品,并根据被组装半成品的实际情况主动对准,然后将下一个零配件组装到位,这种方式可有效的减小整个模组的装配公差。AA制程主动校准技术,可调节镜头对准至6个自由度。通过调节相对位置和镜头倾斜,可确保拍照画面中心最清晰,使得画面四角具有均匀的清晰度,有效的提升摄像头产品一致性。这在对产品封装要求更高的双摄像头中尤为重要。
先来说高技术,并不是所有的模组都适合做AA,AA模组必须要做特别的结构设计,并且在生产中要有特别的夹具来配合。再说高投资,目前的AA机台都是比较贵的,每台价值30-40万美金。最后说高品质,AA机台除了要高效外,还要保证模组调度效率的一致性、稳定性和平衡性。
能提供AA机台的设备公司主要有香港先进太平洋科技(ASM)、日本Pioneer、韩国hyvision几家公司。此外,中国大陆的舜宇光电从2011年开始就在双摄模组开始投入,目前已经自主开发有自己知识产权的AA机台设备,在此轮双摄像头的竞争开始阶段跑在了前面。无论是量产经验还是规模,都将其他厂商抛在了身后。
总结
目前双摄已经是众多旗舰机的标配,双摄已成燎原之势,其在拍照技术上的提升也逐渐得到了市场的认可,预计未来会逐渐普及到低端机。同时未来双摄如果能在深度相机上有所突破,必然是对产业链的一次重大变革。
未来智能手机摄像技术发展趋势:硬件
1、双摄像头基线增大
最近两年双摄像头逐渐在许多高端旗舰机上出现,由于双摄技术在暗光拍照、重对焦、光学变焦、背景虚化等方面都展现了较好的效果,已经逐渐由“噱头”变成了标配。随着技术的成熟和成本的降低,预计未来会很快普及到普通智能手机。
目前手机双摄配置一般是平行放置,也有少部分是竖直放置。但是两个摄像头中心距离(基线)比较近,一般是10mm左右。一个原因是因为目前的双摄应用还是倾向于通过融合两个摄像头的图像来实现画质增强的效果,这种情况下两个摄像头离的近,取景范围相差很小,这样在两张图片进行融合的时候就不会因为错位产生不良的影响。另一个原因就是目前很多双摄模组都是共基板式结构,如下图所示,两个摄像头传感器共同放在同一个基板上,然后FPC连接线从此基板上引出来。
那么多少的双摄基线比较合适?
笔者认为未来双摄大基线很可能和人双眼的瞳距比较接近,毕竟这更符合人类观察世界的方式。人类双眼瞳距平均为6.3cm左右,因此如果双摄镜头中心基线为6.3cm的话,加上镜头的直径(1cm),保守估计双摄最左到最右至少需要7.3cm以上(不考虑弧形边缘影响)。
iPhone7的屏幕是4.7英寸,手机长宽尺寸是138.3mm×67.1mm。
iPhone7plus的屏幕是5.5英寸,手机长宽尺寸是158.2mmx77.9mm。
所以如果采用大基线的双摄配置,未来的大屏幕手机可能会采用如下图左的双摄配置,小屏幕手机可能会出现下图中的双摄配置。如果既想保持小基线双摄在图像融合增强画质方面的能力,又想利用大基线双摄增大视差来获得更远的景深的优势,可能会出现下图右的上下两个双摄配置。
2、深度相机即将爆发
深度相机并不是一个新鲜玩意儿。现在的双摄像头技术也可以利用双目立体视觉算法间接计算出被摄物体距离镜头的距离。但是如前所述,由于目前双摄的基线太短,对于较远距离外的物体算法并不能给出很准确的结果。而且由于算法需要进行两张图的特征点匹配,所以该方案对于纹理较少的场景(天空、白墙等)效果并不太理想。还有就是由于根据立体视差计算深度信息严重依赖算法,计算量比较大,处理速度就比较慢。那有木有性能比较鲁棒、响应速度又比较快的深度相机呢?
这个必须有,常见的有TOF(timeofflight)技术和结构光技术。一般这样的相机物理尺寸都比较大,随着硬件厂商的技术迭代,目前已经出现适合智能手机的深度相机。
这里不得不提一下全球首款搭载了GoogleTango技术的联想手机Phab2Pro。它装备了两个RGB相机(一个鱼眼运动追踪相机一个大尺寸感光相机)和一个TOF深度相机(PMD公司提供)。这是市面上目前唯一搭载TOF深度相机的手机。
TOF深度相机具有实时响应速度、深度信息精度高、识别距离范围大、不易受环境光线干扰等优势。二维图像再叠加一维的距离信息,就可以像人眼一样实时的用三维的视角观察世界。这将极大促进对实时性和距离精度要求较高的三维应用。
3、更高倍数的光学变焦
在手机上实现光学变焦而又不使得镜头突出来是件很困难的事,目前手机上实现光学变焦一般都是通过一个广角镜头加一个长焦镜头的双摄组合技术方案。这种光学变焦方式实际上是一种双焦距,一般只能达到2倍的光学变焦。
但在2017年初的MWC全球移动通信大会上,OPPO的潜望式5倍光学变焦原型机赚足了眼球。如下图所示:
此外,长焦镜头还具有光学防抖功能保障成像质量。这是因为,外部光线首先需要经过一个折射棱镜才能进入长焦镜头最终成像,这一过程要保证光路具有较高的精度,如果没有光学防抖,光路的一点偏移就会被放大,对成像质量造成致命影响。其光学防抖示意图如下:
智能手机的摄像功能越来越向单反相机看齐,单反有大光圈背景虚化,智能手机的双摄背景虚化也做的了(效果和单反差距仍很大);单反可以轻松实现10倍光学变焦,潜望镜式双摄也能做到5倍。你单反个子大,可是我兄弟多(多个摄像头),三个臭皮匠还顶个诸葛亮呢!相信未来借助更多的新技术,在智能手机实现高倍光学变焦不是梦,不是梦~
4、阵列相机或将复出
早在2013年,Nokia和Pelican公司合作开发由16个镜头组成的4×4阵列式摄像头。每个摄像头都可以单独捕捉图像,然后通过算法合成渲染成一张照片。
但Nokia的这款阵列相机没有发展起来,主要有两个原因:第一是当时手机芯片的运算能力还达不到要求,处理速度太慢;第二是当时单个摄像头的分辨率不高,没办法显著提升画质。
但技术的发展是突飞猛进的,随着双摄技术的成熟发展,产业链上下游已经积累了很多多摄的经验,阵列相机存在的瓶颈将得到解决。想象一下未来一个阵列相机中若集合了高分辨率RGB相机、黑白相机、广角/鱼眼镜头相机、长焦镜头相机、TOF深度相机该会是多么的强大!随着更多摄像头的加入,将会给手机带来更多更新的应用和商业模式。
也许,不久的将来,你的手机将会搭载如同蜜蜂一样的仿生复眼相机阵列,既有广阔的视野又能够像高倍望远镜一样望远,同时又能感知和理解三维世界,这必将重新定义手机的价值。
下面结合计算机视觉技术和人工智能的发展趋势,从个人的角度预估一下即将爆发的以及未来可能出现的一些应用场景。
1、实时三维空间应用
比如你在艺术馆看到一座非常喜欢的雕塑,就可以利用手机对它扫描一周,结合相应的算法就可以生成该雕塑的三维模型数据,利用三维打印机就可以方便的打印出一个三维的雕塑复制品出来。
美颜一直是手机用户的一个刚性需求。现在磨皮、瘦脸、美妆已经是大部分女生发自拍照的标配。
图样图森破,她们对美的追求是永无止境的,他们需要的是360°无死角的美!当手机摄像技术结合了实时三维深度信息后,未来美颜也将美出新高度:三维立体美颜和美体。
三维美颜和美体是对二维美颜的全面升级,当二维图片美颜日趋成熟时,美颜的主战场将进入视频领域。由于能够实时获取较精准的三维空间信息,对人的五官轮廓建模将会变的比较容易。基于视频的三维人体瘦脸、嫩肤、隆鼻、双眼皮、美发等三维美颜统统小菜一碟,而像丰胸、A4腰瘦身、优化身材比例等这种全方位立体化的美体技术也会大量出现。这些将在视频聊天、视频直播、影视制作等场合有较多的应用。
3、三维人脸活体识别
今年央视315晚会上,人脸识别技术被曝存在安全隐患。主持人在现场技术人员支持下,仅凭两部手机、一张随机正面照片及一个换脸APP,分别就一张”眨眨眼”的照片和一段”活体检测”场景模拟,成功“攻破”人脸识别系统。
2016年美国斯坦福大学的研究团队研发出一款人脸跟踪软件Face2Face,它可以通过摄像头捕捉用户的动作和面部表情,然后该软件可以驱动视频中的目标人物做出一模一样的动作和表情,效果极其逼真。你可以控制普京这样大人物在视频中做出任何你想要的表情,像这样:
不过,笔者认为基于三维空间的人脸活体检测或许可以从根本上改善这一现象。因为目前所有的防伪验证摄像头采集的都是二维图片/视频信息,正是由于缺失了最重要的空间信息才使得各种合成的图像或视频有了可趁之机。
笔者认为未来的三维人脸活体识别技术除了使用传统的RGB相机采集信息外,还会增加深度相机。不管你合成的图像或视频多么逼真(比如Face2Face),它只能在屏幕上以二维的影像显示。缺失了空间信息,注定是无法通过三维人脸活体检测的。
4、更丰富真实的AR体验
未来借助手机摄像头和手机屏幕,结合地理位置定位、计算机视觉、大数据等技术可以轻松便捷的实现手机上丰富多彩的AR(扩展现实)体验。在此列举几个。
(1)更真实的游戏体验
结合了实时三维信息的AR游戏形象能够感知周围环境,它能够感知高低、远近、前后景等实景信息,从而可以做出遇到不同高度平面边缘跳跃,躲藏到障碍物后面等一系列非常真实的效果。也许以后隔着手机屏幕你都无法分辨真实世界和虚拟世界了。
比如未来我们到一个陌生的地方,需要寻找餐厅、咖啡馆甚至厕所,不需要再像以前那样麻烦了,直接掏出手机,打开摄像头对着街道,会自动出现如下的AR内容介绍,妈妈再也不用担心我找不到地方啦!
基于智能手机的AR可以用于课程学习、操作培训,降低学习和工作的成本,提高学习工作效率和安全性。以后学习一项新的技能将会越来越容易。
将三维测量、三维模型和AR结合起来会产生更多的玩法。以家居装修为例,具备了三维测距功能的手机可以对房屋空间尺寸实时测量,利用家具厂商提供的每个家具的三维空间模型(包括物理尺寸、花纹、配色等),只需要用手机点一点,用户就能在手机屏幕上看到家具摆放在家里的真实位置和尺寸。而且AR呈现出来的家具都是三维的,用户拿着手机旋转角度,就可以看到这件家具摆放在家里的任何角度,就像真的家具摆在那里一样,从而判断该家具尺寸是否合适,装修风格是否统一等。以后买家具再也不用带着尺子量了,也不用担心买回去颜色不搭了。
在此主要是指三维手势识别。三维手势识别与二维手势识别的最根本区别就是增加了一维的深度信息。目前的二维手势识别只能做到一些比较简单的操作,比如控制视频播放开始和暂停、浏览照片等。但是对于更加复杂的体育类游戏或者VR来说,目前的二维手势识别还不够。未来智能手机深度信息能够极大促进三维手势识别的普及和应用,这也许会带来比触摸屏交互更加接近人类方式的交互体验。