上海维塔士电脑软件(上海维塔士电脑软件有限公司官网)
上周,华强智造在上海卓美亚喜玛拉雅酒店举办了“IC China2016虚拟现实(AR/VR)应用与发展研讨会”。会议现场,上海图漾信息科技有限公司的CEO费浙平先生发表了《计算视觉连接虚拟和现实》的演讲,赢得一片掌声。
在此,小编炮整理了费浙平先生演讲的部分内容,带你走近计算视觉和三维视觉。
——————
今天我准备从视觉、软件、算法以及内容的角度,讲一些比较轻松的话题。
之前的嘉宾也提到,VR的精髓是从2D到3D的沉浸式用户体验,这跟我们目前在做的计算视觉是非常紧密相关的。事实上,尽管业内人士谁都知道计算视觉、三维视觉非常重要,但全世界都还做得不好,目前整个行业最领先的水平也做得马马虎虎,离普通消费者的预期差距仍然比较大。
过去两年多时间里,我们一直在计算视觉(CV)上做了很多工作,但现阶段我们的产品和技术,其实和VR结合得并不紧密。所以今天我要讲的东西可能会虚一点。即使我们很明确这个行业我们在做什么、现阶段是什么样子、我们想要解决什么问题、想要带给AR/VR什么样的用户体验,但很可惜目前还没有做好。
不过,我相信(计算视觉)这个点仍是非常值得关注的,因为如果未来这个问题没有解决,那么AR/VR不过就是一种新型的显示器而已。
数字化内容的产生
从内容上,所有内容的产生或者获取不外乎两种渠道。
第一种是从物理世界里获取,通过传感器、设备把物理世界数字化。现在的DV、电视机、手机、PC的显示器,内容的数字化其实很简单,说穿了就是拍照和拍视频。
第二种:在PC尤其是游戏里面,还有一种内容产生方法:CG(computer cenerated)。比如大量的三维游戏,比如科幻电影里的人物、场景,其实都是电脑+美工师+程序员产生的出来的。
通过这两种方式产生的内容,最终将通过某种设备呈现给人。我认为,从物理世界拍摄而来的内容,加上CG产生的内容的结合,在将来的任何AR、VR、MR等设备里都是非常重要的。
现在我们来关注一下,从物理世界怎么样通过传感器和设备来产生内容。第一种是比较常见的:平面格式内容,就比如用相机、DV来拍照片、视频等等。
但今天我想着重讲另外一种:三维格式内容。三维化的数字内容是目前这个阶段经常被忽视、用处也不太大的一种内容表达形式。但是在AR/VR里,三维格式的内容是很重要的一点,这是将来AR/VR普及后一种关键的内容方式。
目前,AR/VR行业里面比较重要和主流的有两种平面格式内容:全景视频和立体视频。但不管是照片、视频、全景视频或者立体视频,本质上都是两维的平面数据。因为所有的这些内容,其数据本质都是一个个像素,每个像素存着的数据都是RGB(red、green、blue,红绿蓝三基色),每个像素点都是RGB的分量,它的内容本质上不包含任何空间几何信息。
三维信息数据是什么
什么样的内容才是三维数据?一定是在每个点上面,除了RGB数据,还要包含空间的位置信息,也就是还要有XYZ(三维坐标轴)信息。只有RGB和XYZ同时呈现,才是一种真正的、完整意义上的三维。
人的眼睛看外面的世界,通过视觉渠道,是能够同时获得RGB和XYZ信息的。比如大家在看我时,能够看到衣服、头发等颜色信息,也有对我的身高、体型、我们之间的距离等空间几何感。当然人的视觉系统有个缺陷,对空间几何信息的量化比较差,比如你可以看出我们之间的距离是三米左右,但没办法看出是3.1米还是3.45米这样精确的信息。
现阶段所有的照片、视频把RGB信息采集回来后,是既服务于人,也服务于机器。比如机器里的人脸识别算法,处理的基础都是RGB信息;而人眼对RGB信息比较敏感,直接看RGB信息的视觉效果也是可以的。
至于XYZ信息,就有个特点:它主要是服务于机器的。因为每个点的XYZ数据是没办法直接给人眼识别的,视网膜还是只能感觉到量化的颜色信息。
举个例子,这是拍摄电脑包在某个咖啡馆里的一个场景。我把每个点的RGB信息量化出来,大家一看就知道这是个照片;但如果我把每个点的XYZ想办法显示出来,其实就很难。这个图我表达的意思是,XYZ信息怎样让人也有这种感觉?通常是XY先不管,把Z这个距离信息用着色方案先显示出来,但这只是给人一种感觉。
XYZ三维视觉信息的重要性
所以,XYZ数据直接丢给人眼是没有太大价值的,它主要是服务于机器。机器如果要做三维视觉,一定要有显性的RGB和XYZ数据。人的距离感可以自动脑补的,而机器拍摄只能拍摄到RGB信息,目前没有什么单一传感器可以把XYZ量化出来。机器如果有了RGB和XYZ信息,就可以发挥很强的视觉处理能力,比如说做三维建模,视觉效果增强处理等等。
机器拿到XYZ数据之后,可以真正把三维视觉的能力发挥出来,处理完了,再以某种方式输出到设备给人的眼睛和大脑。这时候,人就能够被AR/VR设备带到一个非常有沉浸感的虚拟或者混合世界里面去。
举例子说,这是一个视觉错感照片。
如果我此时问大家一个问题:这张图片里,是人离我近还是圆形物体离我近?如果是人来回答,那非常简单,我们都知道这个圆形物体是非常远的,而人不管是十公里还是二十公里,总是比月亮离我们近的。但是这样回答有个重要的前提,就是人其实已经把月亮的特征识别出来了,我们知道它是月亮。
如果把这个问题丢给机器,就会变得困难,因为机器只能识别出这里面有一个圆形物体和一个人形。进一步说,现在的人工智能或许能用最厉害的图像识别能力去识别出月亮,然后判断距离,回答我说人离我近。
但这已经是目前最先进的算法了。假如我们把问题变难,把月亮的特征抹去,只剩一个圆形,这时候再问:是人离我近还是圆形物体离我近?这下子人和计算机都没法回答了。所以如果要让机器处理这个问题,就要把每个点详细的XYZ数据显性地报告给机器。如果圆形物体的XYZ数据有了,人形的XYZ数据也有,这时候要判断距离谁近谁远,或者它们之间的距离,问题都变得极其简单。
所以计算视觉里最关键的问题就是,要做三维视觉,一定要通过某种传感器的方法,把显性的XYZ数据拿回来,否则三维视觉肯定是做不好的。
怎么获取三维视觉信息
这件事情目前在行业里怎么做?
我们现在的拍照手段还拿不到XYZ信息,因为现在的图像传感器就是个平面的光电传感器而已,每个点只能感应到RGB三个颜色的量化,拍照时是把物理世界的三维信息压到一个平面上,这是整个照片成像的物理基础原理,导致距离信息被天然损失掉了。
现在并没有一种魔术传感器能把XYZ数据拍下来,我们能用的只有图像传感器。图像传感器是目前可用的、唯一的能够把物理世界通过视觉方法拍摄回来并进行量化的渠道。
XYZ数据怎么获取,目前主流的方法只能是通过视觉的手段,使用图像传感器,辅助以一定的光学手段进行视觉计算。这就是我们讲的计算视觉里非常基础的一个技术点。
从原理上讲,只要两个摄像头,立体视觉就能够进行测距。但在现实当中,双目摄像头的测距方案存在非常大的使用局限,只有在非常良好的特定工作条件下才能勉强应用。所以从实际上讲,要做好一个三维传感器或者XYZ数据的量化测量,一定是要应用至少两个摄像头,或者一个摄像头、两个摄像头加一套复杂的光学系统,再加上专门的视觉计算方法,才能计算和测量完成。
三维信息和AR/VR的联系
有了这些三维信息,可以做什么事情,跟AR/VR又有什么联系呢?虚拟内容必须要跟物理世界完美贴合才能给人带来“真实感”,需要3D传感器对外部物理世界进行三维重建。
微软可以说是在民用的三维视觉技术点上,全世界积累得最多的公司,它做三维相关的硬件软件已经超过十年了。在这里举例微软的HoloPortation,一个很黑科技的东西。
当我和一个朋友一起带上微软的HoloPortation系统,在我的视野里面就会出现远程那个人的画面,那个人真实站在我面前,我可以围着他转,做动作等等。这其实就是把远程那个人的实时三维模型建立出来了,每一个时刻的三维模型,每一帧都是完整、准确的,然后通过AR/VR设备显示出来。
尽管对于普通消费者来看,这样建立出来的“人”视觉效果并不是很好,不高清,颜色也太过鲜艳,但微软的建模能力确实很厉害,这其中的技术难度是很大的,在行业里都称之为黑科技。这也是技术行业的边界和消费者需求边界的问题,需要有一个渐近的过程。
现阶段面临的问题
最后做个总结,目前我们存在的问题有:
第一,3D传感器,也就是XYZ的获取较困难,这个点是个薄弱环节。
第二,把RGB和XYZ数据采集回来后,怎么去承载和实现三维视觉算法的处理器,对处理器的要求非常大,目前的都不够用。
第三,视觉算法的软件实现、以及算法本身也还有很多问题需要解决。比如说怎么把三维模型建得又快又好。
第四,如果要做更多的智能识别,三维的物体样本库还没有,跟人工智能、深度学习还没有结合起来。
——————
以上就是费总讲的有RGB信息和XYZ信息的重要性、如何获取三维视觉、三维视觉对AR/VR发展的重要性以及现阶段面临的问题。作为曾在世界顶尖处理器技术公司ARM、MIPS和Imagination工作超过10年的资深人士,费总的见解非常深刻,也帮想要在这个领域发展的同行理清了方向,我们非常期待在这些问题解决后为AR/VR带来的变革。
文章来自:华强智造Hi空间(微信公众号:HQ-Innovator)
“小编炮”搜罗的极客爆品、智能硬件领域最新数据趋势,创业圈内一起嗨的活动,你都想知道的话,来找小编炮咯~~ 长按 HQ-Innovator 复制到微信搜索关注!大声说Hi!!
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com