本质上来说,AI自始至终都只是一种手段、一种技术,它被用来帮助人们解决自身难以克服的业务难题。在安防行业,人们用其去识别人脸、识别车辆,去感知更多图像中的信息,而这也的确为甲方解决很多棘手问题。
在此背景下,智能化摄像头越来越多,视频数据量也越来越大,但老生常谈的问题也随之出现:人们并不能真正去理解、分析这些数据;另外,这些数据被播放或者被人们看过的连万分之一都没有达到。因此,人们都在利用AI等技术去感知这些信息,并将这些信息加以应用。那么,如果将城市作为一个单位,如何去感知这个城市?在这其中,什么才是最重要的?在旷视CTO唐文斌看来,五个度可以总结之:维度、精度、密度、关联度、集成度。
维度
维度可以表述为数据的丰富性,有多少数据的类型和对象,就决定应用的实用性。举例来说,一个视频中,最容易感知的部分是“人脸”,如今很多厂商都在谈人脸识别,具体来说,可以感知某人的年龄、性别、表情等一系列面部信息;针对车辆识别,可以对车上的细分品类进行识别,包括年检标、纸巾盒、遮阳板等标志物。以上这些,都是在用户不知情的情况下,通过物理的方式,做的被动感知,也可以称之为可见光下的场景识别。除此之外,还可以通过多光谱的方式,类似于毫米波或者太赫兹的方式,去获取视频中的数据:包括像WIFI的MAC地址,RFID等信息。以上种种,都是为了增加感知的维度,能够从城市中获得什么样的数据、数据的多少,就决定了应用的丰富性。
精度
精度决定数据的可用性。早在十几年前,就有厂商在人脸识别算法上做出努力,但由于当时技术并不成熟,精度不够,在实战中应用效果不佳;如今随着算法的进一步提升,现在的人脸识别做预警的成功率已经非常高。以前的人脸识别技术,报十次警可能有九次是误报,现在报十次警可能只有一次是误报,这是一个本质的飞越。但与此同时也会出现一个问题,比如某场所内穿西装、穿西裤的人非常多,做行人的匹配,能否通过对这个人更细化的特征,比如领带的颜色,鞋子的款式做更加精准的识别、分析。从感知的角度来看,除了有更多的纬度,每个纬度上都要追求更好的精度,精度决定最后的应用效果。
密度
密度是指后期带来的数据应用价值。如今很多城市都已经建设了非常密集的感知型前端摄像机,通过对这些摄像机产生的数据进行分析,能够带来两点价值:一、通过不断修炼算法能够使得识别率得以提升,但精度的天花板并不高,易受到时空限制,如果通过一些高密度的传感器,其实可以弥补精度上的不足;二、行人的ReID。在某一位置、时间点发现了一个可疑人员,摄像头只看到了其局部特征,在以往都会通过全局检索去发现线索,其实这是种错误的做法;只需要在对该人员接下来的十分钟内,100米范围内的高密度布置的摄像机视频数据进行检索,通过这种方式便可确定该人的具体位置。通过视频接力、人机交互的方式,可以帮助警方使用非常低的代价去追查视频中的人的轨迹。高密度的传感器不仅能解决信息精度的不足,也能带来更多的应用价值。
关联度
如果所有的数据能够关联起来,那么其带来的价值更为可观。如今AI圈谈到的最多的、落地最多的便是人脸识别。但很多时候,摄像机只能看到人脸,不能看到身体;或者看到身体,看不到人脸。如果两者数据关联起来,就可以看到该人员的全部信息。再比如车辆识别,在很多实际场景中,在场景A可以拍到车牌,还知道它是什么车型;换到另一个场景B中,只能拍到是什么车型;紧接着在场景C中,看到一个行人从车辆中走了出来,但没有拍到车牌。如果数据相关联,车、人的所有信息都可以联系起来,从何做更便捷、高效的追踪。
集成度
如果按照上文所提,去做高密度、强关联度感知时,会需要非常多的传感器。因此,如何做到低成本、高算力是非常重要的一步。值得注意的是,成本的合理化不应该建立在牺牲效果的前提下。以人脸抓拍为例,一些具备反侦查意识的人,看到摄像头会马上低头,好的抓拍机要满足要非常高的抓拍率、足够的抓拍量,同时具有较高的性价比。
智慧城市的前提就是城市感知,而城市感知需要多维度、高精度、高密度、数据之间的关联度、高集成度。通过这样的感知方式,城市也许会变得更加智能,而相关厂商可以根据这五个方向去做更进一步的探索及数据应用。