搜索
当前位置:首页 > 资讯详情
计算机视觉:让机器看懂世界
作者:温晓君 王茜 冯晓辉 作者单位:人工智能 所属类别:新闻 2017-12-05 16:31:02 浏览:38508

   一、计算机视觉概述

  (一)计算机视觉内涵外延

  计算机视觉(Computer Vision)是指用计算机来模拟人的视觉系统,实现物体识别、形状方位确认、运动判断等功能,以适应、理解外界环境和控制自身运动的技术。简言之,计算机视觉是旨在研究如何使机器“看”的科学,是人类视觉在机器上的延伸。计算机视觉综合了光学、机械、电子、计算机软硬件等方面的技术,涉及到计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。在深度学习算法的助力下,计算机视觉技术的性能取得重要突破,成为人工智能的基础应用技术之一,是实现自动化、智能化的必要手段。

  计算机视觉技术承自图像处理、机器视觉(Machine Vision)等技术,但三者存在不同。图像处理是基于数字图像的基本特征对图像进行处理的技术。机器视觉是通过机器视觉产品代替人眼进行目标形态信息测量判断的技术。与图像处理相比,计算机视觉往往包含图像处理过程,并增加了模式识别等功能。与机器视觉侧重精确的几何测量计算相比,计算机视觉则侧重于感知和识别。

  (二)计算机视觉的技术体系

  计算机视觉的关键技术可依据图像处理流程,分为图像处理技术、图像特征提取技术和图像识别判断技术。

  图像处理技术是基于数字图像的基本特征对图像进行处理的技术。图像处理一般包括图像预处理和图像分割:图像预处理方法包括平滑去噪、标准化配准、缺失值/异常值处理等;图像分割是将目标与背景分隔,方法包含灰度分割、专家经验分割、统计分布分割等。图像处理的目的是去除不相关信息,将关心的目标从背景中提取。图像处理的作用在于加速训练进程、增加模型稳定性,从而提高识别准确率。图像处理技术的关键在于动态复杂场景中背景模型的建立、保持与更新。当背景发生动态变化或被遮挡时,检测难度会大大增加。

  图像特征提取技术是从图像提取一组能够反映图像特性的基本元素或数值来描述原图像的技术。特征提取是计算机视觉中较为初级的运算,用映射方法将高维空间的原始低层特征变换为低维空间的高层新特征,从而有利于分类。可提取的特征包括颜色、纹理、形状、空间关系等。不同特征有不同的提取方法,颜色特征提取方法有颜色直方图、颜色聚合向量等;纹理特征提取方法有统计法、信号处理法等;形状特征提取方法有便捷特征法、傅里叶形状描述符法;空间关系特征提取方法有图像分割等。

  图像识别判断技术是结合预测模型实现目标辨认、分类与解释的技术。当前,图像识别判断技术主要基于深度学习算法,后者是通过一系列多层的非线性变换对数据进行抽象的算法,用于模拟数据之间的复杂关系。目前,计算机视觉领域主要的深度学习架构有AlexNet、VGG Net、GoogleNet、ResNet、ResNeXt、RCNN、YOLO、SqueezeNet、SegNet、GAN等。图像识别判断技术依据识别种类可细分为生物特征识别技术、光学字符识别技术、物体与场景识别技术和视频对象提取与分析技术等。

计算机视觉技术体系

  (三)发展历程

  计算机视觉萌生于20世纪50~60年代,至20世纪末,相关理论、软硬件等得到初步发展,并开始在工业环境开展应用。21世纪以来,以人工智能深度学习算法为依托,高效求解复杂全局优化问题的算法得到极大发展,计算机视觉技术进入高速发展阶段。

  20世纪50年代,计算机视觉相关问题被归于模式识别,主要集中于二维图像分析识别,如光学字符识别、显微图片和航空图片的分析解释等。

  20世纪60年代,人工智能学者Marvin Minsnkey令学生写出程序,让计算机自动了解所连接摄像头的内容,计算机视觉拉开序幕。L.R.Roberts开展对积木世界的研究,利用计算机程序从数字图像中提取多面体的三维结构,并对物体形状和空间关系进行描述。

  20世纪70年代,主流观点认为,要让计算机理解图像,必须先从图像中提取物体的三维结构。CCD图像传感器出现,成为计算机视觉发展的重要节点。麻省理工学院人工智能实验室开设“计算机视觉”课程。

  20世纪80年代,计算机视觉领域出现全球性研究热潮,新方法、新理论不断涌现,如主动视觉理论框架、视觉集成理论框架等。逻辑学和知识库推理成为主流,视觉识别系统变成专家推理系统。CPU、DSP等图像处理硬件技术取得飞速进步。

  20世纪90年代,基于多视几何的视觉理论迅速发展,计算机视觉开始在工业环境中展开应用。英伟达公司推出Geforce 256芯片并提出GPU概念,数据处理规模和运算速度实现指数级增长,极大地促进计算机视觉技术发展。

  21世纪以来,计算机视觉技术运用在工业机器人等领域,成为自动化、智能化的关键技术之一。2006年,深度学习概念出现,卷积神经网络、循环神经网络等算法逐渐推广应用。计算机可以通过训练自主建立识别逻辑,图像识别准确率从70%跃升至95%以上。计算机视觉开始在安防、交通、医疗、文娱等众多领域推广应用。

  (四)产业链构成

  计算机视觉产业链包含基础支撑层、技术提供层和场景应用层等三个环节。

  基础支撑层包括芯片和底层算法两部分。芯片主要为处理数据、运行算法提供运算能力,是计算机视觉产业链后续环节的基础。定制化的视觉处理芯片能以较低功耗带来优秀的图形处理能力,是计算机视觉技术性能的决定性因素之一。底层算法主要是人工智能的各类深度学习算法,可使计算机通过训练自主建立识别逻辑,大幅提升图像识别准确率。目前,用于计算机视觉的高性能芯片主要由国外英特尔、英伟达和AMD等厂商把持,国内外存在很大差距。底层算法库主要由谷歌、微软等厂商垄断;国内百度、阿里巴巴、腾讯等互联网巨头主要致力于提供开源的深度学习平台。

  技术提供层包括图像识别平台和嵌入式视觉软件两类。图像识别平台可直接提供应用服务,主要从大量信息和数据出发,在已有认识基础上自动识别;嵌入式视觉软件则需要集成在硬件终端中使用,利用数字处理和智能算法理解图像和视频。具体的计算机视觉技术包含视频对象提取、视频追踪、人脸识别、场景识别、字符识别、物体识别等技术。目前,计算机视觉技术在科技巨头、技术型创业公司等的推动下蓬勃发展,尚未形成成熟的产业格局,国内外众多创业公司面临较大的发展机遇。

  场景应用层包含应用系统开发和终端产品开发两类。与技术提供层的图像识别平台和嵌入式视觉软件相对应,计算机视觉的产品形式可依据应用场景的具体需求而采用应用系统或软硬一体的终端产品形式。计算机视觉的应用范围十分广泛,可用于智能安防、智慧交通、娱乐营销、智能制造、医疗诊断等领域,还可集成于VR/AR、无人机、机器人、智能网联汽车等诸多终端产品中。目前,计算机视觉技术的应用仍处于起步阶段,该环节存在大量创业公司,致力于积极开拓产品线,将计算机视觉应用在工业制造和消费服务两大领域,未来必将开拓广阔的发展空间。

计算机视觉产业链

 

以上内容精选于《人工智能》杂志第一期P14—P28

 

本文作者

  温晓君

  中国电子信息产业发展研究院电子信息产业研究所副所长,英国爱丁堡大学电子工程专业博士,北京邮电大学管理科学与工程专业在职博士后,高级工程师。从事ICT技术、产业、政策相关方面的研究,在国内外学术期刊、媒体发表论文、文章三十余篇。

  王 茜

  毕业于中国社会科学院财经战略研究院,经济学博士。现任职于中国电子信息产业发展研究院电子信息产业研究所,主要从事ICT产业政策、产业投融资和产业运行分析等研究工作。主持、参与省部级课题十余项,发表核心论文、媒体文章二十余篇。

  冯晓辉

  毕业于北京大学凝聚态物理专业,博士学位,研究方向为半导体光电子。现供职于中国电子信息产业发展研究院电子信息产业研究所,从事信息通信领域产业发展、政策规划研究工作。曾参与《通信设备行业市场竞争度研究》、《互联网电视产业发展研究》等部委软课题项目。

 

欲阅读完整文章,可通过以下方式购买《人工智能》杂志!

订阅2018年《人工智能》杂志6期共计360元
银行转账:北京赛迪出版传媒有限公司
开户行及账号:北京银行北洼路支行20000030565000007701154
银行转账,请备注:人工智能
接收详细信息请发到:aiview@ccidmedia.com;或是添加客服微信:13601092749

参与评价

最新评价

相关推荐

最热资讯

账号密码登录
第三方快速登录
找回密码