图像识别技术的背景

日期:2023-02-16 14:09:09 / 人气:170

来源:机器之心,转自:虎嗅网/检察配备技术新静态挪动互联网、智能手机以及社交网络的开展带来了海量图片信息,依据BI五月份的文章,Instagram每天图片上传量约爲6000万张;往年2月份WhatsApp每天的图片发送量爲5亿张;国际的微信小伙伴圈也是以图片分享爲驱动。不受地域和言语限制的图片逐步取代了繁琐而奇妙的文字,成爲了传词达意的次要媒介。图片成爲互联网信息交流次要媒介的缘由次要在于两点:第一,从用户读取信息的习气来看,相比于文字,图片可以爲用户提供愈加生动、容易了解、风趣及更具艺术感的信息;第二,从图片来源来看,智能手机爲我们带来方便的拍摄和截屏手腕,协助我们更快的用图片来采集和记载信息。但随同着图片成爲互联网中的次要信息载体,难题随之呈现。当信息由文字记载时,我们可以经过关键词搜索随便找到所需内容并停止恣意编辑,而当信息是由图片记载时,我们却无法对图片中的内容停止检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记载和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像辨认技术就显得尤爲重要。图像辨认是计算机对图像停止处置、剖析和了解,以辨认各种不同形式的目的和对像的技术。辨认进程包括图像预处置、图像联系、特征提取和判别婚配。复杂来说,图像辨认就是计算机如何像人一样读懂图片的内容。借助图像辨认技术,我们不只可以经过图片搜索更快的获取信息,还可以发生一种新的与内部世界交互的方式,甚至会让内部世界愈加智能的运转。百度李彦宏在2011年提到“全新的读图时代曾经降临”,如今随着图形辨认技术的不时提高,越来越多的科技企业开端触及图形辨认范畴,这标志着读图时代正式到来,并且将引领我们进入愈加智能的将来。图像辨认的初级阶段——文娱化、工具化在这个阶段,用户次要是借助图像辨认技术来满足某些文娱化需求。例如,百度魔图的“大咖配”功用可以协助用户找到与其长相最婚配的明星,百度的图片搜索可以找到类似的图片;Facebook研发了依据相片停止人脸婚配的DeepFace;雅虎收买的图像辨认企业IQ Engine开发的Glow可以经过图像辨认自动生成照片的标签以协助用户管理手机上的照片;国际专注于图像辨认的创业企业旷视科技成立了VisionHacker游戏打工室,借助图形辨认技术研发挪动端的体感游戏。这个阶段还有一个十分重要的细分范畴——OCR(Optical Character Recognition,光学字符辨认),是指光学设备反省纸上打印的字符,经过检测暗、亮的形式确定其外形,然后用字符辨认办法将外形翻译成计算机文字的进程,就是计算机对文字的阅读。言语和文字是我们获取信息最根本、最重要的途径。在比特世界,我们可以借助互联网和计算机轻松的获取和处置文字。但一旦文字以图片的方式表现出来,就对我们获取和处置文字平添了很多费事。这一方面表现爲数字世界中由于特定缘由被存储称图片格式的文字;另一方面是我们在理想生活中看到的一切物理形状的文字。所以我们需求借助OCR技术将这些文字和信息提取出来。在这方面,国际商品包括百度的涂书笔记和百度翻译等;而谷歌借助经过DistBelief 训练的大型散布式神经网络,关于Google 街景图库的上千万门牌号的辨认率超越90%,每天可辨认百万门牌号。在这个阶段,图像辨认技术仅作爲我们的辅佐工具存在,爲我们本身的人类视觉提供了强无力的辅佐和加强,带给了我们一种全新的与内部世界停止交互的方式。我们可以经过搜索找到图片中的关键信息;可以随手拍下一件生疏物体而迅速找到与之相关的各类信息;可以将潜在搭讪对象拍下提早去她的社交网络理解一番;也可以将人脸辨认作爲次要的身份认证方式……这些使用虽然看起来很普通,但当图像辨认技术浸透到我们行爲习气的方方面面时,我们就相当于把一局部视力外包给了机器,就像我们曾经把局部记忆外包给了搜索引擎一样。这将极大改善我们与内部世界的交互方式,此前我们应用科技工具探寻内部世界的流程是这样:人眼捕获目的信息、大脑将信息停止剖析、转化成机器可以了解的关键词、与机器交互取得后果。而当图像辨认技术赋予了机器“眼睛”之后,这个进程就可以简化爲:人眼借助机器捕获目的信息、机器和互联网间接对信息停止剖析并前往后果。图像辨认使摄像头成爲解密信息的钥匙,我们仅需把摄像头对准某一未知事物,就能失掉料想的答案。就像百度迷信家余凯所说,摄像头成爲衔接人和世界信息的重要入口之一。图像辨认的初级阶段——拥有视觉的机器上文提到,目前的图像辨认技术是作爲一个工具来协助我们与内部世界停止交互,只爲我们本身的视觉提供了一个辅佐作用,一切的举动还需我们本人完成。而当机器真正具有了视觉之后,它们完全有能够替代我们去完成这些举动。目前的图像辨认使用就像是盲人的导盲犬,在盲人举动时爲其指引方向;而将来的图像辨认技术将会同其别人工智能技术交融在一同成爲盲人的全职管家,不需求盲人停止任何举动,而是由这个管家协助其完成一切事情。举个例子,假如图像辨认是一个工具,就好像我们在驾驶汽车时佩戴谷歌眼镜,它将内部信息停止剖析后传递给我们,我们再根据这些信息做出行驶决策;而假如将图像辨认应用在机器视觉和人工智能上,这就好像谷歌的无人驾驶汽车,机器不只可以对内部信息停止获取和剖析,还全权担任一切的行驶活动,让我们失掉完全束缚。《人工智能:一种古代办法》中提到,在人工智能中,感知是经过解释传感器的呼应而爲机器提供它们所处的世界的信息,其中它们与人类共有的感知形状包括视觉、听觉和触觉,而视觉最爲重要,由于视觉是一切举动的根底。在一次论坛上百度IDL的余凯院长问大家,你觉得哪种觉得最重要?没有人能很快作答,后来余凯院长换了个发问方式,假如要保持一种觉得,你最不情愿保持的是那一种?这时大家都答复是视觉。Chris Frith在《心智的构建》中提到,我们对世界的感知不是间接的,而是依赖于“有意识推理”,也就是说在我们能感知物体之前,大脑必需根据抵达感官的信息来推断这个物体能够是什麼,这构成了人类最重要的预判和处置突发工夫的才能。而视觉是这个进程中最及时和精确的信息获取途径,人类觉得信息中的80%都是视觉信息。机器视觉之于人工智能的意义就是视觉之于人类的意义,而决议着机器视觉的就是图像辨认技术。更重要的是,在某些使用场景,机器视觉比人类的生理视觉更具劣势,它愈加精确、客观和波动。人类视觉有着自然的局限,我们看起来能立即且毫无费力的感知世界,而且似乎也能详细生动的感知整个视觉场景,但这只是一个错觉,只要投射到眼球中心的视觉场景的两头局部,我们才干详细而颜色鲜明的看清楚。偏离两头大约10度的地位,神经细胞愈加分散并且智能探知光和暗影。也就是说,在我们视觉世界的边缘是无色、模糊的。因而,我们才会存在“变化盲视”,才会在阅历着多样事物发作时,仅仅关注其中一样,而无视了其他样事物的发作,而且不晓得它们的发作。而机器在这方面就有着更多的劣势,它们可以发现和记载视力所及范围内发作的一切事情。拿使用最广的视频监控来说,传统监控需求有人在电视墙前时辰坚持高度警觉,然后再经过本人对视频的判别来得出结论,但这往往会由于人的疲劳、视觉局限和留意力分散等缘由影响监控效果。但有了成熟的图像辨认技术之后,再加以人工智能的支持,计算机就可以自行对视频停止剖析和判别,发现异常状况间接报警,带来了更高的效率和精确度;在反恐范畴,借助机器的人脸辨认技术也要远远优于人的客观判别。许多科技巨头也开端了在图像辨认和人工智能范畴的布局,Facebook签下的人工智能专家Yann LeCun最严重的成就就是在图像辨认范畴,其提出的LeNet爲代表的卷积神经网络,在使用到各种不同的图像辨认义务时都获得了不错效果,被以为是通用图像辨认零碎的代表之一;Google 借助模仿神经网络“DistBelief”经过对数百万份 YouTube 视频的学习自行掌握了猫的关键特征,这是机器在没有人协助的状况下本人读懂了猫的概念。值得一提的是,担任这个项目的Andrew NG曾经转投百度指导百度研讨院,其一个重要的研讨方向就是人工智能和图像辨认。这也能看出国外科技企业对图像辨认技术以及人工智能技术的注重水平。图像辨认技术,衔接着机器和这个一无所知的世界,协助它越发理解这个世界,并最终替代我们完成更多的义务

作者:腾越娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 腾越娱乐 版权所有