166:AI眼中的世界
读喜马拉雅作者:gezhong日期:2023-7-24点击:487
这是一期相对较为硬核的节目,从计算机视觉的起源说起,讲述我们是如何让计算机从“看见”到“看懂”的这一过程。至于有没有可能最终让它们“像人一样去看”呢?或许还需要计算机科学、脑科学、心理学、数学、物理学、甚至哲学的进一步前进。当然,数码相机的原理、机器学习的大致思路,也会和各位谈谈。
没错,这一期只有我一个人陪着大家,至于原因,节目后再说,虽然说咱们是通过声音联系在一起的。
而我所传播的内容也是通过听觉为你们所获取。
但是抛开这些的话,如果说你的势力健全,那不得不承认,我们从外界接收的80%以上的信息呢,都是通过视觉来获得。
所以要说人类最重要的感受器官是什么?
眼睛一点不为过,我记得很早的时候,咱们就聊过眼睛和视觉,哎,甚至植物的视觉或者叫光,感觉也和大家刀过。
而今天呢,我们又想从另一个角度和大家来聊聊视觉这件事儿。
当然,这次要说的并不是生物的视觉,而是另一个正在迅速崛起的智能人工智能。他们的视觉到底是怎么一回事儿,说不定啊。
通过这期节目也可以帮助各位来想象一下Ai眼里的世界,它究竟是怎样?
首先想象一下有一个人朝你扔过来一个球,这个时候你会怎么办呢?
当然是马上把它接住,这看上去呢是一个再简单不过的本能。
但实际上啊,这一过程是最复杂的处理过程之一。
怎么说呢,大致过程是这样的,首先,球反射的光线会进入到我们的视网膜,经过一番元素分析之后,发送到大脑视觉皮层呢,会更加彻底的去分析图像。
把它发送到剩余的皮质已知的任何物体相比较,然后进行物体和纬度的归类。
最终呢会决定你下一步的行动,比如说举起双手拿起球,而在这之前呢,其实我们还通过了一系列复杂的机制预测的他的行进轨迹。
刚才我所描述的这个过程呢,我花了差不多一分钟的时间,还只是说了一个大概。
但是对于我们而言,整个过程其实只需要零点几秒就可以完成。
可以说,他几乎是一个完全下意识的行为,不需要经过什么思考,而如果你的协调能力还算不错的话。
这当中还很少会出差错。
事实上啊,对于这背后的一套机制脑科学家呢,仍然还处在理解他的阶段,而真正要在计算机或者是在ai上重塑它路呢,还非常的漫长。
这是因为要重塑人类的视觉,它不仅仅是单一的一个困难的课题,而是一系列环环相扣的过程。 这个问题的研究呢如今已经发展成了一个专门的学科,就叫计算机视觉computer vision tion。
而至于为什么不叫ai视觉所谓的?
那其实既关乎于目前我们还没有对人工智能有一个特别明确且严格的定义,也源于当前人工智能的本质呢,还是用零和一进行计算的机器。
因此呢,他并没有脱离计算机的范畴,而今天我们所讲的视觉背后呢,更没有控制理论机械理论在里点儿,因此呢,更妥妥的就是计算机视觉了。事实上,计算机视觉的理论研究应用到人工智能领域,它是非常普遍的。
可以说计算机视觉的进展。
决定了人工智能,它到底能够看到什么。
早在1966年,人工智能领域的先锋派人士maribin mixky就曾经给自己的研究生出过这样一道题。
他呢,要求研究生把摄像机连到一台电脑上,让他描述自己看到了什么,谁又会想到50多年后,我们仍然在研究相同的课题。
所以啊,计算机视觉这门学科,实际上他依然非常的年轻,因为它存在的前提呢是,我们必须要达到相对较高的计算机发展。
它的发展需要依托于计算机的强大运算速率。
打个比方,如果关于计算机视觉的研究是一本健觉,那么计算机的发展运算水平就相当于握在手里的剑。
谈到计算机视觉这门学科呢,就不得不提到上世纪70年代中期mit人工智能实验室里工作的一位年轻人的名字david mart。
这个mar,他出生在英国,原来研究的领域呢是人脑。
他在剑桥大学拿到了数学硕士神经生理学博士,而主要研究的则是人的脑神经结构。
同时呢,他还在心理学,生物化学等方面有涉猎,有没有发现从他的教育背景当中,除了剑桥的数学硕士之外,似乎看不出和计算机的关系。
但这一点也不矛盾。你想要让计算机代替我们的视觉去工作,我们是不是首先就得了解我们的视觉是什么。
以及我们要计算些什么,对不对?
马尔很聪明,他把自己对神经科学的研究放到计算机,人工智能领域,于是呢就结合成了一个跨学科的产物。
他当时就提出啊,视觉计算机理论把我们的视觉划分成了表达。
算法和实现这三个层次简单来说呢,表达就是用什么东西它其实呢是相当于为我们建立了一个标杆。
我们要测量什么,建立什么模型,用什么物理硬件来实现。
其次呢,马尔,他还厘清了我们到底要计算些什么,比如说物体的纹理,立体视觉,运动分析,表面形状等等。
努力的为这一问题建立一个完整的科学体系。 忽然想到这或许也是,咱们原来是这样一直想给各位传达的。
不要把自己框定在某一学科当中,学科之间呢,它是可以相互跨越的,而且这种跨越非常的重要。
熟悉的知识运用在不同的领域,它本身就是一种创新的重要思路。
马尔呢是这一领域无可争议的奠基人。 国际计算机视觉大会也就是iccv委员会呢,是专门以他的名字设立了马尔奖这一奖项呢,被看作是计算机视觉研究方面的最高荣誉之一。 当然,这里还要再说一句啊。马尔在1972年拿到了剑桥的博士。
而在1978年非常不幸,被诊断出了白血病。1980年,他刚刚转为郑教授不久。
就去世了十年,只有35岁,真的是英年早逝,十分的可惜。
所以呢,即使到他逝世的时候,我们依旧可以称他为年轻人,向他致敬。 当然了,继马尔之后还有一大批杰出的科学家前赴后继的投入到了计算机视觉这个领域当中。
原因很简单,正如视觉对于我们人类认知这个世界是如此的重要一样。
如果要让计算机产生智能,那教会他看,想必也是同样重要的一件事儿。 80年代中期以后呢,就不断的有新理论提出。
而直到今天,他依然是一个科学研究的热点。
嗯,简单的来说啊,计算机视觉呢,就是用计算机来模拟人的视觉过程来代替人类完成一些工作,比如说无人驾驶汽车这个例子咱们要实现这样一辆汽车,就得首先保证它能够应对复杂多变的道路。 他看到行人得要避让,要按照道路上的线来走,不能随意的变道。
而遇到红灯还得停。
其实呢,这都需要他能够看清道路,要能够看见周围的一切。
这就需要计算机视觉的辅助了。
当然,如果说要真正理解人工智能看的问题,实际上呢,我们还得分成三个阶段看到看懂以及真正的像人一样去看。
而这其实就涉及了计算机视觉正在走的三个方向,复制人眼,复制视觉皮层以及复制人类大脑剩余的部分。
这三者可不是简单的并列关系,如果说要给彼此之间打上难度系数的话,每一个阶段的难度系数都插了好几个数量级,先拿比较容易去理解的,怎么看到和怎么看懂这两个问题来说啊,这两者呢,是两个完全不同的问题。
还是拿我们人类来做比较,怎么看呢,这是眼睛负责的问题,光线到达我们的晶状体,通过睫状肌的调节,外界光线在视网膜上成像感,光细胞呢,就负责把光线信息通过神经传递到大脑。
这是我们人类怎么看的问题?
而至于详细的情形呢,大家也可以出门左转,回听一下关于眼睛的那几期节目而怎么看懂,这就涉及到了大脑的问题了。比如说,我看到了一棵树,一眼就能够在脑子里描绘出它的大概形状吧。
稍稍仔细一点,也不用多想,我们就能够分辨出这是一棵松树还是一棵章术。而如果看一眼你旁边的人。
比如说在未来的某一次见面会上你见到了我,然后呢,你对我展露出了笑容,这背后实际上就意味着。
你能够理解你看到的东西对于你来说的意义,并同时做出相应的反馈,这就意味着你看懂了,那至于要让计算机真正的像人一样去看。
这其实就更加复杂了,因为它还包含了整个认知过程的问题。
比如说,我们为什么要看我们选择看些什么,看到的这个和看到的另一个他到底有怎样的关联等等不着急。
咱们1.1点来,先说最浅层次的啊,就是让计算机看到我们对于外界的了解呢,离不开眼睛,耳朵,舌头,鼻子,皮肤,这些感受器官。
其实对于机器也一样,要让机器有所谓的感觉,那我们首先就得把外界的信息,比如说声音,又比如图像,又比如触碰的压力等等传递到机器里,让他们有感觉。像这一类感受外界信息的东西呢。
我们叫它传感器传感器,它的本质其实是将一种信号转换为另一种信号的转换器。
比如说我们需要的人造眼睛,就是把外界的光信号转化为。
电信号的一种传感器,嘿,相信你一定想到了啊,所谓计算机的眼睛,这无外乎就是我们现在所使用的数码相机。
或者是数码摄像头吗?我们也不妨花一点时间来了解一下它究竟是如何实现的。
这里呢可以说一点儿挺有意思的原理上的东西要明白计算机他是如何看到的。
这里呢得再展开讲两个概念,一个呢,叫灰度急,一个呢叫数字化。
首先呢,我们来说一说灰度急啊。
我们知道光的本质呢是一种电磁辐射,它有波长,同时呢,也携带一份份的能量。
每一个光子它都带有能量,不同波长呢,也就是不同频率的光组成了色彩斑斓的可见光光谱段和我们看不见的不可见光普段,比如紫外线,又比如红外线,而当一束光的各个波长段的可见光的能量都相对平衡时。
咱们人眼看到的就是白色。
当然,也有些人会把它称为无色光。
这里应该有些朋友还记得曾经提到的三原色的概念,所以我们可以理解为,当红绿蓝的分量都一样的时候,混合发出的光呢就是所谓的无色光。
当然叫它白光更通俗一些。
而灰度级呢指的就是这种白光的能量强度。
灰度图就是由单纯白光构成的图像,别以为光是白光构成的图像。
他就没有办法传递信息了。
回想一下黑白照片,黑白电影,我们依然是能够非常轻松的分辨它背后的信息,而这种信息呢,它就是经由明暗的区别,或者说的更学究一点,说的是光的能量又或是灰度级的不同而展现出来的。
在摄像头里呢,就有一种感光材料,当光线照射到这种感光材料表面的时候,由于光电效应会产生电子。
逃离原子核而不同能量的光打在感光材料上,会造成电子逃逸的多少,从而呢就造成了电视能的变化。因此,利用这种材料。
我们就可以把白光的强度信号转化为电压信号。至于光电效应是什么,大家不妨出门左转去,回听年初的那个量子系列。 当我们感受彩色光的时候,不像白光那样只有强度这一个信息。
我们用发光,强度,光空亮和亮度来衡量,因为我们知道当射进去的光的频率小于特定频率的时候。
光电效应无法发生,因此啊,其实光本身的能量并不等于我们实际上能接收到的能量,所以呢表现出来的光强度上呢会有所差别。
现在我们的相机用的感光材料呢,一种叫ccd,也就是电荷偶合原件一种呢,叫做cmos,也叫互补金属氧化物半导体。
但是他们的本质是一样的,只是转化为电信号的方式有所不同,刚才说的就是数码相机的原理了。
只要我们把外界的光聚集打在这些感光材料上,通过测量每个点的电压,就可以知道这一部分的灰度级是多少,从而最终拼凑出一整幅图像。
那我们要测量多少个点的电压呢?
当然,我们不可能把一块材料上的所有的点都测一遍,以现有的技术,这是几乎不可能实现的。
所以这里就涉及到了第二个概念,那就是数字化。 其实数字化在这里呢,还有两个含义。
第一呢,是咱们取样的数字化意思呢,就是我们只能测量有限个点的电压,我们用在这一个点测得的能量值来代表附近周围一小片区域的能量值。
这一小片区域就成了属性一样能量均匀分布的单位区域。
而在这里呢,我们也叫它像素点。
第二个含义呢是量化的数字化意思是啊,我们要用一级级的值来表示光的灰度级,比如说从一到256来表示,那么这个像素点内光的强度是多少呢?
我们就不能说是比如188.6可以用四蛇五入的方法认为它是189。
如果说你是一个听到数字就头晕的人,也没有关系啊。
听到这儿呢,只需要明白一点,那就是电脑里存的它都是数字,而且呢,是被我们抽样得来的数字。
是被约等于的数字。
正因为我们采集的信息不完全,所以我们拍出来的照片永远都不可能和真实图像一模一样。 当然了,也不要觉得咱们的眼睛高明多少,其实我们能获取的视觉信息,永远也只是真实的一个片面的投影罢了。 这个说得有点儿远啊,说回来。
在大自然里,现实生活当中连续不断的量,比如说光的能量,空间中的坐标,我们叫它模拟量,而在我们的电脑里,那种有明显的层级而且不可能无限大的量呢。
我们称之为是数字量。
当然,你肯定会想啊,光有明暗,好像还不够,就好比红绿灯这种非常基本的信号,它就是通过不同的色彩来传递信息的吗?
那么,彩色照相机的原理到底是什么呢?
说起来其实也不复杂,我们只需要记录下每一个像素点对应的红光,绿光,蓝光分量。
到时候再补充同样量的光回去就可以了。
实际上呢,我们采用一种滤镜来对每一个小片感光材料区域内进行光的色散,从而记录下每一小片区域的三色光分量值。
这一点从原理上呢,和我们拥有的分别对红绿,蓝三种波长,光线特别敏感的三种湿不椎细胞不太一样。
当然,最终实现的效果是差不多的。 让计算机能够看到,这也是计算机视觉目前做出最多成效的领域。
这就是所谓的复制人眼,的确要通过强大的光学上更加完善的镜头。
以及纳米级别制造的半导体像素,现代摄像机的精确性和敏锐度是已经达到了一个惊人的地步。
在过去的几十年,科学家已经打造了传感器和图像处理器,这一些,甚至可以说,某种程度上已经是对咱们的人眼实现了超越。
可问题在于什么呢?虽然我们已经能够实现输出端极高的保真度,但是在很多方面来说,这些设备却又并不比十九世纪的那种针孔摄像机更为出色。
他们充其量记录的只是相应方向上的光子分布。
而即便最优秀的摄像头传感器,他也没有办法去识别一个球,更不用说把它抓住了。
换而言之啊,在没有软件的基础上,硬件是相当受限制的。
这些高清的图片如果不去处理,它就只是纯粹的信息而已,不能够被计算机去解读成意义。
因此呢,在这一领域的软件才是需要投入解决的。
更加棘手的问题,这样说来,成功对人眼完成模仿之后,我们就需要让计算机去看懂东西了。
而要真正实现这一步啊,难度呢真的是高了好几个数量级。
可以想象一下,通过我前面的介绍,如果你是一台计算机,或者说你是一个人工智能经由咱们人类给你创造的所谓眼睛,也就是摄像头。
你看到的世界是怎样的呢?
或许全都是数字吧?
比如说我看到的山是山水是水,而在你眼里或许就是一二三四五六七,又或者是更加纯粹的零一零一零零零一一。
当然了,更准确的来说,在你眼里呈现出来的其实是一个个由很多元素组成的大矩阵矩阵里面呢,每一个元素,它都是由零和一组成的数字。
如果说你没有学过线性代数,不知道矩阵是什么,那其实可以想象成是一个非常大的网格图。
比如说一个720*576的网格。
有720行,576列。
每一个小壳子里面呢都是数字,那如果是灰白图像呢,就只有一个数字,而彩色图像呢则有三个数字,这就是所谓的Rgb分量。而作为ai父母的人类呢,则要教会他怎样应付处理,甚至是理解这里面对应的数字背后到底意味着什么。
这听上去很难,是不是因为机器毕竟不像人一样,自然而然的就会思考而图像处理起来呢?
可以非常的复杂,因此呢,计算机视觉技术也是人工智能最难突破的领域之一。
接下来呢,我就具体和大家来说一下目前我们是如何让ai看懂东西的,我们还是得由浅入深地把它分成两个部分了。第一部分呢,我们称之为数字图像处理技术,比如说我们的美图秀秀photo shop这样的软件呢,都是这种技术下的产物。
它的总体思路呢就是通过编程来对图像进行处理,进而呢,发展出了像是滤波,去燥,图像,压缩图像,重建与复原等等的实用技术。
我们当然可以说这位ai认识世界奠定了基础,而这门学科本身呢其实也和数学密不可分,使用的比较多的是微积分,数理,统计与概率论,线性代数等等。
估计又有一听数学就头疼的朋友了,我先打住。不过大家要明白的是,之所以我们能够去享受这美好的现代生活,用上那么多方便的程序,这背后呢其实都离不开数学的发展与支撑。 说回来啊,似乎在我们的理解当中。
如果我们想让一个机器听从咱们的指令,那我们就得要一步步的去告诉他第一步应该怎么做,第二步应该怎么做?
因为他们实在是太笨了。
比如说,如果我们想要让一个机器人走路,那我们就应该编程告诉他,首先从双脚站立的姿态出发。
把重心一道右脚,然后呢,把左脚放在前方的0.3米处,然后呢再颠起右脚间,把重心慢慢的移到左脚。
然后呢把右脚也向前挪,0.3米等等等等,似乎好像只有这样的笨办法,计算机才能够听懂咱们的指令。
然后呢又笨拙的,当然也不厌其烦地进行挪动。
虽然这样的机器人,他永远不会像终结者里的天网一样。
背叛人类,却也像一句没有感情,不会思考的冷冰冰的机器,这和我们真正期盼的那种人工智能好像还差得非常非常的远。
那先前谈到的那些图像处理软件,或者说图像处理程序,大部分都还停留在这个阶段,脑洞太大休息一下,如果听咱们的节目不过瘾,你也可以去我们的微信订阅号,逛一逛啊。
与节目有关的更多知识干货,每周节目的bgm歌单还有趣味,猜题闯关都在那里了?
微信订阅号搜索旭东刀科学旭是旭日的,旭东是山东树,这些刀是唠叨的刀。其实吧,你打叙东刀科学的拼音也是可以直接搜到的。
我怎么就没想到呢。 而在数字图像处理技术之上,我们需要进一步去发展计算机视觉的话。
就需要再次回到我们的眼睛,以及我们的大脑是如何完成看这个过程了。我们的大脑从根本上就是通过意识来进行看的动作的,比起其他的任务啊,在大脑当中相当多的部分其实都是用来。
看的。而这一专程呢又是由细胞本身来完成的,通过数以1000000000计的细胞通力合作。
在嘈杂不规则的视网膜信号当中去提取模式。如果在特定角度的一条沿线上出现了差异,或是在某个方向上出现了快速运动。
那么神经元组就会兴奋起来。
较高级的网络啊,会将这些模式归纳进所谓的原模式当中,比如说我们看到的这个东西是一个朝上运动的圆环。
与此同时呢,另外一个网络也会做出。
进一步的归纳,这是一个带红线的白色圆环,而且似乎在这背后还有一个模式体现在了大小上的增长。
那么从这些粗糙但是补充性的描述当中呢,具体的图像就生成了。
我们也知道了图像背后的意义,使用人脑视觉区域相似的技术定位,物体的边缘和其他特色,从而形成方向梯度直方图。
由于这些网络一度被认为是深不可测的复杂,因此呢,在计算机视觉研究的早期采用的是别的方式,也就是。
自上而下的推理模式,比如说一本书看起来是这样,那么就要注意与这个类似的模式。又比如一辆车看起来是这样。
动起来又是那样,在某些受控的情况下,确实能够对少数几个物体完成这一过程。
但是,如果要描述身边的每一个物体,包括所有的角度,光照,变化,运动和其他上百个要素,即使是刚刚会说话的。
小宝宝级别的识别也需要难以想象的庞大数据,而且啊,在非常多需要应用的地方,光是编程这件事儿,它就实在是太庞大太复杂。
又或许我们根本就没有办法知道到底是用什么样的程序才有可能实现。
就比如以现有的技术而言,咱们就不可能写一个程序适用于机器人所遇到的所有情况吧。 那么在这种情况下,我们到底该怎么做呢?
其实我们也不妨想想看,关于人工智能的所有启发都是在我们人类自己身上获得的。
比如说,我们模仿人类的眼睛,发明了人工智能的眼睛。前面说到的相机人体本身呢就是一个大机器人身上的信号是通过生物电信号来传递的人体内的摩电位差决定信号传送的关闭和开启,这就相当于计算机里的零和一嘛。
可以说,人体本身的确有点儿类似于一台当然更加精妙的计算机。那么如果模仿我们的大脑。
有没有可能创造出一个像人类一样的机器人呢?
说得有点儿科幻,虽然说我个人相信未来终于有一天,人真的有可能制造出真正意义上的人工智能。
但大家也都知道,现实又是非常残酷的人的大脑结构那么的复杂,脑科学对人脑的探索其实真的只是刚刚开始。
现在的人类可以说自己都还没弄明白自己,更何况要再造一个类似自己的东西呢。
这里就要涉及到我们所说的第二部分,这就是当我们提到计算机视觉时,他实在绕不开的模式识别与机器学习了,我们是不是可以不需要完美的复制人脑?
只要去模仿人类学习事物的过程,把这一属性赋予机器,让他代替我们去学习。
长此以往,他们就会变得比我们的某方面更聪明。
不得不说,这是一种自下而上的方法。 计算机啊,它就可以在多张图中对一张图片进行一系列的转换,从而找到物体的边缘,发现图片上的物体角度和运动。
就像人类的大脑一样,通过给计算机观看各种图形,计算机呢,就会使用大量的计算和统计,试着打看到的形状与在之前训练中识别的相匹配。这背后呢其实就是海量的数学运算,他试图从这些数字当中寻找规律。 没错,这就是大名鼎鼎的机器学习,还是举一个计算机视觉里面非常著名的例子来,简单地说一说啊。
现在有些手机里边儿呢,有人脸识别人脸解锁的功能。
当然也有很多朋友应该记得去年那场所谓的顶级人类热脸大师和机器人比赛任网红脸的大赛啊。这就说明现在机器的人脸识别水平内几乎已经是站在了人类的巅峰水平线了。
而要做到人脸识别的第一步呢,就是完成人脸检测,所谓的这点检测呢,就是我们要让计算机自己检测出人的脸来,我们呢,把人脸检测看作是一个复杂的分类识别问题。
意思呢就是我们想要让计算机?
自己就能够进行分类,识别出这是人脸还是非人脸。
如果说机器掌握了这种方法,那我们就可以认为他懂得什么是人脸。
虽然说他可能不知道人是一种什么样的生物,可是他已经能够认出具有人脸特征的大部分图案。 那么问题来了,我们怎么样才能够让机器认识这是一张人脸了?
在这里呢?简单举一个有趣算法的例子。
以便大家能够更加直观的理解这种计算方法的名字呢叫adboost,它起源于valent提出的pec可学习性这样子的一种理论思想,这个思想呢是,首先我们把来区分是不是人脸的机器像所分类器,那么我们随意给这个分类器一个算法得到一个新分类期。这个分类期呢仅仅比我们之前随意猜测的要好一些。我们管它叫做弱分类器。
那么我们就可以在这个基础上根据几个弱分类切合成一个可信赖的强分类器。
这个说得太学术了,打个比方,我们的第一个弱分类器呢叫椭圆形的一大片区域就是人脸,虽然有可能是灯笼。第二个若分类器呢叫颜色光泽接近于人脸肤色的区域就是人脸区域。
虽然呢,也可能是人的大腿。而第三个弱分类器呢叫做中心,有道三角形,三个黑点的就是人脸。
虽然说这也可能会是一个树岔,或者说是一些其他什么样的东西,虽然说光听上去每一个弱分类器感觉都弱爆了。
非常的滑稽,但是通过训练它,我们却有可能得到一个识别率很高的机器。
听上去是不是有点儿三个臭皮呛顶个诸葛亮的意味,那具体怎么训练呢?首先呢,我们要收集很多图片作为训练集,这里边儿呢,有些是正确的人脸,有些呢是假的人脸。
然后呢,我们让这些若分类器一起来进行识别算法本身呢是改变数据分布,实现它根据每次训练集市中的每个样本的分类是否正确?
以及上次的总体分类的准确率来确定每个样本的全职,将修改全职的新数据送给下层分类器进行训练。
然后呢将每次训练得到的分类器融合起来,作为最后的决策分类器。我知道没有研究过机器学习的大部分人一定不知道我前面在说什么,但只要知道他经过每一张图片的学习,准确率呢,就会更高一些,直到最终他就可以分辨。
什么才是人脸,刚才提到的只是机器学习里边儿非常非常小的一个例子,只是希望能够通过它,让大家能够大致了解到。
其实如今我们的创造力是正在奋力的追赶我们的想象力。近几年,科学家们已经不满足于一些普通的机器,学习了他们的热衷于让ai往机器学习中的神经网络和深度学习的方向去走。
他们试图建立一种模仿人脑内部神经网络的模型,从而呢,在旗下衍生出一个又一个类似于前面提到的识别人脸这样的专家级的系统而相信。
借助这些模型,不仅仅是计算机,视觉,人工智能的各个方面呢,都能更贴近于真实的人类。
从而呢,最终有一天能够得到堪称真正意义上的人工智能。但这里呢,我们还是要说相信大家都明白这个道理,就是光是识别和描述他可能还是不够的。比如说,我们开发出了一种系统,它能够识别苹果,包括在任何情况,任何角度,任何运动状态,甚至他能够知道这个苹果是不是被咬过?
但是,这个系统却没有办法去识别一个橘子,并且他甚至还都不能告诉人们啥是苹果,是不是可以吃尺寸,如何,或者苹果,还有哪些具体的用途。
那对于我们人类来说,大脑的剩余部分就有这些组成,包括长短期记忆,其他感官的输入,注意力和认知力。从世界中万亿级别的交互中收获的是1000000000计的知识。这些知识呢将通过我们很难理解的方式被写入互联的神经中,而要复制它,比起我们遇到过的任何事情。
都要更加的复杂,这一点呢就是计算机科学和更加普遍的人工智能领域的前沿了。
计算机科学家,工程师,心理学家,神经学家和哲学家呢是正在通力合作。
但是呢,也只是刚刚形成了关于意识运作的概念,还远远达不到真正模拟他的地步。
当然,即使在如此早期的阶段,计算机视觉却仍然已经发挥了很大的作用,像是在摄像头领域前面说过的面部和笑容的识别,又或者在自动驾驶领域他呢?
已经能够读取交通信号和注意行人工厂里的机器人呢,已经能够通过他来检测一些普通人根本注意不到的细节瑕疵。
虽然说最终要实现和人类一样去看,仍然有很漫长的一段路要走,但是如果能够实现呢,那一定会是一个非常美妙的未来。 别忘了,从第一台计算机诞生到如今。
也仅仅过了71年而已。
计算机视觉也好,人工智能领域也好,如今呢,都是刚刚处在起跑阶段,而ai眼里的世界最迷人的地方不在于那片数字,而是这背后可能包含关于未来的无限风光。
好了,原来是这样,就是这样,说起来好久没有一个人录节目了,上一回没有记错的话,应该还是在2015年的十月份。本来呢,我是以为。
现在有姜文有紫菱,同时有水兄,原来是这样,很难再出现徐东一个人叨叨叨的情况了。
但是无巧不成书嘛,这一周就碰到了他们曾为同时有事的情况。 呃,本来我也想过要不要跳票,但是没没想到有很多朋友每周五的时候就会等着节目的更新,实在不想让大家失望。
所以呢,还是用一个人叨叨叨的方式和大家分享了一切,其实和咱们以往节目风格不太一样的内容。
这篇文案熟悉我教育背景的朋友,应该能够想到,他一定不是我写的啊。
这篇文案的作者呢,叫御前带刀侍卫啊,现在呢,是原样刀友会比零的一名成员可以感觉得出来,他应该从事的就是计算机视觉这个领域。
其实呢,本来的文案是一个非常标准的双人原药文案啊。
这一次呢,我也是破天荒的进行了一个逆改写,就是把一问一答的模式改成了一个单人讲述啊,改得不好,也请御前带到侍卫见谅。 其实拿到他的这篇文案,我是比较震撼的啊。因为呢,又是一个非常典型的。
论文式的文案写法,除了每一页都有注脚,最后呢还附上了参考书目啊。
可以看到这里边儿是涉及到了大量的英文书籍,那当然还有很多参考的这个文章,也谢谢这位朋友看得出来是花了很多心思的。 他呢,也是希望以此文献给广大的计算机,视觉以及人工领域奋战的前辈和朋贝们。
他说,感谢彼此共勉,谢谢你。当然也期待所有。
希望通过原来是这样,这个平台来分享知识的大神们啊,可以通过加入原样文案组的方式来给,原来是这样提供文案,毕竟我一个人的知识面肯定是相当有限的,而我擅长的领域呢,也无外乎就是那么几个,原来是这样的,也是希望可以搭建起这样子的一个平台。
就是通过各行各业的大神们从自己所熟悉的视角出发。
来分享知识,最终呢,帮助大家一起来构建一张更完整的知识网络,还是简单的做几个广告啊。如果说大家对于旭东本人感兴趣,可以关注新浪微博搜索旭东旭是旭日的,旭东,是上面一个山,下面一个东。
当然微信订阅号也可以搜叙动刀科学在每个周六也会有关于本期节目的延展阅读,还有背景音乐歌单。
百度贴吧也是旭东刀科学,欢迎各位的加入,也欢迎大家加入原样刀友会,现在呢,是我们的第七群文曲,现在的人数呢,已经破迁了非常的热闹,也是期待大家的加入和探讨。如果说大家觉得每周光听原来是这样还不过瘾的话,现在原来是这样呢。
也是有了第一个付费精品节目,那就是天文。原来是这样,这是旭东和水兄共同主讲的一个希望,能够从天文的专业角度出发。
来帮助大家构建一个正确的天文观的天文科普节目,想要订阅的话,也可以关注一下叙东刀科学,我们的周边那一栏就有这档节目的详细介绍。哦,对了,另外呢,咱们科学声音,理性的力量主题演讲会的北京站已经在上周启动了门票订购。
那如果说你是北京或者北京周边的朋友,在七月十五号这一天刚好有空的话,不妨到现场和咱们聚一聚。
而订票这件事儿呢,真的要抓紧了那具体的方法呢,在科学声音包括虚动刀科学的微信订阅号,可以看一下活动,那一来也有对应的图文。
最后呢,也要祝福即将进入考场的本届的高三考生啊,不知道过去这一年的原来是这样,有没有可能在今年的高考当中再压对几道题目啊。如果说真的有幸压重的话,也欢迎大家在考完之后在我们的评论区留言。 当然,无论怎么样放松心态。
发挥出自己的好状态吧,总之祝福大家好了,本周的原来是这样,真的就是这样了。代表本次节目的撰考人御前带刀侍卫,感谢各位的收听。
当然也感谢所有通过打赏撰稿,参与志愿组,或者订阅我们付费,精品节目等所有方式支持和帮助过我们的朋友。 原来是这样的发展真的离不开各位。
我是徐东,咱们下周再见。
哎,你们知道吗,一个人录节目?
有很多缺点一呢,是实在讲不出什么好玩儿的彩蛋。
二来呢,这篇文案说起来也有8000多个字了,要是两个人录的话,怎么的也得有45到50分钟。
可是我一个人录,竟然正片30分钟出头就录完了。 哦,对了,姜文没有怀孕,子陵没有怀二胎水兄,当然也不可能怀孕。就是这样吧,下周应该不会一个人。 我是卓老板,我是吴英明,我是汪杰。
我是旭东,我们是科学声音。
原来是这讲的,是这样的,是这是这样的样子啊,原来是这样的,欢迎来到原来是这样,各位好,我是旭东。
没错,这一期只有我一个人陪着大家,至于原因,节目后再说,虽然说咱们是通过声音联系在一起的。
而我所传播的内容也是通过听觉为你们所获取。
但是抛开这些的话,如果说你的势力健全,那不得不承认,我们从外界接收的80%以上的信息呢,都是通过视觉来获得。
所以要说人类最重要的感受器官是什么?
眼睛一点不为过,我记得很早的时候,咱们就聊过眼睛和视觉,哎,甚至植物的视觉或者叫光,感觉也和大家刀过。
而今天呢,我们又想从另一个角度和大家来聊聊视觉这件事儿。
当然,这次要说的并不是生物的视觉,而是另一个正在迅速崛起的智能人工智能。他们的视觉到底是怎么一回事儿,说不定啊。
通过这期节目也可以帮助各位来想象一下Ai眼里的世界,它究竟是怎样?
首先想象一下有一个人朝你扔过来一个球,这个时候你会怎么办呢?
当然是马上把它接住,这看上去呢是一个再简单不过的本能。
但实际上啊,这一过程是最复杂的处理过程之一。
怎么说呢,大致过程是这样的,首先,球反射的光线会进入到我们的视网膜,经过一番元素分析之后,发送到大脑视觉皮层呢,会更加彻底的去分析图像。
把它发送到剩余的皮质已知的任何物体相比较,然后进行物体和纬度的归类。
最终呢会决定你下一步的行动,比如说举起双手拿起球,而在这之前呢,其实我们还通过了一系列复杂的机制预测的他的行进轨迹。
刚才我所描述的这个过程呢,我花了差不多一分钟的时间,还只是说了一个大概。
但是对于我们而言,整个过程其实只需要零点几秒就可以完成。
可以说,他几乎是一个完全下意识的行为,不需要经过什么思考,而如果你的协调能力还算不错的话。
这当中还很少会出差错。
事实上啊,对于这背后的一套机制脑科学家呢,仍然还处在理解他的阶段,而真正要在计算机或者是在ai上重塑它路呢,还非常的漫长。
这是因为要重塑人类的视觉,它不仅仅是单一的一个困难的课题,而是一系列环环相扣的过程。 这个问题的研究呢如今已经发展成了一个专门的学科,就叫计算机视觉computer vision tion。
而至于为什么不叫ai视觉所谓的?
那其实既关乎于目前我们还没有对人工智能有一个特别明确且严格的定义,也源于当前人工智能的本质呢,还是用零和一进行计算的机器。
因此呢,他并没有脱离计算机的范畴,而今天我们所讲的视觉背后呢,更没有控制理论机械理论在里点儿,因此呢,更妥妥的就是计算机视觉了。事实上,计算机视觉的理论研究应用到人工智能领域,它是非常普遍的。
可以说计算机视觉的进展。
决定了人工智能,它到底能够看到什么。
早在1966年,人工智能领域的先锋派人士maribin mixky就曾经给自己的研究生出过这样一道题。
他呢,要求研究生把摄像机连到一台电脑上,让他描述自己看到了什么,谁又会想到50多年后,我们仍然在研究相同的课题。
所以啊,计算机视觉这门学科,实际上他依然非常的年轻,因为它存在的前提呢是,我们必须要达到相对较高的计算机发展。
它的发展需要依托于计算机的强大运算速率。
打个比方,如果关于计算机视觉的研究是一本健觉,那么计算机的发展运算水平就相当于握在手里的剑。
谈到计算机视觉这门学科呢,就不得不提到上世纪70年代中期mit人工智能实验室里工作的一位年轻人的名字david mart。
这个mar,他出生在英国,原来研究的领域呢是人脑。
他在剑桥大学拿到了数学硕士神经生理学博士,而主要研究的则是人的脑神经结构。
同时呢,他还在心理学,生物化学等方面有涉猎,有没有发现从他的教育背景当中,除了剑桥的数学硕士之外,似乎看不出和计算机的关系。
但这一点也不矛盾。你想要让计算机代替我们的视觉去工作,我们是不是首先就得了解我们的视觉是什么。
以及我们要计算些什么,对不对?
马尔很聪明,他把自己对神经科学的研究放到计算机,人工智能领域,于是呢就结合成了一个跨学科的产物。
他当时就提出啊,视觉计算机理论把我们的视觉划分成了表达。
算法和实现这三个层次简单来说呢,表达就是用什么东西它其实呢是相当于为我们建立了一个标杆。
我们要测量什么,建立什么模型,用什么物理硬件来实现。
其次呢,马尔,他还厘清了我们到底要计算些什么,比如说物体的纹理,立体视觉,运动分析,表面形状等等。
努力的为这一问题建立一个完整的科学体系。 忽然想到这或许也是,咱们原来是这样一直想给各位传达的。
不要把自己框定在某一学科当中,学科之间呢,它是可以相互跨越的,而且这种跨越非常的重要。
熟悉的知识运用在不同的领域,它本身就是一种创新的重要思路。
马尔呢是这一领域无可争议的奠基人。 国际计算机视觉大会也就是iccv委员会呢,是专门以他的名字设立了马尔奖这一奖项呢,被看作是计算机视觉研究方面的最高荣誉之一。 当然,这里还要再说一句啊。马尔在1972年拿到了剑桥的博士。
而在1978年非常不幸,被诊断出了白血病。1980年,他刚刚转为郑教授不久。
就去世了十年,只有35岁,真的是英年早逝,十分的可惜。
所以呢,即使到他逝世的时候,我们依旧可以称他为年轻人,向他致敬。 当然了,继马尔之后还有一大批杰出的科学家前赴后继的投入到了计算机视觉这个领域当中。
原因很简单,正如视觉对于我们人类认知这个世界是如此的重要一样。
如果要让计算机产生智能,那教会他看,想必也是同样重要的一件事儿。 80年代中期以后呢,就不断的有新理论提出。
而直到今天,他依然是一个科学研究的热点。
嗯,简单的来说啊,计算机视觉呢,就是用计算机来模拟人的视觉过程来代替人类完成一些工作,比如说无人驾驶汽车这个例子咱们要实现这样一辆汽车,就得首先保证它能够应对复杂多变的道路。 他看到行人得要避让,要按照道路上的线来走,不能随意的变道。
而遇到红灯还得停。
其实呢,这都需要他能够看清道路,要能够看见周围的一切。
这就需要计算机视觉的辅助了。
当然,如果说要真正理解人工智能看的问题,实际上呢,我们还得分成三个阶段看到看懂以及真正的像人一样去看。
而这其实就涉及了计算机视觉正在走的三个方向,复制人眼,复制视觉皮层以及复制人类大脑剩余的部分。
这三者可不是简单的并列关系,如果说要给彼此之间打上难度系数的话,每一个阶段的难度系数都插了好几个数量级,先拿比较容易去理解的,怎么看到和怎么看懂这两个问题来说啊,这两者呢,是两个完全不同的问题。
还是拿我们人类来做比较,怎么看呢,这是眼睛负责的问题,光线到达我们的晶状体,通过睫状肌的调节,外界光线在视网膜上成像感,光细胞呢,就负责把光线信息通过神经传递到大脑。
这是我们人类怎么看的问题?
而至于详细的情形呢,大家也可以出门左转,回听一下关于眼睛的那几期节目而怎么看懂,这就涉及到了大脑的问题了。比如说,我看到了一棵树,一眼就能够在脑子里描绘出它的大概形状吧。
稍稍仔细一点,也不用多想,我们就能够分辨出这是一棵松树还是一棵章术。而如果看一眼你旁边的人。
比如说在未来的某一次见面会上你见到了我,然后呢,你对我展露出了笑容,这背后实际上就意味着。
你能够理解你看到的东西对于你来说的意义,并同时做出相应的反馈,这就意味着你看懂了,那至于要让计算机真正的像人一样去看。
这其实就更加复杂了,因为它还包含了整个认知过程的问题。
比如说,我们为什么要看我们选择看些什么,看到的这个和看到的另一个他到底有怎样的关联等等不着急。
咱们1.1点来,先说最浅层次的啊,就是让计算机看到我们对于外界的了解呢,离不开眼睛,耳朵,舌头,鼻子,皮肤,这些感受器官。
其实对于机器也一样,要让机器有所谓的感觉,那我们首先就得把外界的信息,比如说声音,又比如图像,又比如触碰的压力等等传递到机器里,让他们有感觉。像这一类感受外界信息的东西呢。
我们叫它传感器传感器,它的本质其实是将一种信号转换为另一种信号的转换器。
比如说我们需要的人造眼睛,就是把外界的光信号转化为。
电信号的一种传感器,嘿,相信你一定想到了啊,所谓计算机的眼睛,这无外乎就是我们现在所使用的数码相机。
或者是数码摄像头吗?我们也不妨花一点时间来了解一下它究竟是如何实现的。
这里呢可以说一点儿挺有意思的原理上的东西要明白计算机他是如何看到的。
这里呢得再展开讲两个概念,一个呢,叫灰度急,一个呢叫数字化。
首先呢,我们来说一说灰度急啊。
我们知道光的本质呢是一种电磁辐射,它有波长,同时呢,也携带一份份的能量。
每一个光子它都带有能量,不同波长呢,也就是不同频率的光组成了色彩斑斓的可见光光谱段和我们看不见的不可见光普段,比如紫外线,又比如红外线,而当一束光的各个波长段的可见光的能量都相对平衡时。
咱们人眼看到的就是白色。
当然,也有些人会把它称为无色光。
这里应该有些朋友还记得曾经提到的三原色的概念,所以我们可以理解为,当红绿蓝的分量都一样的时候,混合发出的光呢就是所谓的无色光。
当然叫它白光更通俗一些。
而灰度级呢指的就是这种白光的能量强度。
灰度图就是由单纯白光构成的图像,别以为光是白光构成的图像。
他就没有办法传递信息了。
回想一下黑白照片,黑白电影,我们依然是能够非常轻松的分辨它背后的信息,而这种信息呢,它就是经由明暗的区别,或者说的更学究一点,说的是光的能量又或是灰度级的不同而展现出来的。
在摄像头里呢,就有一种感光材料,当光线照射到这种感光材料表面的时候,由于光电效应会产生电子。
逃离原子核而不同能量的光打在感光材料上,会造成电子逃逸的多少,从而呢就造成了电视能的变化。因此,利用这种材料。
我们就可以把白光的强度信号转化为电压信号。至于光电效应是什么,大家不妨出门左转去,回听年初的那个量子系列。 当我们感受彩色光的时候,不像白光那样只有强度这一个信息。
我们用发光,强度,光空亮和亮度来衡量,因为我们知道当射进去的光的频率小于特定频率的时候。
光电效应无法发生,因此啊,其实光本身的能量并不等于我们实际上能接收到的能量,所以呢表现出来的光强度上呢会有所差别。
现在我们的相机用的感光材料呢,一种叫ccd,也就是电荷偶合原件一种呢,叫做cmos,也叫互补金属氧化物半导体。
但是他们的本质是一样的,只是转化为电信号的方式有所不同,刚才说的就是数码相机的原理了。
只要我们把外界的光聚集打在这些感光材料上,通过测量每个点的电压,就可以知道这一部分的灰度级是多少,从而最终拼凑出一整幅图像。
那我们要测量多少个点的电压呢?
当然,我们不可能把一块材料上的所有的点都测一遍,以现有的技术,这是几乎不可能实现的。
所以这里就涉及到了第二个概念,那就是数字化。 其实数字化在这里呢,还有两个含义。
第一呢,是咱们取样的数字化意思呢,就是我们只能测量有限个点的电压,我们用在这一个点测得的能量值来代表附近周围一小片区域的能量值。
这一小片区域就成了属性一样能量均匀分布的单位区域。
而在这里呢,我们也叫它像素点。
第二个含义呢是量化的数字化意思是啊,我们要用一级级的值来表示光的灰度级,比如说从一到256来表示,那么这个像素点内光的强度是多少呢?
我们就不能说是比如188.6可以用四蛇五入的方法认为它是189。
如果说你是一个听到数字就头晕的人,也没有关系啊。
听到这儿呢,只需要明白一点,那就是电脑里存的它都是数字,而且呢,是被我们抽样得来的数字。
是被约等于的数字。
正因为我们采集的信息不完全,所以我们拍出来的照片永远都不可能和真实图像一模一样。 当然了,也不要觉得咱们的眼睛高明多少,其实我们能获取的视觉信息,永远也只是真实的一个片面的投影罢了。 这个说得有点儿远啊,说回来。
在大自然里,现实生活当中连续不断的量,比如说光的能量,空间中的坐标,我们叫它模拟量,而在我们的电脑里,那种有明显的层级而且不可能无限大的量呢。
我们称之为是数字量。
当然,你肯定会想啊,光有明暗,好像还不够,就好比红绿灯这种非常基本的信号,它就是通过不同的色彩来传递信息的吗?
那么,彩色照相机的原理到底是什么呢?
说起来其实也不复杂,我们只需要记录下每一个像素点对应的红光,绿光,蓝光分量。
到时候再补充同样量的光回去就可以了。
实际上呢,我们采用一种滤镜来对每一个小片感光材料区域内进行光的色散,从而记录下每一小片区域的三色光分量值。
这一点从原理上呢,和我们拥有的分别对红绿,蓝三种波长,光线特别敏感的三种湿不椎细胞不太一样。
当然,最终实现的效果是差不多的。 让计算机能够看到,这也是计算机视觉目前做出最多成效的领域。
这就是所谓的复制人眼,的确要通过强大的光学上更加完善的镜头。
以及纳米级别制造的半导体像素,现代摄像机的精确性和敏锐度是已经达到了一个惊人的地步。
在过去的几十年,科学家已经打造了传感器和图像处理器,这一些,甚至可以说,某种程度上已经是对咱们的人眼实现了超越。
可问题在于什么呢?虽然我们已经能够实现输出端极高的保真度,但是在很多方面来说,这些设备却又并不比十九世纪的那种针孔摄像机更为出色。
他们充其量记录的只是相应方向上的光子分布。
而即便最优秀的摄像头传感器,他也没有办法去识别一个球,更不用说把它抓住了。
换而言之啊,在没有软件的基础上,硬件是相当受限制的。
这些高清的图片如果不去处理,它就只是纯粹的信息而已,不能够被计算机去解读成意义。
因此呢,在这一领域的软件才是需要投入解决的。
更加棘手的问题,这样说来,成功对人眼完成模仿之后,我们就需要让计算机去看懂东西了。
而要真正实现这一步啊,难度呢真的是高了好几个数量级。
可以想象一下,通过我前面的介绍,如果你是一台计算机,或者说你是一个人工智能经由咱们人类给你创造的所谓眼睛,也就是摄像头。
你看到的世界是怎样的呢?
或许全都是数字吧?
比如说我看到的山是山水是水,而在你眼里或许就是一二三四五六七,又或者是更加纯粹的零一零一零零零一一。
当然了,更准确的来说,在你眼里呈现出来的其实是一个个由很多元素组成的大矩阵矩阵里面呢,每一个元素,它都是由零和一组成的数字。
如果说你没有学过线性代数,不知道矩阵是什么,那其实可以想象成是一个非常大的网格图。
比如说一个720*576的网格。
有720行,576列。
每一个小壳子里面呢都是数字,那如果是灰白图像呢,就只有一个数字,而彩色图像呢则有三个数字,这就是所谓的Rgb分量。而作为ai父母的人类呢,则要教会他怎样应付处理,甚至是理解这里面对应的数字背后到底意味着什么。
这听上去很难,是不是因为机器毕竟不像人一样,自然而然的就会思考而图像处理起来呢?
可以非常的复杂,因此呢,计算机视觉技术也是人工智能最难突破的领域之一。
接下来呢,我就具体和大家来说一下目前我们是如何让ai看懂东西的,我们还是得由浅入深地把它分成两个部分了。第一部分呢,我们称之为数字图像处理技术,比如说我们的美图秀秀photo shop这样的软件呢,都是这种技术下的产物。
它的总体思路呢就是通过编程来对图像进行处理,进而呢,发展出了像是滤波,去燥,图像,压缩图像,重建与复原等等的实用技术。
我们当然可以说这位ai认识世界奠定了基础,而这门学科本身呢其实也和数学密不可分,使用的比较多的是微积分,数理,统计与概率论,线性代数等等。
估计又有一听数学就头疼的朋友了,我先打住。不过大家要明白的是,之所以我们能够去享受这美好的现代生活,用上那么多方便的程序,这背后呢其实都离不开数学的发展与支撑。 说回来啊,似乎在我们的理解当中。
如果我们想让一个机器听从咱们的指令,那我们就得要一步步的去告诉他第一步应该怎么做,第二步应该怎么做?
因为他们实在是太笨了。
比如说,如果我们想要让一个机器人走路,那我们就应该编程告诉他,首先从双脚站立的姿态出发。
把重心一道右脚,然后呢,把左脚放在前方的0.3米处,然后呢再颠起右脚间,把重心慢慢的移到左脚。
然后呢把右脚也向前挪,0.3米等等等等,似乎好像只有这样的笨办法,计算机才能够听懂咱们的指令。
然后呢又笨拙的,当然也不厌其烦地进行挪动。
虽然这样的机器人,他永远不会像终结者里的天网一样。
背叛人类,却也像一句没有感情,不会思考的冷冰冰的机器,这和我们真正期盼的那种人工智能好像还差得非常非常的远。
那先前谈到的那些图像处理软件,或者说图像处理程序,大部分都还停留在这个阶段,脑洞太大休息一下,如果听咱们的节目不过瘾,你也可以去我们的微信订阅号,逛一逛啊。
与节目有关的更多知识干货,每周节目的bgm歌单还有趣味,猜题闯关都在那里了?
微信订阅号搜索旭东刀科学旭是旭日的,旭东是山东树,这些刀是唠叨的刀。其实吧,你打叙东刀科学的拼音也是可以直接搜到的。
我怎么就没想到呢。 而在数字图像处理技术之上,我们需要进一步去发展计算机视觉的话。
就需要再次回到我们的眼睛,以及我们的大脑是如何完成看这个过程了。我们的大脑从根本上就是通过意识来进行看的动作的,比起其他的任务啊,在大脑当中相当多的部分其实都是用来。
看的。而这一专程呢又是由细胞本身来完成的,通过数以1000000000计的细胞通力合作。
在嘈杂不规则的视网膜信号当中去提取模式。如果在特定角度的一条沿线上出现了差异,或是在某个方向上出现了快速运动。
那么神经元组就会兴奋起来。
较高级的网络啊,会将这些模式归纳进所谓的原模式当中,比如说我们看到的这个东西是一个朝上运动的圆环。
与此同时呢,另外一个网络也会做出。
进一步的归纳,这是一个带红线的白色圆环,而且似乎在这背后还有一个模式体现在了大小上的增长。
那么从这些粗糙但是补充性的描述当中呢,具体的图像就生成了。
我们也知道了图像背后的意义,使用人脑视觉区域相似的技术定位,物体的边缘和其他特色,从而形成方向梯度直方图。
由于这些网络一度被认为是深不可测的复杂,因此呢,在计算机视觉研究的早期采用的是别的方式,也就是。
自上而下的推理模式,比如说一本书看起来是这样,那么就要注意与这个类似的模式。又比如一辆车看起来是这样。
动起来又是那样,在某些受控的情况下,确实能够对少数几个物体完成这一过程。
但是,如果要描述身边的每一个物体,包括所有的角度,光照,变化,运动和其他上百个要素,即使是刚刚会说话的。
小宝宝级别的识别也需要难以想象的庞大数据,而且啊,在非常多需要应用的地方,光是编程这件事儿,它就实在是太庞大太复杂。
又或许我们根本就没有办法知道到底是用什么样的程序才有可能实现。
就比如以现有的技术而言,咱们就不可能写一个程序适用于机器人所遇到的所有情况吧。 那么在这种情况下,我们到底该怎么做呢?
其实我们也不妨想想看,关于人工智能的所有启发都是在我们人类自己身上获得的。
比如说,我们模仿人类的眼睛,发明了人工智能的眼睛。前面说到的相机人体本身呢就是一个大机器人身上的信号是通过生物电信号来传递的人体内的摩电位差决定信号传送的关闭和开启,这就相当于计算机里的零和一嘛。
可以说,人体本身的确有点儿类似于一台当然更加精妙的计算机。那么如果模仿我们的大脑。
有没有可能创造出一个像人类一样的机器人呢?
说得有点儿科幻,虽然说我个人相信未来终于有一天,人真的有可能制造出真正意义上的人工智能。
但大家也都知道,现实又是非常残酷的人的大脑结构那么的复杂,脑科学对人脑的探索其实真的只是刚刚开始。
现在的人类可以说自己都还没弄明白自己,更何况要再造一个类似自己的东西呢。
这里就要涉及到我们所说的第二部分,这就是当我们提到计算机视觉时,他实在绕不开的模式识别与机器学习了,我们是不是可以不需要完美的复制人脑?
只要去模仿人类学习事物的过程,把这一属性赋予机器,让他代替我们去学习。
长此以往,他们就会变得比我们的某方面更聪明。
不得不说,这是一种自下而上的方法。 计算机啊,它就可以在多张图中对一张图片进行一系列的转换,从而找到物体的边缘,发现图片上的物体角度和运动。
就像人类的大脑一样,通过给计算机观看各种图形,计算机呢,就会使用大量的计算和统计,试着打看到的形状与在之前训练中识别的相匹配。这背后呢其实就是海量的数学运算,他试图从这些数字当中寻找规律。 没错,这就是大名鼎鼎的机器学习,还是举一个计算机视觉里面非常著名的例子来,简单地说一说啊。
现在有些手机里边儿呢,有人脸识别人脸解锁的功能。
当然也有很多朋友应该记得去年那场所谓的顶级人类热脸大师和机器人比赛任网红脸的大赛啊。这就说明现在机器的人脸识别水平内几乎已经是站在了人类的巅峰水平线了。
而要做到人脸识别的第一步呢,就是完成人脸检测,所谓的这点检测呢,就是我们要让计算机自己检测出人的脸来,我们呢,把人脸检测看作是一个复杂的分类识别问题。
意思呢就是我们想要让计算机?
自己就能够进行分类,识别出这是人脸还是非人脸。
如果说机器掌握了这种方法,那我们就可以认为他懂得什么是人脸。
虽然说他可能不知道人是一种什么样的生物,可是他已经能够认出具有人脸特征的大部分图案。 那么问题来了,我们怎么样才能够让机器认识这是一张人脸了?
在这里呢?简单举一个有趣算法的例子。
以便大家能够更加直观的理解这种计算方法的名字呢叫adboost,它起源于valent提出的pec可学习性这样子的一种理论思想,这个思想呢是,首先我们把来区分是不是人脸的机器像所分类器,那么我们随意给这个分类器一个算法得到一个新分类期。这个分类期呢仅仅比我们之前随意猜测的要好一些。我们管它叫做弱分类器。
那么我们就可以在这个基础上根据几个弱分类切合成一个可信赖的强分类器。
这个说得太学术了,打个比方,我们的第一个弱分类器呢叫椭圆形的一大片区域就是人脸,虽然有可能是灯笼。第二个若分类器呢叫颜色光泽接近于人脸肤色的区域就是人脸区域。
虽然呢,也可能是人的大腿。而第三个弱分类器呢叫做中心,有道三角形,三个黑点的就是人脸。
虽然说这也可能会是一个树岔,或者说是一些其他什么样的东西,虽然说光听上去每一个弱分类器感觉都弱爆了。
非常的滑稽,但是通过训练它,我们却有可能得到一个识别率很高的机器。
听上去是不是有点儿三个臭皮呛顶个诸葛亮的意味,那具体怎么训练呢?首先呢,我们要收集很多图片作为训练集,这里边儿呢,有些是正确的人脸,有些呢是假的人脸。
然后呢,我们让这些若分类器一起来进行识别算法本身呢是改变数据分布,实现它根据每次训练集市中的每个样本的分类是否正确?
以及上次的总体分类的准确率来确定每个样本的全职,将修改全职的新数据送给下层分类器进行训练。
然后呢将每次训练得到的分类器融合起来,作为最后的决策分类器。我知道没有研究过机器学习的大部分人一定不知道我前面在说什么,但只要知道他经过每一张图片的学习,准确率呢,就会更高一些,直到最终他就可以分辨。
什么才是人脸,刚才提到的只是机器学习里边儿非常非常小的一个例子,只是希望能够通过它,让大家能够大致了解到。
其实如今我们的创造力是正在奋力的追赶我们的想象力。近几年,科学家们已经不满足于一些普通的机器,学习了他们的热衷于让ai往机器学习中的神经网络和深度学习的方向去走。
他们试图建立一种模仿人脑内部神经网络的模型,从而呢,在旗下衍生出一个又一个类似于前面提到的识别人脸这样的专家级的系统而相信。
借助这些模型,不仅仅是计算机,视觉,人工智能的各个方面呢,都能更贴近于真实的人类。
从而呢,最终有一天能够得到堪称真正意义上的人工智能。但这里呢,我们还是要说相信大家都明白这个道理,就是光是识别和描述他可能还是不够的。比如说,我们开发出了一种系统,它能够识别苹果,包括在任何情况,任何角度,任何运动状态,甚至他能够知道这个苹果是不是被咬过?
但是,这个系统却没有办法去识别一个橘子,并且他甚至还都不能告诉人们啥是苹果,是不是可以吃尺寸,如何,或者苹果,还有哪些具体的用途。
那对于我们人类来说,大脑的剩余部分就有这些组成,包括长短期记忆,其他感官的输入,注意力和认知力。从世界中万亿级别的交互中收获的是1000000000计的知识。这些知识呢将通过我们很难理解的方式被写入互联的神经中,而要复制它,比起我们遇到过的任何事情。
都要更加的复杂,这一点呢就是计算机科学和更加普遍的人工智能领域的前沿了。
计算机科学家,工程师,心理学家,神经学家和哲学家呢是正在通力合作。
但是呢,也只是刚刚形成了关于意识运作的概念,还远远达不到真正模拟他的地步。
当然,即使在如此早期的阶段,计算机视觉却仍然已经发挥了很大的作用,像是在摄像头领域前面说过的面部和笑容的识别,又或者在自动驾驶领域他呢?
已经能够读取交通信号和注意行人工厂里的机器人呢,已经能够通过他来检测一些普通人根本注意不到的细节瑕疵。
虽然说最终要实现和人类一样去看,仍然有很漫长的一段路要走,但是如果能够实现呢,那一定会是一个非常美妙的未来。 别忘了,从第一台计算机诞生到如今。
也仅仅过了71年而已。
计算机视觉也好,人工智能领域也好,如今呢,都是刚刚处在起跑阶段,而ai眼里的世界最迷人的地方不在于那片数字,而是这背后可能包含关于未来的无限风光。
好了,原来是这样,就是这样,说起来好久没有一个人录节目了,上一回没有记错的话,应该还是在2015年的十月份。本来呢,我是以为。
现在有姜文有紫菱,同时有水兄,原来是这样,很难再出现徐东一个人叨叨叨的情况了。
但是无巧不成书嘛,这一周就碰到了他们曾为同时有事的情况。 呃,本来我也想过要不要跳票,但是没没想到有很多朋友每周五的时候就会等着节目的更新,实在不想让大家失望。
所以呢,还是用一个人叨叨叨的方式和大家分享了一切,其实和咱们以往节目风格不太一样的内容。
这篇文案熟悉我教育背景的朋友,应该能够想到,他一定不是我写的啊。
这篇文案的作者呢,叫御前带刀侍卫啊,现在呢,是原样刀友会比零的一名成员可以感觉得出来,他应该从事的就是计算机视觉这个领域。
其实呢,本来的文案是一个非常标准的双人原药文案啊。
这一次呢,我也是破天荒的进行了一个逆改写,就是把一问一答的模式改成了一个单人讲述啊,改得不好,也请御前带到侍卫见谅。 其实拿到他的这篇文案,我是比较震撼的啊。因为呢,又是一个非常典型的。
论文式的文案写法,除了每一页都有注脚,最后呢还附上了参考书目啊。
可以看到这里边儿是涉及到了大量的英文书籍,那当然还有很多参考的这个文章,也谢谢这位朋友看得出来是花了很多心思的。 他呢,也是希望以此文献给广大的计算机,视觉以及人工领域奋战的前辈和朋贝们。
他说,感谢彼此共勉,谢谢你。当然也期待所有。
希望通过原来是这样,这个平台来分享知识的大神们啊,可以通过加入原样文案组的方式来给,原来是这样提供文案,毕竟我一个人的知识面肯定是相当有限的,而我擅长的领域呢,也无外乎就是那么几个,原来是这样的,也是希望可以搭建起这样子的一个平台。
就是通过各行各业的大神们从自己所熟悉的视角出发。
来分享知识,最终呢,帮助大家一起来构建一张更完整的知识网络,还是简单的做几个广告啊。如果说大家对于旭东本人感兴趣,可以关注新浪微博搜索旭东旭是旭日的,旭东,是上面一个山,下面一个东。
当然微信订阅号也可以搜叙动刀科学在每个周六也会有关于本期节目的延展阅读,还有背景音乐歌单。
百度贴吧也是旭东刀科学,欢迎各位的加入,也欢迎大家加入原样刀友会,现在呢,是我们的第七群文曲,现在的人数呢,已经破迁了非常的热闹,也是期待大家的加入和探讨。如果说大家觉得每周光听原来是这样还不过瘾的话,现在原来是这样呢。
也是有了第一个付费精品节目,那就是天文。原来是这样,这是旭东和水兄共同主讲的一个希望,能够从天文的专业角度出发。
来帮助大家构建一个正确的天文观的天文科普节目,想要订阅的话,也可以关注一下叙东刀科学,我们的周边那一栏就有这档节目的详细介绍。哦,对了,另外呢,咱们科学声音,理性的力量主题演讲会的北京站已经在上周启动了门票订购。
那如果说你是北京或者北京周边的朋友,在七月十五号这一天刚好有空的话,不妨到现场和咱们聚一聚。
而订票这件事儿呢,真的要抓紧了那具体的方法呢,在科学声音包括虚动刀科学的微信订阅号,可以看一下活动,那一来也有对应的图文。
最后呢,也要祝福即将进入考场的本届的高三考生啊,不知道过去这一年的原来是这样,有没有可能在今年的高考当中再压对几道题目啊。如果说真的有幸压重的话,也欢迎大家在考完之后在我们的评论区留言。 当然,无论怎么样放松心态。
发挥出自己的好状态吧,总之祝福大家好了,本周的原来是这样,真的就是这样了。代表本次节目的撰考人御前带刀侍卫,感谢各位的收听。
当然也感谢所有通过打赏撰稿,参与志愿组,或者订阅我们付费,精品节目等所有方式支持和帮助过我们的朋友。 原来是这样的发展真的离不开各位。
我是徐东,咱们下周再见。
哎,你们知道吗,一个人录节目?
有很多缺点一呢,是实在讲不出什么好玩儿的彩蛋。
二来呢,这篇文案说起来也有8000多个字了,要是两个人录的话,怎么的也得有45到50分钟。
可是我一个人录,竟然正片30分钟出头就录完了。 哦,对了,姜文没有怀孕,子陵没有怀二胎水兄,当然也不可能怀孕。就是这样吧,下周应该不会一个人。 我是卓老板,我是吴英明,我是汪杰。
我是旭东,我们是科学声音。