在这里,我将记录在学习斯坦福CS231n公开课时的一些记录、收获,以及感悟

文章内大部分图片取自CS231n_2017内官方PPT

本篇PDF地址http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture1.pdf # 引言

​ 在今天,无论你是发一条说说(发一条朋友圈),还是闲暇之余逛逛📺Bilibili看看抖音,都离不开图像数据。目前,图像数据已经几乎占据了网络上的80%甚至更多的流量,这些图像的量显而易见十分庞大,但是让计算机去理解到底是什么构成了这些视觉数据即使是2022年的今天也是一件非常困难的事情。

​ 举个例子,每天都有成千上万的人在抖音短视频APP内滑动着他们的手指来获得下一个视频,也许他们已经看完了上一个视频,也许他们因为并不喜欢它而快速划走。我们常常会说的"号养好了"意味着我们的账户所随机获取到的视频很符合你的胃口。那么,它是怎么知道你喜欢喜欢的是何种短视频呢?难道它真的碰巧与你臭味相投或是志同道合吗哈哈。如果我们浅浅思考一下,可能会想到这两个问题:

  • 它是如何知道我们喜爱哪个视频的呢?
  • 对于该视频所属类别它是如何分类的?

​ 也许我们可以很简单的想到使用一个视频的观看时间来表现我们对于它的喜爱程度,但是如果让工作人员一个一个地去给视频贴上属于他们的标签,也许他们一辈子都离不开工位了(不是)😝,这就是需要计算机视觉来提供帮助了。

计算机视觉历史

生物视觉

​ 大约五亿四千三百万年前地球几乎完全被水所覆盖。在当时,水中的动物并不活跃,当有食物游至身边时他们就抓住它,没有时就漫无目的地漂浮在汪洋大海之中,可以说是纯纯钓鱼执法,但他们并不是真的想摆烂,他们只是缺乏了很重要的能力——视觉

​ 然而在五亿四千万年前,在千年时间内物种数量从少数一些一跃至成千上万种,科学家们将这种进化称为物种大爆炸。据目前所发现的化石证明,当时的动物们开始进化出了眼睛,这也许是物种大爆炸的最重要的原因。有了眼睛,世界将更加生动得呈现在你的脑海里,一切都变得活跃起来,捕食有了目标,生活有了希望,大家都卷起来了(bushi)!就这样,视觉带来了勃勃生机,带来了物种大爆炸,也带给了我们感受世界美好的能力。如今,几乎所有的动物都拥有视觉系统。

机器视觉

一些早期研究

​ 下图👇是17世纪文艺复兴时期的暗箱照相机是人类最早发明的相机📷,它通过小孔成像原理来投影成像,这与动物们的眼睛成像原理非常相似。image-20221120235000211

​ 在1959年,Hubel及Wiesel进行了一项实验来探究哺乳动物的视觉处理机制。他们将电极插入猫🐱后脑上的初级视觉皮层,来观察何种视觉刺激会引起视觉皮层神经的激烈反应。研究发现了初级视觉皮层对于移动边缘刺激非常敏感,这启发了日后计算机视觉的研究。

​ 在2000年左右,统计机器学习方法快速发展。支持向量机、Boosting等等机器学习算法开始出现。在2001年Vj检测器问世,他可以对输入图像进行实时面部检测。Vj检测器使用积分图加速Harr特征的提取,随后使用Adaboost算法进行分类训练,在其论文发表的5年后,第一款可以进行实时面部检测的数码相机问世了,这非常得有意义,不是吗?

Robust Real-Time Face Detection论文地址

  1. 如何做好目标识别?——SIFT 可以在这了解
  2. 场景理解——SPM空间金字塔匹配模型 可以在这了解
  3. 方向梯度直方图(HOG特征)可以在这了解

图像数据集

PASCAL VOC

​ 随着互联网以及相机的发展,我们拥有了更高质量的图像数据。在21世纪初期,计算机视觉领域提出了目标检测这一重要而又基本的问题。虽然目标检测一直被老生 常谈,但是直到21世纪早期,我们才开始拥有标注的数据集来衡量目标检测的成果——PASCAL Visual Object Challenge。随着PASCAL VOC挑战赛的举办,每年该数据集量都在增长,直到2012年最后一次挑战赛,最终用于分类和检测的数据集规模为:train/val :11540 张图片,包含 27450 个已被标注的 ROI annotated objects ;用于分割的数据集规模为:trainval:2913张图片,6929个分割。

IMAGENET

​ 既然VOC上我们可以取得一个较好的成绩,那么我们是否可以识别世界上每一个物体呢?大部分经典的机器学习算法在进行目标检测任务时由于较少的数据量,很容易出现过拟合的情况。

​ 因此,以以上所展现的两点为驱动,IMAGENET应运而生。它同PASCAL VOC一样是非常经典的图像数据集,可以说是典中典中典。

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别; 一个典型的类别,如“气球”或“草莓”,包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得;但是,实际的图像不属于ImageNet。自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是2010年的深度学习革命的开始。 ——百度百科

关于CS231n课程

​ CS231n课程专注于视觉识别中最重要的问题之一——图像分类 (特别是CNN)

​ 生活中到处都有图像分类,我想,最贴近你的应该是emmmm微信!打开微信右上角扫一扫,你可以识别物体,你也可以通过上传你的本地图像来进行云端识别,早期大家最常用的应该是百度的以图识图,这些都是图像分类。image-20221121162907115

​ 12年的IMAGENET挑战赛Hinton带着他的学生使用CNN搭建了一个7层的卷积神经网络(AlexNet)屠了榜,这一战让大众认识到了CNN的重要性,从此以后CNN开始代替传统的机器学习算法在图像识别领域大显身手。比如IMAGENET挑战赛2014的冠军GoogleNet,带着他们的Inception模型将网络拓深,同时也提出了BN(Batch Normaliztion)方法等等来提高网络训练效果。2015年,在MSRA的何凯明大佬提出了ResNet利用参差连接将网络进一步拓深至了一百多层,进一步提高了网络的性能指标。image-20221121164034895

​ 计算机视觉在现实生活中的应用非常广泛,包括医疗、娱乐、工业制造等等各种各样五花八门的领域。唯一不变的是,计算机视觉能够令我们的生活更加美好。