另一位影响计算机视觉发展的人是来自麻省理工学院的科学家 David Marr。 70 年代末,他写了《视觉:对人类视觉信息表示和处理的计算调查》一书,其中谈到了允许计算机识别视觉图像的可能发展路径和算法。他还描述了二维图像的心理处理及其三维表示的再现过程。他将其分为三个阶段:第一个阶段称为“初始草图”,其中包括物体的边缘、线条和边界。下一步是“2 1/2-D 草图”,开始计算图像的表面、图层和深度。通过将所有内容放在一起,我们可以构建一个分层组织的 3D 模型。这个理想化的过程帮助我们理解如何解构视觉信息。
其他开创性的工作是在 70 年代完成的,
当时研究人员提出了这样的问题:“我们如何才能超越简单的方块世界,开始识别或重新创建现实世界的物体?”当时,可用数据很少,计算机速度也很慢。但这并没有阻止斯坦福大学和 SRI 的团队提出两种类似的想法,一种称为“广义圆柱体”,另一种称为“图形结构”。它们的本质是将所有三维物体分割成简单的几何形状。例如,可以使用广义的圆柱形形状来重新创建人的模型。
David Lowe 在 80 年代也做过类似的工作,他尝试使用直线组合来重新创建物体的形状。
20世纪90年代
所有这些项目在当时都非常雄心勃勃,但仍停留在示例水平。在解决实际问题方面进展甚微。因此,研究人员提出了以下理论:“如果识别物体太困难,也许我们应该先将它们分割出来?”这就是对感兴趣区域中的像素进行分组的任务的诞生。通过采用一组具有相似属性的像素,我们可以确定它们所属的对象类型 – 这称为图像分割。该领域的第一批作品之一属于伯克利大学的 Jitendra Malik 和他的学生 Janbo Shi,他们利用图论解决了这个问题。
2000 – 2007
分割之后,计算机视觉中出现了一个新问题:人脸识别。这是最重要和最紧迫的问题之一,从1999-2000年初开始,机器学习方法开始在这方面取得良好的成功。其中,统计算法占主导地位,例如:支持向量机、Boosting、图形模型,包括第一个神经网络。最令人印象深刻的是 Paul Viola 和 Michael Jones 使用 AdaBoost 算法进行实时人脸检测(Viola-Jones 方法)的工作。
在数据驱动营销和消费者分析的 电话号码库 更广阔领域中。该行业围绕手机号码数据的收集、汇总和货币化展开,对于寻求增强营销策略和提高客户参与度的企业来说,手机号码数据是关键资产。该业务模式的核心是获取手机号码。
科学家们在 2001 年开发了他们的算法
当时计算机的速度仍然很慢,但可以近乎实时地检测图像中的人脸。文章发表五年后,富士胶片发布了第一款在拍摄时检测面部的数码相机。这就是计算机视觉从基础科学研究转向现实世界应用的方式。
另一种杰出的物体识别方法是由 David Lowe 在 20 世纪 90 年代末 – 2000 年代初开发的。它被称为SIFT(尺度不变特征变换),用于识别和描述局部图像特征。想象一下,您有两张相似的汽车停车标志照片。人们可以很容易地比较它们并说这里描绘的是同一个物体。由于各种干扰:拍摄角度、距离、光线等的变化,计算机要做到这一点会更加困难。该算法的想法是搜索该对象的区域 – 对这些变化不变的特征或属性。因此,识别的任务就是从物体中提取一些显着的特征,并与相似的物体进行比较。这比比较整个项目要容易得多。以下是停车标志匹配功能的示例。
使用图像特征帮助我们开始识别整个场景。例如,空间金字塔匹配算法可以判断一张照片是否是风景、高速公路、客厅、厨房等。
2007年至今
21 世纪的第一个十年见证了图像质量的巨大进步。数码相机变得越来 7 联盟 营销 尖端 越好,用于研究计算机视觉的数据也随之改进和增加。这发挥了重要作用,因为参考数据集(基准)的出现使得测量对象识别的准确性成为可能。最流行的数据集之一称为 PASCAL Visual Object Challenge。它由 20 个对象类组成。以下是其中三个的示例:火车、飞机、人。
每个类别包含一千到一万张图像。使用其中一些作为测试数据,您可以评估这些方法所达到的准确性。
图中右侧是2007年至2012年物体识别算法有效性的图表。
随着这些方法的准确性不断提高,科学家们提出了一个新问题:“我们准备好识别任何物体了吗?”创建此类解决方案的原因也是重新训练神经网络的问题。过度拟合是当算法适应特定数据集并对其做出良好预测,但在新对象上表现很差时发生的一种现象。大多数机器学习方法都容易出现过度拟合,避免过度拟合的一种方法是使用尽可能多的训练数据。这是创建 ImageNet 项目的动力。
ImageNet 的创建归功于斯坦福大学的一群爱好者
他们希望从互联网上可以找到的所有图像中收集最完整的数据集。它的创建花费了三年的时间:研究人员从互联网上下载了数百万张图像,并使用 WordNet 词典对它们进行组织。该字典包含数以万计的对象类别!最终数据集于 2009 年发布,包含约 1400 万张照片,分为 22000 个对象和场景类别。这是当时最大的数据集。
2009年底,ImageNet团队宣布举办一项名为“ImageNet大规模视 手机号码列表 觉识别挑战赛”的国际竞赛。为其选择了 140 万张图像和 1000 个类别。如果参加比赛的算法能够为一张图像输出5个标签,并且其中包含正确的物体,则视为成功。
以下是2010年至2015年的比赛结果
错误率正在稳步下降,在某些情况下甚至超过了人类的错误率。但计算机视觉仍有许多未解决的问题,您将在本课程中了解这些问题。
关于本课程
该课程重点关注的主要任务是图像分类。回想一下,分类时,您的算法必须将图像分配给先前已知的类别之一。研究界和工业界正在解决这个问题。分类的例子有很多:从照片中确定菜肴的卡路里含量、识别各种艺术品、破译手写文字等等。