ORB 特征

本文最后更新于：2025年4月30日下午

ORB 是 Oriented Fast and Rotated Brief 的简称，可以用来对图像中的关键点快速创建特征向量，本文记录相关内容。

简介

ORB 是 Oriented Fast and Rotated Brief 的简称，可以用来对图像中的关键点快速创建特征向量，这些特征向量可以用来识别图像中的对象。
其中，Fast 和 Brief 分别是特征检测算法和向量创建算法。ORB 首先会从图像中查找特殊区域，称为关键点。关键点即图像中突出的小区域，比如角点，比如它们具有像素值急剧的从浅色变为深色的特征。然后 ORB 会为每个关键点计算相应的特征向量。ORB 算法创建的特征向量只包含 1 和 0，称为二元特征向量。1 和 0 的顺序会根据特定关键点和其周围的像素区域而变化。该向量表示关键点周围的强度模式，因此多个特征向量可以用来识别更大的区域，甚至图像中的特定对象。
ORB 的特点是速度超快，而且在一定程度上不受噪点和图像变换的影响，例如旋转和缩放变换等。

FAST 算法

ORB 特征检测的第一步是查找图像中的关键点，而关键点检测算法即使用 FAST 算法。

BRIEF 算法

我们已经知道 ORB 如何使用 FAST 确定图像中的关键点，下面我们将了解 ORB 如何使用 BRIEF 算法，并将这些关键点转换为特征向量。

ORB 算法的第二步是将第一个算法发现的关键点变成特征向量，这些特征向量可以共同表示一个对象。

要创建特征向量，ORB 会用到 BRIEF 算法。BRIEF 是 Binary Robust Independent Elementary Features 的简称，它的作用是根据一组关键点创建二元特征向量。

二元特征向量又称为二元描述符，是仅包含 1 和 0 的特征向量。在 BRIEF 中每个关键点由一个二元特征向量描述，该向量一般为 128-512 位的字符串，其中仅包含 1 和 0。

BRIEF 算法首先利用高斯核对给定图像进行平滑处理，以防描述符对高频噪点过于敏感。然后，对于给定关键点，例如猫爪上的这个点。

BRIEF 从该关键点周围界定好的邻域内随机选择一对像素，关键点周围的邻域称为 Patch，它是一个具有特定像素宽度和高度的正方形。
这里显示的随机对中的第一个像素，是一个蓝色正方形，它是从以关键点为中心的高斯分布中抽取的一个像素，标准偏差或分散趋势为 σ。

这里显示为黄色正方形的像素，是随机对中的第二个像素。它是从以该第一个像素为中心的高斯分布中抽取的像素，标准偏差为 σ/2，经验表明这种高斯选择提高了特征匹配率。

BRIEF 然后开始为关键点构建二元描述符，方法是如下所示地比较这两个像素的亮度。如果第一个像素比第二个亮，则为描述符中的相应位分配值 1，否则分配值 0。

在这个示例中第二个像素比第一个亮，因此我们为特征向量的第一个位分配值 0。特征向量的第一个位对应的是这个关键点的第一个随机点对，然后 BRIEF 会针对同一关键点选择新的随机像素对比较它们的亮度并为特征向量中的下个位分配 1 或 0。

在上面新选取的随机像素中，我们看到现在第一个像素比第二个亮，因此为特征向量中的第二个位分配值 1。

对于 256 位向量，BRIEF 会针对同一关键点重复这一流程 256 次，然后转到下个关键点。接着将 256 个像素亮度比较结果放入该关键点的二元特征向量中。BRIEF 像这样为图像中的每个关键点创建一个向量。

缩放不变性和旋转不变性

ORB 使用 FAST 检测图像中的关键点，并且通过额外的几个步骤确保无论对象的大小或位置如何都能检测到图像中的对象。

给定一个图像 ORB 算法首先开始构建图像金字塔。

图像金字塔是单个图像的多尺度表示法，由一系列原始图像的不同分辨率版本组成。金字塔的每个级别都由上个级别的图像下采样版本组成。下采样是指图像分辨率被降低，比如图像按照 1/2 比例下采样。因此一开始的 4x4 正方形区域现在变成 2x2 正方形。图像的下采样包含更少的像素，并且以 1/2 的比例降低大小。

这是一个包含 5 个级别的图形金字塔示例，在每个级别图像都以 1/2 的比例下采样。到了第四级别图像的分辨率是原始图像的 1/16。ORB 创建好图像金字塔后，它会使用 FAST 算法从每个级别不同大小的图像中快速找到关键点。因为金字塔的每个级别由原始图像的更小版本组成，因此原始图像中的任何对象在金字塔的每个级别也会降低大小。
通过确定每个级别的关键点 ORB 能够有效发现不同尺寸的对象的关键点，这样的话 ORB 实现了部分缩放不变性。这一点很重要，因为对象不太可能在每个图像中的大小都完全一样，尤其是像猫这样的对象某个时刻可能靠近相机，在另一个时刻离相机很远。

现在 ORB 获得了与这个图像金字塔每个级别相关的关键点。在发现金字塔所有级别中的关键点后，ORB 现在为每个关键点分配一个方向，例如朝左或朝右，取决于该关键点周围的强度是如何变化的。
我们详细了解下背后原理。ORB 首先选择金字塔Level 0 中的图像，对于该图像 ORB 将计算关键点的方向。

方法是首先计算以该关键点为中心的方框中的强度形心。强度形心可以看做给定 patch 中的平均像素强度的位置。计算强度形心后，通过画一条从关键点到强度形心的向量，获得该关键点的方向，如上图所示。这个关键点的方向是向下并朝左，因为这个区域的亮度朝着这个方向增强。
为金字塔级别 0 的图像中的每个关键点分配方向后，ORB 现在为所有其他金字塔级别的图像重复相同流程。需要注意的是，在每个图像金字塔级别，Patch 大小并没有缩减，因此相同 Patch 在每个金字塔级别覆盖的图像区域将更大，导致关键点的大小各不相同。

可以从此处看出这一点。在此图中，圆圈表示每个关键点的大小，更高的金字塔级别中的关键点大小更大。
找到关键点并为其分配方向后，ORB 现在使用修改后的 BRIEF 版本创建特征向量，这个修改后的 BRIEF 版本称为 rBRIEF，即 Rotation-Aware BRIEF。无论对象的方向如何，它都可以为关键点创建相同的向量，使得 ORB 算法具有旋转不变性，意味着它可以在朝着任何角度旋转的图像中检测到相同的关键点。和 BRIEF 一样 rBRIEF 首先在给定关键点周围的已界定 patch 中随机选择 256 个像素对，以构建 256 位向量。然后根据关键点的方向角度旋转这些随机像素对，使随机点的方向与关键点的一致。最后, rBRIEF 对比随机像素对的亮度并相应地分配 1 和 0 创建对应的特征向量，为图像中的所有关键点创建的所有特征向量集合称之为 ORB 描述符。

使用 ORB 描述符进行对象识别

我们来看一个示例以了解 ORB 如何检测到具有不同大小和方向的同一对象。
假设我想在其他图像中检测到此人的面孔，例如在这个多人合影中，我们将第一张图像称为训练图像，第二张图像，即要对其进行人脸检测的图像，称为查询图像。

给定这个训练图像，我想在这个查询图像中查找相似的特征，第一步是计算训练图像的 ORB 描述符并将其存储到内存中。

ORB 描述符将包含二元特征向量，用于描述这个训练图像中的关键点。第二步是计算并保存查询图像的 ORB 描述符，获得训练和查询图像的描述符后，最后一步是使用相应的描述符对这两个图像进行关键点匹配，通常使用匹配函数来完成这一步。
匹配函数的目的是匹配两个不同图像的关键点，方法是比较这两个图像的描述符，看看它们是否很相近可以匹配。当匹配函数对比两个关键点时，它会根据某种指标得出匹配质量，这种指标表示关键点特征向量的相似性。可以将这个指标看作与两个关键点之间的标准欧几里得距离相似性。某些指标会直接检测特征向量是否包含相似顺序的 1 和 0。需要注意的是，不同的匹配函数使用不同的指标来判断匹配质量。对于 ORB 等使用的二元描述符来说，通常使用汉明指标，因为它执行起来非常快。
汉明指标通过计算二元描述符之间的不同位数量判断两个关键点之间的匹配质量。在比较训练图像和查询图像的关键点时，差异数最少的关键点对被视为最佳匹配。匹配函数对比完训练图像和查询图像中的所有关键点后，返回最匹配的关键点对。

我们的训练图像和查询图像之间的最匹配点显示在此处，可以清晰地看出训练图像和查询图像之间最匹配的点主要对应的是训练图像的面孔。有一两个特征不是太匹配，原因可能是该图像区域的强度模式比较相似。因为大部分点对应的是训练图像中的脸部，可以看出匹配函数能够在查询图像中正确地识别该面孔。

cv2.ORB_create

ORB算法核心函数 cv2.ORB_create()

ORB_create(int nfeatures=500, float scaleFactor=1.2f, int nlevels=8, int edgeThreshold=31, int firstLevel=0, int WTA_K=2, ORB::ScoreType scoreType=ORB::HARRIS_SCORE, int patchSize=31, int fastThreshold=20)

参数说明：

参数	含义	备注
nfeatures	确定要查找的最大关键点数，默认500
scaleFactor	金字塔的抽取率，默认1.2，必须大于1	ORB使用图像金字塔来查找要素，因此必须提供金字塔中的每个图层与金字塔所具有的级别数之间的比例因子。
Nlevels	默认为8，金字塔等级的数量
EdgeThreshold	默认31，未检测到要素的边框大小	由于关键点具有特定的像素大小，因此必须从搜索中排除图像的边缘。edgeThreshould的大小应该等于或大于patchSize参数。
FirstLevel	确定应将哪个级别视为金字塔中的第一级别，默认为 0	它在当前实现中应为0.通常具有统一标度的金字塔等级被认为时第一级。
WTA_K	用于生成定向的BRIEF描述符的每个元素的随机像素的数量，默认为2	可能值为2，3，4；其中2为默认值。
ScoreType	`HARRIS_SCORE`表示`Harris`角算法用于对要素进行排名。该分数仅用于保留最佳性能。`FAST_SCORE`生成的关键点稍差，但计算起来要快一些，默认`HARRIS_SCORE`。	此参数可以设置为`HARRIS_SCORE`或`FAST_SCORE`。
PatchSize	生成描述符使用区域的大小	在较小的金字塔层上，由特征覆盖的感知图像区域将更大。
fastThreshold	快速阈值

示例代码

import cv2
import numpy as np
import sys
def cv_show(name, img):
    cv2.imshow(name, img)
    cv2.waitKey(0)
 
def detectAndDescribe(image):
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  # 将彩色图片转换成灰度图
    descriptor = cv2.ORB_create()  # 建立ORB生成器
    # 检测ORB特征点，并计算描述符
    (kps, des) = descriptor.detectAndCompute(image, None)
 
    kps_float = np.float32([kp.pt for kp in kps])  # 将结果转换成NumPy数组
    return (kps, kps_float, des)  # 返回特征点集，及对应的描述特征
 
'''读取拼接图片'''
imageA = cv2.imread("test.jpg")
cv_show('imageA', imageA)
imageB = cv2.imread("test2.jpg")
cv_show('imageB', imageB)
 
'''计算图片特征点及描述符'''
(kpsA, kps_floatA, desA) = detectAndDescribe(imageA)
(kpsB, kps_floatB, desB) = detectAndDescribe(imageB)
 
'''建立暴力匹配器BFMatcher，在匹配大型训练集合时使用FlannBasedMatcher速度更快。'''
matcher = cv2.BFMatcher()
 
rawMatches = matcher.knnMatch(desB, desA, 2)
good = []
matches = []
for m in rawMatches:
    # 当最近距离跟次近距离的比值小于0.85值时，保留此匹配对
    if len(m) == 2 and m[0].distance < 0.65 * m[1].distance:
        good.append(m)
        # 存储两个点在featuresA, featuresB中的索引值
        matches.append((m[0].trainIdx, m[0].queryIdx))
 
vis = cv2.drawMatchesKnn(imageB, kpsB, imageA, kpsA, good, None)
cv_show("Keypoint Matches", vis)