焦距、传感器与 FOV：物理到像素的完整关系链

本文最后更新于：2026年7月3日下午

焦距、传感器尺寸、像素、视场角这些概念经常被串在一起：标定输出的 fx 是什么单位、物理焦距怎么反推、工作距离下每像素代表多少毫米。这篇把它们串成一条从物理到数字的关系链。相机成像几何（投影矩阵）和相机模型（畸变）另文记录，这里专讲物理成像面。

从物理到数字：五个概念串成一条链

镜头（物理焦距 f, 单位 mm）
    │ 光线穿过镜头
    ▼
传感器（物理尺寸 W×H, 单位 mm）
    │ 被切分成像素阵列
    ▼
分辨率（W_pix × H_pix, 单位 pixel）
    │ 每个像素的物理尺寸
    ▼
像素尺寸（d_pixel = W_sensor / W_pix, 单位 mm/pixel）
    │ 焦距除以像素尺寸
    ▼
焦距像素（fx = f / d_pixel, 单位 pixel）← 这就是标定输出的 fx

一句话：物理世界的 mm 怎么变成图像世界的 pixel，靠的就是像素尺寸这个"汇率"。

每个概念详解

物理焦距 f（mm）：镜头光心到传感器焦平面的距离（对焦无穷远时）。焦距决定视场角（FOV）和放大率——焦距短（如 12mm）是广角，FOV 大、物体显小；焦距长（如 200mm）是长焦，FOV 小、物体显大。

传感器尺寸（mm）：图像传感器（CMOS/CCD）的物理大小。常见规格：全画幅 36×24、APS-C 约 23.6×15.6、4/3 英寸 17.3×13.0、1 英寸 13.2×8.8、1/2.3 英寸 6.17×4.55。关键洞察：同样焦距的镜头，传感器越大 FOV 越大。

分辨率（pixel）：传感器的像素数量，如 5280×3956 ≈ 2090 万。

像素尺寸 / 像素间距（mm/pixel 或 μm）：传感器上每个像素的物理大小：

$$ d_{pixel}=\frac{W_{sensor}}{W_{pixels}} $$

以 4/3 英寸传感器（宽 17.3mm）、分辨率宽 5280 pixel 为例：$d_{pixel}=17.3/5280=0.00328\text{mm}=3.28\mu\text{m}$。每个像素物理大小约 3.28 微米。

焦距像素 fx（pixel）——标定输出：标定矩阵 K 里的 $f_x,f_y$：

$$ f_x=\frac{f_{\text{物理}}}{d_{pixel}}=\frac{f_{\text{物理}}\times W_{pixels}}{W_{sensor}} $$

为什么标定输出"像素焦距"而不是物理焦距

针孔相机投影公式 $u=f_x\cdot X/Z+c_x$。这里 $u$ 的单位是 pixel，$X/Z$ 无量纲，所以 $f_x$ 必须是 pixel，单位才自洽。如果用物理焦距（mm），每次投影都要除以 $d_{pixel}$ 把 mm 转成 pixel；用像素焦距把这个除法提前做了，公式更简洁。

张正友标定法（棋盘格标定）从"棋盘格物理尺寸加像素观测"直接解出 $f_x$（像素单位），整个过程不需要知道传感器物理尺寸——标定是自校准，不依赖硬件参数。只有反推物理焦距时才需要传感器尺寸：

$$ f_{\text{物理}}=f_x\times d_{pixel}=f_x\times\frac{W_{sensor}}{W_{pixels}} $$

GSD：每像素代表多少物理尺寸

GSD（Ground Sample Distance）是每个 pixel 对应的物理世界尺寸：

$$ \text{GSD}=\frac{d_{pixel}\times Z}{f_{\text{物理}}}=\frac{Z}{f_x} $$

其中 $Z$ 是相机到目标的距离（工作距离 / 飞行高度）。例如某相机 fx=3713 pixel 在 60m 高空航拍：$\text{GSD}=60000/3713\approx16.2\text{mm/pixel}$；同一相机在 500mm 工作距离：$\text{GSD}=500/3713\approx0.135\text{mm/pixel}$。

物理测量精度由 GSD 和亚像素精度共同决定：

$$ \text{物理测量精度}=\text{GSD}\times\text{亚像素精度} $$

亚像素精度	GSD=0.057mm/pixel（近距工业）	GSD=16.2mm/pixel（60m 无人机）
1 pixel（无亚像素）	0.057mm	16.2mm
0.1 pixel（亚像素）	0.006mm	1.62mm
0.01 pixel（超高精化）	0.0006mm	0.162mm

这是为什么评估系统能否达到某精度时，要先算 GSD——如果 GSD 本身就大于目标精度，算法再好也不够。

FOV：焦距和传感器的联合作用

水平视场角：

$$ \text{FOV}_h=2\arctan\Big(\frac{W_{sensor}}{2f_{\text{物理}}}\Big) $$

传感器越大或焦距越短 → FOV 越大（看更广）；传感器越小或焦距越长 → FOV 越小（看更远更细）。FOV 和 GSD 是一对矛盾：FOV 大（覆盖广）与 GSD 小（精度高）不可兼得，除非传感器更大（更贵）或分辨率更高（更慢）。

35mm 等效焦距与裁切系数

同一个物理镜头装在不同尺寸传感器上，画面完全不同——小传感器只截取了镜头成像圈的中心部分，等效于用更长焦距的镜头拍。以全画幅（36×24mm）为基准，裁切系数 = 全画幅对角线 / 传感器对角线（简化用宽度比：$36/W_{sensor}$）。等效焦距：

$$ f_{\text{等效}}=f_{\text{物理}}\times\text{裁切系数} $$

传感器	宽度	裁切系数
全画幅	36mm	1.0×
APS-C	23.6mm	1.5×
4/3 英寸	17.3mm	2.1×
1 英寸	13.2mm	2.7×
1/2.3 英寸	6.17mm	5.8×

一个容易混淆的点：等效焦距相同不代表物理参数相同。三个都是"24mm 等效"（FOV 大致相同）的相机，物理焦距、像素尺寸、像素焦距都可以不同——全画幅像素最大（信噪比最好），小传感器物理焦距更短。FOV 几乎相同是因为 $W_{sensor}/f_{\text{物理}}=36/f_{\text{等效}}$ 与传感器尺寸无关。

计算机视觉本身不关心等效焦距——它关心投影几何，只需要标定直接给出的 fx、cx、cy。等效焦距、裁切系数这些摄影概念只在选型（按工作距离和 FOV 选镜头）、GSD 估算、与光学工程师沟通时有用。

完整数值链：一个反推实例

从标定输出 fx 反推所有物理参数（以 4/3 英寸传感器、24mm 等效焦距的相机为例）：

已知（标定输出）: fx = 3713 pixel,  分辨率 5280×3956
已知（规格）    : 传感器 4/3 英寸 = 17.3mm 宽,  等效焦距 24mm

像素尺寸:  d_pixel = 17.3 / 5280 = 0.00328 mm = 3.28μm
物理焦距:  f = fx × d_pixel = 3713 × 0.00328 = 12.18mm
裁切系数:  36 / 17.3 = 2.08×
等效焦距:  12.18 × 2.08 = 25.3mm ≈ 24mm ✓
FOV    :  2 × arctan(17.3 / (2×12.18)) = 70.7°
GSD@60m:  60000 / 3713 = 16.2 mm/pixel

小结

物理世界的 mm 到图像世界的 pixel，靠像素尺寸这个"汇率"串起来：物理焦距除以像素尺寸得像素焦距（标定输出），工作距离除以像素焦距得 GSD（每像素物理尺寸）。标定输出像素焦距而非物理焦距，是因为投影公式需要单位自洽，且张正友标定不需要传感器物理尺寸。传感器尺寸只在反推物理焦距、算 FOV、做镜头选型时才需要。FOV 与 GSD 是根本矛盾，测量精度 = GSD × 亚像素精度，这是评估任何视觉测量系统的第一步。

参考资料

Z. Zhang, “A Flexible New Technique for Camera Calibration,” IEEE PAMI, 2000.（张正友标定）
R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision.
相关笔记：相机成像几何、相机模型与畸变、PnP 算法