图像

Image

计算机视觉中,图像是现实世界场景的二维(或多维)表示,由离散的像素 (Pixel) 组成。每个像素都包含颜色或强度信息,共同构成了我们所看到的视觉内容。图像是计算机视觉系统最基础的输入数据。

图像的表示

图像在计算机中通常被表示为一个多维数组或矩阵,其维度取决于图像的类型。

  1. 像素 (Pixel):
    • 图像的最小组成单元。每个像素代表图像中的一个点,并存储该点的颜色或强度信息。
    • 像素值通常是整数,范围取决于颜色深度(如0-255)。
  2. 分辨率 (Resolution):
    • 图像的宽度和高度,通常以像素为单位表示(如1920x1080)。
    • 分辨率越高,图像包含的细节越多,文件越大。
  3. 颜色深度 (Color Depth):
    • 每个像素用于表示颜色的位数。位数越多,能表示的颜色种类越多,颜色过渡越平滑。
    • 例如,8位灰度图每个像素有256个灰度级;24位RGB彩色图每个像素有1677万种颜色。
  4. 通道 (Channels):
    • 图像的颜色信息通常通过多个通道来表示。
    • 灰度图 (Grayscale Image): 只有一个通道,每个像素值代表亮度信息(通常0代表黑色,255代表白色)。
    • RGB图 (Red, Green, Blue Image): 有三个通道,分别代表红、绿、蓝三种颜色分量。通过这三种颜色的不同组合,可以表示出几乎所有的可见光颜色。
    • RGBA图: 在RGB基础上增加一个Alpha通道,用于表示透明度。

图像的格式

1. APNG

APNGAnimated Portable Network Graphics 的缩写,由 Mozilla 于 2004 年提出,旨在为 PNG 格式添加动画支持,同时保持对非动画 PNG 的向后兼容。

核心特性:

  1. 动画支持:支持多帧动画,包括帧速率、循环次数等控制。
  2. 无损压缩:基于 PNG 的压缩算法,保持图像质量。
  3. 透明度:支持完整的 Alpha 通道透明度(逐像素透明)。
  4. 向后兼容:在不支持 APNG 的浏览器或软件中,默认显示第一帧静态图像。
  5. 色彩深度:最高支持 24 位真彩色加 8 位 Alpha 通道。

何时选择 APNG?

2. WebP

WebP 由 Google 于 2010 年推出,基于 VP8 视频编码中的关键技术,旨在提供更优的压缩效率。
核心特性:

  1. 静态与动态:支持静态图像和动画。
  2. 高压缩率
    • 有损压缩:比 JPEG 小约 25-35%,视觉质量相近。
    • 无损压缩:比 PNG 小约 26%。
  3. 透明度:支持 Alpha 通道(无损或有损)。
  4. 动图支持:支持动画,并可混合有损/无损帧。

何时选择 WebP?

详细对比表

对于动画

总体趋势:WebP 因其出色的压缩率、功能全面和日益普及的支持,已成为 Web 图像事实上的现代标准。APNG 则在特定的高质量无损动画领域占有一席之地。在部署时,始终利用 <picture> 元素或内容协商(通过 CDN)来确保对旧浏览器的兼容性。

特性维度 APNG WebP GIF PNG JPEG
主要用途 高质量动画,需要透明度的动画 网页图像,追求高压缩率 简单动画,表情包 无损静态图像,需要透明度 有损静态照片
压缩类型 无损压缩 有损/无损可选 无损压缩(索引色) 无损压缩 有损压缩
色彩支持 24 位真彩 + 8 位 Alpha(千万色+透明) 24 位真彩 + 8 位 Alpha 索引色(最多 256 色) 24 位真彩 + 8 位 Alpha 24 位真彩(无透明度)
透明度 ✅ 支持完整 Alpha 通道透明度 ✅ 支持完整 Alpha 通道(有损/无损) ✅ 仅支持 1 位布尔透明(边缘毛糙) ✅ 支持完整 Alpha 通道 ❌ 不支持
动画支持 ✅ 是 ✅ 是 ✅ 是 ❌ 否 ❌ 否
文件大小(动画) 通常小于 GIF,但大于有损 WebP 显著最小(尤其有损压缩时) 最大(效率最低) 不适用 不适用
文件大小(静态) 单帧同 PNG 有损: 比 JPEG 小 25-35%
无损: 比 PNG 小 26%
通常最大 较大(无损) 较小(有损)
浏览器支持 ✅ 除 Safari 外的主流浏览器均支持 近乎全平台支持(Safari 14+ 已支持) ✅ 全支持 ✅ 全支持 ✅ 全支持
向后兼容性 ✅ 极佳(在非支持环境显示静态第一帧 PNG) ❌ 较差(不支持则无法显示) ✅ 极佳 ✅ 极佳 ✅ 极佳
专利与开源 开放标准,无专利限制 开源,免费使用(Google 推广) 开放 开放 开放

图像处理基础

图像处理是计算机视觉的基础,涉及对图像进行各种操作以改善其质量、提取信息或准备用于进一步分析。

图像相关工具