Data compression｜数据压缩｜媒体理论｜基础理论｜历史

本篇文章目录｜Table of Contents Hide

Data compression 数据压缩
无损Lossless
有损Lossy
理论Theory
机器学习Machine learning
数据差分Data differencing
应用Uses
1. 图像Image
声音Audio
延伸阅读Further Reading（更新中）

本文最后由 Demo Marco 更新于 2023-11-19. 如有资源已失效，请留言反馈，将会及时处理。 【推荐：不翻墙访问被墙网站方法 | 自用高速专线机场 | 高速CN2线路 | 高质量家宽住宅IP】

Data compression 数据压缩

在信息论中，数据压缩、源编码或比特率降低是使用比原始表示更少的比特来编码信息的过程。任何特定的压缩要么是有损的，要么是无损的。无损压缩通过识别和消除统计冗余来减少比特数。无损压缩不会丢失任何信息。有损压缩通过删除不必要的或不太重要的信息来减少比特。通常，执行数据压缩的设备称为编码器，执行相反过程（解压缩）的设备称为解码器。

减小数据文件大小的过程通常称为数据压缩。在数据传输的上下文中，它称为源编码：在存储或传输数据之前在数据源处完成编码。信源编码不应与用于错误检测和纠正的信道编码或线路编码（将数据映射到信号的方式）相混淆。

压缩很有用，因为它减少了存储和传输数据所需的资源。压缩和解压缩过程会消耗计算资源。数据压缩受到时空复杂性权衡的影响。例如，视频压缩方案可能需要昂贵的硬件来使视频解压缩得足够快以便在解压缩时观看视频，并且在观看视频之前完全解压缩视频的选项可能不方便或者需要额外的存储。数据压缩方案的设计涉及各种因素之间的权衡，包括压缩程度、引入的失真量（当使用有损数据压缩时）以及压缩和解压缩数据所需的计算资源。

无损Lossless

无损压缩Lossless compression

Lossless无损数据压缩算法通常利用统计冗余来表示数据而不丢失任何信息，因此该过程是可逆的。无损压缩是可能的，因为大多数现实世界的数据都表现出统计冗余。例如，图像可能具有在几个像素内不发生变化的颜色区域；代替编码“红色像素，红色像素，…”，数据可以被编码为“279个红色像素”。这是游程编码的基本示例；有许多方案可以通过消除冗余来减小文件大小。

Lempel-Ziv (LZ) 压缩方法是最流行的无损存储算法之一。 DEFLATE 是 LZ 的变体，针对解压缩速度和压缩比进行了优化，但压缩速度可能很慢。 20 世纪 80 年代中期，继 Terry Welch 的研究成果之后，Lempel-Ziv-Welch (LZW) 算法迅速成为大多数通用压缩系统的首选方法。 LZW 用于 GIF 图像、PKZIP 等程序以及调制解调器等硬件设备 LZ 方法使用基于表的压缩模型，其中表条目替换重复的数据字符串。对于大多数 LZ 方法，该表是根据输入中的早期数据动态生成的。该表本身通常是霍夫曼编码的。像这样的基于语法的代码可以非常有效地压缩高度重复的输入，例如相同或密切相关物种的生物数据集合、巨大的版本化文档集合、互联网档案等。基于语法的代码的基本任务是构建派生单个字符串的上下文无关语法。其他实用的语法压缩算法包括 Sequitur 和 Re-Pair。

最强大的现代无损压缩器使用概率模型，例如通过部分匹配进行预测。 Burrows–Wheeler 变换也可以被视为统计建模的间接形式。在直接使用概率建模的进一步改进中，统计估计可以与称为算术编码的算法耦合。算术编码是一种更现代的编码技术，它使用有限状态机的数学计算从一系列输入数据符号生成一串编码位。与其他技术（例如更知名的霍夫曼算法）相比，它可以实现卓越的压缩。它使用内部存储器状态来避免需要将各个输入符号执行一对一映射到使用整数位的不同表示，并且仅在对整个数据符号串进行编码后才清除内部存储器。算术编码特别适用于统计数据变化且与上下文相关的自适应数据压缩任务，因为它可以轻松地与输入数据概率分布的自适应模型耦合。使用算术编码的早期示例是 JPEG 图像编码标准的可选（但未广泛使用）功能。此后，它已应用于各种其他设计，包括用于视频编码的 H.263、H.264/MPEG-4 AVC 和 HEVC。
存档软件通常能够调整“字典大小”，其中较大的大小在压缩和解压缩期间需要更多的随机存取内存，但压缩效果更强，尤其是在文件内容中的重复模式时。

有损Lossy

有损压缩Lossy compression

20 世纪 80 年代末，数字图像变得更加普遍，无损图像压缩标准也出现了。 20世纪90年代初期，有损压缩方法开始广泛使用。在这些方案中，一些信息丢失是可以接受的，因为删除不重要的细节可以节省存储空间。在保留信息和减小大小之间存在相应的权衡。有损数据压缩方案是通过研究人们如何看待相关数据而设计的。例如，人眼对亮度的细微变化比对颜色的变化更敏感。 JPEG 图像压缩的部分工作原理是舍入非必要的信息位。许多流行的压缩格式都利用了这些感知差异，包括声音的心理声学以及图像和视频的心理视觉。

大多数形式的有损压缩都基于变换编码，尤其是离散余弦变换 (DCT)。它于 1972 年由 Nasir Ahmed 首次提出，随后他于 1973 年与 T. Natarajan 和 K. R. Rao 一起开发了一种工作算法，并于 1974 年 1 月推出。DCT 是使用最广泛的有损压缩方法，用于多媒体格式图像（如 JPEG 和 HEIF）、视频（如 MPEG、AVC 和 HEVC）和音频（如 MP3、AAC 和 Vorbis）。

有损图像压缩用于数码相机，以增加存储容量。同样，DVD、蓝光和流视频也使用有损视频编码格式。有损压缩广泛应用于视频中。

在有损音频压缩中，心理声学方法用于去除音频信号的不可听（或不太可听）分量。人类语音的压缩通常使用更专业的技术来执行。语音编码与通用音频压缩是一个独立的学科。语音编码用于互联网电话，例如，音频压缩用于 CD 翻录并由音频播放器解码。

理论Theory

信息论，更具体地说，香农源编码定理提供了压缩的理论基础；特定领域的理论包括无损压缩的算法信息理论和有损压缩的率失真理论。这些研究领域基本上是由克劳德·香农 (Claude Shannon) 创建的，他在 20 世纪 40 年代末和 50 年代初发表了有关该主题的基础论文。与压缩相关的其他主题包括编码理论和统计推断。

机器学习Machine learning

机器学习和压缩之间有着密切的联系。在给定序列整个历史的情况下预测序列后验概率的系统可用于最佳数据压缩（通过对输出分布使用算术编码）。相反，最佳压缩器可用于预测（通过在给定先前历史记录的情况下找到压缩效果最好的符号）。这种等价性已被用作使用数据压缩作为“通用智能”基准的理由。

另一种视图可以显示压缩算法隐式地将字符串映射到隐式特征空间向量，并且基于压缩的相似性度量计算这些特征空间内的相似性。对于每个压缩器 C(.)，我们定义一个关联的向量空间 ℵ，这样 C(.) 映射一个输入字符串 x，对应于向量范数 ||~x||。空间阻碍了对所有压缩算法底层的特征空间的详尽检查；相反，特征向量选择检查三种代表性的无损压缩方法：LZW、LZ77 和 PPM。

根据 AIXI 理论，即 Hutter 奖中更直接解释的联系，x 的最佳可能压缩是生成 x 的最小可能软件。例如，在该模型中，zip 文件的压缩大小包括 zip 文件和解压缩软件，因为如果没有两者，您就无法解压缩它，但可能有更小的组合形式。

AI 支持的音频/视频压缩软件的示例包括 VP9、NVIDIA Maxine、AIVC、AccMPEG。可以执行 AI 驱动的图像压缩的软件示例包括 OpenCV、TensorFlow、MATLAB 的图像处理工具箱 (IPT) 和高保真生成图像压缩。

数据差分Data differencing

数据差分Data differencing
数据压缩可以被视为数据差异的特例。数据差异包括在给定源和目标的情况下产生差异，以及在给定源和差异的情况下修补再现目标。由于数据压缩中没有单独的源和目标，因此可以将数据压缩视为与空源数据的数据差异，压缩文件对应于无差异。这与将绝对熵（对应于数据压缩）视为没有初始数据的相对熵（对应于数据差分）的特殊情况相同。

术语差分压缩用于强调数据的差分连接。

应用Uses

图像Image

图像压缩Image compression
熵编码起源于 20 世纪 40 年代，随着香农-法诺编码的引入，这是 1950 年开发的霍夫曼编码的基础。变换编码可以追溯到 20 世纪 60 年代末，随着 1968 年引入快速傅里叶变换 (FFT) 编码和 1969 年进行哈达玛变换。

一种重要的图像压缩技术是离散余弦变换 (DCT)，该技术于 20 世纪 70 年代初开发。 DCT 是 JPEG 的基础，JPEG 是一种有损压缩格式，由联合图像专家组 (JPEG) 于 1992 年推出。JPEG 大大减少了表示图像所需的数据量，但图像质量和图像质量的降低相对较小。已成为使用最广泛的图像文件格式。其高效的基于 DCT 的压缩算法在很大程度上导致了数字图像和数字照片的广泛传播。

Lempel–Ziv–Welch (LZW) 是 1984 年开发的无损压缩算法。它用于 1987 年推出的 GIF 格式。DEFLATE 是 1996 年指定的无损压缩算法，用于可移植网络图形 (PNG) 格式。

小波压缩，即小波在图像压缩中的应用，是在DCT编码发展之后开始的。 JPEG 2000标准于2000年推出。与原始JPEG格式使用的DCT算法相反，JPEG 2000改为使用离散小波变换(DWT)算法。 JPEG 2000 技术（包括 Motion JPEG 2000 扩展）于 2004 年被选为数字电影的视频编码标准。

声音Audio

另请参阅：音频编码格式和音频编解码器
音频数据压缩（不要与动态范围压缩混淆）有可能降低音频数据的传输带宽和存储要求。音频压缩算法在软件中作为音频编解码器实现。在有损和无损压缩中，都减少了信息冗余，使用编码、量化、DCT和线性预测等方法来减少用于表示未压缩数据的信息量。

有损音频压缩算法提供更高的压缩率，并用于许多音频应用程序，包括 Vorbis 和 MP3。这些算法几乎都依赖心理声学来消除或降低听得见的声音的保真度，从而减少存储或传输它们所需的空间。

音频质量损失与传输或存储大小之间可接受的权衡取决于应用程序。例如，一张 640 MB 光盘 (CD) 可容纳大约 1 小时的未压缩高保真音乐、不到 2 小时的无损压缩音乐、或 7 小时以中等比特率 MP3 格式压缩的音乐。数字录音机通常可以在 640 MB 的大小中存储大约 200 小时的清晰易懂的语音。

无损音频压缩产生数字数据的表示，可以将其解码为原始数据的精确数字副本。压缩率约为原始大小的 50-60%，这与通用无损数据压缩的压缩率类似。无损编解码器使用曲线拟合或线性预测作为估计信号的基础。描述估计以及估计与实际信号之间的差异的参数被单独编码。

存在多种无损音频压缩格式。请参阅无损编解码器列表以获取列表。有些格式与不同的系统相关联，例如超级音频 CD 中使用的直接流传输和 DVD 音频、杜比 TrueHD、蓝光和 HD DVD 中使用的 Meridian 无损打包。

某些音频文件格式结合了有损格式和无损校正；这允许剥离校正以轻松获得有损文件。此类格式包括 MPEG-4 SLS（可扩展至无损）、WavPack 和 OptimFROG DualStream。

当要通过进一步压缩或编辑来处理音频文件时，最好从未更改的原始文件（未压缩或无损压缩）开始工作。出于某种目的处理有损压缩文件所产生的最终结果通常不如从未压缩的原始文件创建相同的压缩文件。除了声音编辑或混合之外，无损音频压缩通常用于存档存储或作为主副本。

有损音频压缩Lossy audio compression

未压缩格式和几种有损格式的音频频谱图的比较。有损频谱图显示了较高频率的频带限制，这是与有损音频压缩相关的常见技术。
有损音频压缩有着广泛的应用。除了 MP3 播放器或计算机中文件播放的独立纯音频应用之外，数字压缩音频流还用于大多数视频 DVD、数字电视、互联网上的流媒体、卫星和有线广播，并且越来越多地用于地面广播。有损压缩通常通过基于心理声学优化丢弃不太重要的数据来实现比无损压缩高得多的压缩。

心理声学认识到并非音频流中的所有数据都能被人类听觉系统感知。大多数有损压缩通过首先识别感知上不相关的声音（即很难听到的声音）来减少冗余。典型的例子包括高频或与较大声音同时出现的声音。这些不相关的声音的编码精度会降低或根本不编码。

由于有损算法的性质，当文件被解压缩和重新压缩时，音频质量会遭受数字生成损失。这使得有损压缩不适合存储专业音频工程应用程序中的中间结果，例如声音编辑和多轨录音。然而，MP3 等有损格式非常受最终用户欢迎，因为文件大小可减少到原始大小的 5-20%，并且 1 MB 可以以足够的质量存储大约一分钟的音乐。

编码方式Coding methods

为了确定音频信号中的哪些信息与感知无关，大多数有损压缩算法使用诸如改进的离散余弦变换 (MDCT) 之类的变换将时域采样波形转换为变换域（通常是频域）。转换后，可以根据分量频率的可听程度对其进行优先级排序。频谱分量的可听度是使用听力的绝对阈值和同时掩蔽原理（其中一个信号被按频率分离的另一个信号掩蔽的现象）以及在某些情况下，时间掩蔽（其中一个信号被另一个信号掩蔽）原理来评估的被时间分开。等响度轮廓也可用于衡量分量的感知重要性。包含此类效应的人耳-大脑组合模型通常称为心理声学模型。

其他类型的有损压缩器，例如用于语音的线性预测编码（LPC），是基于源的编码器。 LPC 使用人类声道模型来分析语音，并推断模型用于随时产生语音的参数。这些变化的参数被传输或存储并用于驱动解码器中再现声音的另一个模型。

有损格式通常用于流音频或交互式通信的分发（例如在手机网络中）。在此类应用中，数据必须在数据流动时解压缩，而不是在整个数据流传输完毕之后。并非所有音频编解码器都可以用于流媒体应用程序。

延迟是由数据编码和解码方法引入的。一些编解码器会分析较长的数据段（称为帧）以优化效率，然后以一次需要较大数据段进行解码的方式对其进行编码。编码算法的固有延迟可能很关键；例如，当存在双向数据传输时，例如电话交谈，显着的延迟可能会严重降低感知质量。

与压缩速度（与算法所需的操作数量成正比）相反，这里的延迟是指在处理音频块之前必须分析的样本数量。在最小情况下，延迟为零样本（例如，如果编码器/解码器只是减少用于量化信号的位数）。 LPC 等时域算法通常也具有较低的延迟，因此它们在电话语音编码中很受欢迎。然而，在 MP3 等算法中，必须分析大量样本才能在频域中实现心理声学模型，并且延迟约为 23 ms。

语音编码Speech encoding

语音编码是音频数据压缩的一个重要类别。用于估计人耳可以听到的语音哪些方面的感知模型通常与用于音乐的感知模型有些不同。传达人声所需的频率范围通常比音乐所需的频率范围窄得多，而且声音通常也不那么复杂。结果，可以使用相对较低的比特率对语音进行高质量编码。

一般来说，这是通过两种方法的组合来完成的：

只编码可由单个人声发出的声音。
丢弃信号中更多的数据——只保留足以重建“可理解”声音的数据，而不是人类听觉的整个频率范围。
语音编码（以及一般的音频数据压缩）中最早使用的算法是 A 律算法和 μ 律算法。

历史History

Solidyne 922：世界上第一张用于 PC 的商用音频位压缩声卡，1990 年
早期的音频研究是在贝尔实验室进行的。 1950 年，C. Chapin Cutler 在那里申请了差分脉冲编码调制 (DPCM) 专利。 1973 年，P. Cummiskey、Nikil S. Jayant 和 James L. Flanagan 提出了自适应 DPCM (ADPCM)。

感知编码首先用于语音编码压缩，即线性预测编码（LPC）。 LPC 的最初概念可以追溯到 1966 年 Fumitada Itakura（名古屋大学）和 Shuzo Saito（日本电报电话公司）的工作。在 20 世纪 70 年代，贝尔实验室的 Bishnu S. Atal 和 Manfred R. Schroeder 开发了一种称为 LPC 的形式自适应预测编码 (APC) 是一种利用人耳掩蔽特性的感知编码算法，随后在 20 世纪 80 年代初出现了码激励线性预测 (CELP) 算法，该算法在当时取得了显着的压缩比。 MP3 和 AAC 等现代音频压缩格式使用感知编码。

离散余弦变换 (DCT) 由 Nasir Ahmed、T. Natarajan 和 K. R. Rao 于 1974 年开发，为 MP3、Dolby Digital 和 AAC 等现代音频压缩格式使用的改进离散余弦变换 (MDCT) 提供了基础。 MDCT 由 J. P. Princen、A. W. Johnson 和 A. B. Bradley 于 1987 年提出，此前 Princen 和 Bradley 于 1986 年提出了早期工作。
世界上第一个商业广播自动化音频压缩系统是由布宜诺斯艾利斯大学工程教授 Oscar Bonello 开发的。 1983年，利用1967年首次发表的关键频段掩蔽心理声学原理，他开始开发基于最近开发的IBM PC计算机的实际应用程序，并于1987年以Audicom的名义推出了广播自动化系统。 35年后，世界上几乎所有广播电台都在使用由多家公司制造的这项技术，因为发明者拒绝为其作品申请发明专利。他更喜欢宣布其为公共领域发布

1988 年 2 月，IEEE 通信选定领域杂志 (JSAC) 发表了有关各种音频编码系统的文献纲要。虽然有一些在此之前的论文，但该集合记录了各种已完成的工作音频编码器，几乎所有编码器都使用感知技术和某种频率分析和后端无噪声编码。

视频VIDEO

另请参阅：视频编码格式和视频编解码器
未压缩的视频需要非常高的数据速率。尽管无损视频压缩编解码器的压缩系数为 5 到 12，但典型的 H.264 有损压缩视频的压缩系数在 20 到 200 之间。

视频编码标准中使用的两种关键视频压缩技术是 DCT 和运动补偿 (MC)。大多数视频编码标准（例如 H.26x 和 MPEG 格式）通常使用运动补偿 DCT 视频编码（块运动补偿）。

大多数视频编解码器与音频压缩技术一起使用，以使用所谓的容器格式将单独但互补的数据流存储为一个组合包。

编码理论Encoding theory

视频数据可以表示为一系列静止图像帧。此类数据通常包含大量的空间和时间冗余。视频压缩算法试图减少冗余并更紧凑地存储信息。

大多数视频压缩格式和编解码器都利用空间和时间冗余（例如通过带有运动补偿的差分编码）。可以通过仅存储例如之间的差异来编码相似性。时间上相邻的帧（帧间编码）或空间上相邻的像素（帧内编码）。帧间压缩（时间增量编码）（重新）使用序列中一个或多个较早或较晚帧的数据来描述当前帧。另一方面，帧内编码仅使用当前帧内的数据，实际上是静态图像压缩。

摄像机和视频编辑中使用的帧内视频编码格式采用仅使用帧内预测的更简单的压缩。这简化了视频编辑软件，因为它可以防止压缩帧引用编辑器已删除的数据的情况。

通常，视频压缩另外采用有损压缩技术，例如量化，通过利用人类视觉的感知特征来减少源数据中与人类视觉感知（或多或少）无关的方面。例如，颜色的微小差异比亮度的变化更难以察觉。压缩算法可以以类似于 JPEG 图像压缩中使用的方式对这些相似区域的颜色进行平均。与所有有损压缩一样，视频质量和比特率、压缩和解压缩处理成本以及系统要求之间需要权衡。高度压缩的视频可能会出现可见的或分散注意力的伪像。

除了流行的基于 DCT 的变换格式之外的其他方法，例如分形压缩、匹配追踪和离散小波变换 (DWT) 的使用，已经成为一些研究的主题，但通常不在实际产品中使用。小波压缩用于静态图像编码器和视频编码器，无需运动补偿。由于最近的理论分析表明此类方法相对缺乏有效性，因此对分形压缩的兴趣似乎正在减弱。

帧间编码Inter-frame coding

更多信息：运动补偿
在帧间编码中，视频序列的各个帧从一帧到下一帧进行比较，视频压缩编解码器记录与参考帧的差异。如果帧包含没有任何内容移动的区域，系统可以简单地发出一个简短的命令，将前一帧的该部分复制到下一帧中。如果帧的各个部分以简单的方式移动，压缩器可以发出一个（稍长的）命令，告诉解压缩器移动、旋转、变亮或变暗副本。这个较长的命令仍然比帧内压缩生成的数据短得多。通常，编码器还将传输残留信号，该残留信号描述与参考图像的剩余更细微差异。使用熵编码，这些残留信号比完整信号具有更紧凑的表示。在运动较多的视频区域，压缩必须编码更多数据，以跟上正在变化的大量像素。通常在爆炸、火焰、动物群以及某些平移镜头中，高频细节会导致质量下降或可变比特率增加。

基于混合块的变换格式Hybrid block-based transform formats

典型视频编码器的处理阶段

如今，几乎所有常用的视频压缩方法（例如 ITU-T 或 ISO 批准的标准中的方法）都共享相同的基本架构，该架构可追溯到 1988 年由 ITU-T 标准化的 H.261。它们主要依赖于应用于相邻像素的矩形块的 DCT，以及使用运动向量的时间预测，以及现在的环路滤波步骤。

在预测阶段，应用了各种重复数据删除和差分编码技术，帮助解相关数据并基于已传输的数据描述新数据。

然后剩余像素数据的矩形块被变换到频域。在主要的有损处理阶段，频域数据被量化，以减少与人类视觉感知无关的信息。

在最后阶段，统计冗余很大程度上被熵编码器消除，熵编码器通常应用某种形式的算术编码。

在附加的环路滤波级中，可以将各种滤波器应用于重建的图像信号。通过在编码循环内部计算这些滤波器，它们可以帮助压缩，因为它们可以在参考材料用于预测过程之前应用于参考材料，并且可以使用原始信号来引导它们。最流行的例子是去块滤波器，它可以模糊变换块边界处量化不连续性造成的块伪影。

历史History

主条目：视频编码格式§历史
1967年，A.H. Robinson和C. Cherry提出了一种用于模拟电视信号传输的游程编码带宽压缩方案。 DCT 是现代视频压缩的基础，由 Nasir Ahmed、T. Natarajan 和 K. R. Rao 于 1974 年提出。

H.261 于 1988 年首次亮相，在商业上引入了视频压缩技术流行的基本架构。它是第一个基于 DCT 压缩的视频编码格式。 H.261 由多家公司开发，包括 Hitachi、PictureTel、NTT、BT 和 Toshiba。

用于编解码器的最流行的视频编码标准是 MPEG 标准。 MPEG-1 由电影专家组 (MPEG) 于 1991 年开发，旨在压缩 VHS 质量的视频。 1994 年，MPEG-2/H.262 取代了它，该标准由多家公司（主要是 Sony、Thomson 和 Mitsubishi Electric）开发。 MPEG-2 成为 DVD 和 SD 数字电视的标准视频格式。 1999 年，MPEG-4/H.263 紧随其后。它也是由许多公司开发的，主要是三菱电机、日立和松下。

H.264/MPEG-4 AVC 于 2003 年由多家组织开发，主要包括 Panasonic、Godo Kaisha IP Bridge 和 LG Electronics。 AVC 在商业上引入了现代上下文自适应二进制算术编码 (CABAC) 和上下文自适应可变长度编码 (CAVLC) 算法。 AVC 是蓝光光盘的主要视频编码标准，广泛应用于 YouTube、Netflix、Vimeo 和 iTunes Store 等视频共享网站和流媒体互联网服务、Adobe Flash Player 和 Microsoft Silverlight 等 Web 软件以及各种高清电视通过地面和卫星电视进行广播。

遗传学Genetics

遗传压缩算法是最新一代的无损算法，它使用传统压缩算法和适应特定数据类型的遗传算法来压缩数据（通常是核苷酸序列）。 2012年，约翰霍普金斯大学的一组科学家发表了一种不使用参考基因组进行压缩的遗传压缩算法。 HAPZIPPER 专为 HapMap 数据量身定制，可实现超过 20 倍的压缩（文件大小减少 95%），提供 2 至 4 倍更好的压缩效果，并且比领先的通用压缩实用程序的计算强度更低。为此，Chanda、Elhaik 和 Bader 引入了基于 MAF 的编码 (MAFE)，该编码通过按次要等位基因频率对 SNP 进行排序来减少数据集的异质性，从而使数据集均质化。 2009 年和 2013 年开发的其他算法（DNAZip 和 GenomeZip）的压缩率高达 1200 倍，允许将 60 亿个碱基对二倍体人类基因组存储在 2.5 兆字节中（相对于参考基因组或多个基因组的平均值）。有关遗传学/基因组数据压缩器的基准。

前景和当前未利用的潜力Outlook and currently unused potential

据估计，全球存储设备上存储的数据总量可以通过现有压缩算法进一步压缩，剩余平均因子为 4.5:1。据估计，2007年全世界存储信息的综合技术能力提供了1,300艾字节的硬件数字，但是当相应的内容被最佳压缩时，这仅代表295艾字节的香农信息。