刚出的deepseek-OCR的contextsopticalcompres

刚出的deepseek-OCR的contexts optical compression（上下文光学压缩），思想很震撼，效果也很好

文章介绍见图，我说下自己的理解。我们都压缩过文件，但一般是无损压缩，压缩比例不大，是死的算法，没有对文字内容的理解。压缩比例大的是图像，但原理是jpeg算法这些，有损失，清晰变模糊，也是死算法，对图像内容没有理解。

而我们人类看了一个长文，或一个A4纸上的文章加公式，会有模糊的记忆，其实是在看图像。这个记忆占用的资源很少，没办法还原整个文字与纸上的内容。但是再看会觉得看过，时间长了会忘。这就是有损的对文字的压缩，而且借助了图像形式的文字。

Deepseek-OCR就是把这个过程的技术体系建立起来了。先把长文变成图片，或者原本就是1024*1024的文字图片。对这种图片输入，Deepseek-OCR带着人类对文字的理解，建立了一个encoder编码器组件，最终输出了很少一些token。这些token可以再配套的decoder解码器组件，还原出文字序列。

核心精华是，这么做了以后，用100个token可以还原出1000个原文，正确率高达97%！也就是10倍压缩几乎不错。这只能是因为对人类全部文本内容（与这个被压缩文件无关的都在内）有深刻理解，靠字符串重复模式之类的低级技术绝对做不到。

也就是借助对人类文字体系的理解，以及光学图像作为媒介，实现了不可思议的高度压缩。