刚出的deepseek-OCR的contextsopticalcompres

烨华聊商业 2025-10-21 08:56:52

刚出的deepseek-OCR的contexts optical compression(上下文光学压缩),思想很震撼,效果也很好

文章介绍见图,我说下自己的理解。我们都压缩过文件,但一般是无损压缩,压缩比例不大,是死的算法,没有对文字内容的理解。压缩比例大的是图像,但原理是jpeg算法这些,有损失,清晰变模糊,也是死算法,对图像内容没有理解。

而我们人类看了一个长文,或一个A4纸上的文章加公式,会有模糊的记忆,其实是在看图像。这个记忆占用的资源很少,没办法还原整个文字与纸上的内容。但是再看会觉得看过,时间长了会忘。这就是有损的对文字的压缩,而且借助了图像形式的文字。

Deepseek-OCR就是把这个过程的技术体系建立起来了。先把长文变成图片,或者原本就是1024*1024的文字图片。对这种图片输入,Deepseek-OCR带着人类对文字的理解,建立了一个encoder编码器组件,最终输出了很少一些token。这些token可以再配套的decoder解码器组件,还原出文字序列。

核心精华是,这么做了以后,用100个token可以还原出1000个原文,正确率高达97%!也就是10倍压缩几乎不错。这只能是因为对人类全部文本内容(与这个被压缩文件无关的都在内)有深刻理解,靠字符串重复模式之类的低级技术绝对做不到。

也就是借助对人类文字体系的理解,以及光学图像作为媒介,实现了不可思议的高度压缩。

0 阅读:30
烨华聊商业

烨华聊商业

感谢大家的关注