MK体育KV cache 越来越大-MK体育- MK体育官方网站- MK SPORTS

发布日期：2026-04-18 10:41 点击次数：144

当 DeepSeek 激励业界回荡时，太初智能创举东说念主彭博正专注于一个更庞杂的愿景。

在他看来，某个模子的爆火只是 AI 进化的一个普通节点，着实的手艺改革才刚刚开动。

手脚 RWKV 架构真的立者，他的看法也曾投向畴昔的芯片底层改革。

目前在产业界，已有国外独角兽企业开动将 RWKV 应用于买卖施行。

这个故事要从 Transformer 提及，一个正在被不休挑战的 AI 铁王座……

以下为量子位与太初智能彭博的对话实录整理：

本对谈主体发生于 2025 年 1 月 R1 发布前，星标部分为 2025 年 2 月补充。

△彭博的 github 主页重写游戏规则

量子位：能不成先给寰球先容一下 RWKV 是一个什么样的模子？

太初智能彭博：要了解 RWKV，得先从 Transformer 提及。目前主流大模子包括 GPT、Llama 这些，都是用的 Transformer 架构。

Transformer 包含两个主要部分：随序列长度加多而变慢的 attention 机制，和速率显存恒定的 FFN 全衔接网罗。

Transformer 的 attention 机制就像考试时候开卷查尊府，每写一个字都要翻一遍书，KV cache 越来越大，遵守天然就上不去。这种款式确乎符合作念翻译这类需要明确对应的任务。

可是RWKV 的念念路就更像面试了——模子不成松开重读前文——必须用一个固定大小的 state 来存储和更新信息。面试的款式难度更大，但它迫使模子更去着实协调，而不是毛糙地查找匹配。

△RWKV-7 模子架构图

量子位：Transformer 架构大略取得行业主流地位，这内部有多大未必性和势必性？

太初智能彭博：是势必的。

你看 Transformer 一开动是假想来作念翻译的，这个念念路挺可以。它在生成内容的时候不休去前文找需要的信息，这很符合翻译，也包括写著作、写代码这些需要险阻文关联的任务。

但问题也很清晰。前文越来越长，每生成一个 token 都要看一遍，速率和内存粉碎确定会越来越大。

你看咱们东说念主类，活了几十年，话说多久都不会越来越慢，为什么？因为咱们会自动筛选热切信息，不会所有这个词事都记取。

咱们会把必须记住的事情记在外部驰念，举例记事本，手机电脑，等等。

△Transformer 模子架构图

量子位：有不雅点认为 Transformer 的高性能恰是源于其注眼力机制，你如何看待这一说法？

太初智能彭博：这样说不太准确。Transformer 确乎在作念那些需要明确对应关系的机械性的任务时推崇可以。

可是 RWKV 通过 RL 一样能作念到这些，它也可以学会使用外部驰念，学会在需要的时候再行稽查前文。

从前寰球认为 Transformer 作念不了 System 2，目前 RL+CoT 就推翻了这种说法。关于 RWKV 也会发生雷同的事情。

量子位：Transformer 的发展历程中，从最初的论文到 GPT 系列的到手，有哪些关节节点？

太初智能彭博：这是个一步步发展的历程。从最开动作念机器翻译，到 BERT 的突破，再到 GPT 系列，其后还有 ViT 等等多模态应用，每一步都在彭胀界限。

挑升义的是，在 GPT-3 出来的时候，寰球的反映不浓烈，即使它也曾领有了目前的好多才智，举例从提醒生成网页的才智。

GPT-2 有东说念主关注了，GPT-3 更多东说念主关注了，但主要照旧在学术圈子里。直到 ChatGPT 出来，让普通东说念主着实体验到了这个手艺，才算是着实爆发了。

目前 DeepSeek R1 的出圈，亦然雷同的道理。*

△DeepSeek 登顶好意思区苹果应用商店

量子位：下一个取代 Transformer 的架构是否需要履历雷同的发展旅途？

太初智能彭博：完全不需要。目前可以走个更获胜的旅途——把各式模子的 attention 获胜换成 RWKV，尤其是 RWKV-7，成果就能更好，其他的都无须动。

况且 RWKV-7 在教师上杰出牢固，这亦然个上风。咱们作念实验发现，其他新架构比如 Mamba 普通会出现 spike，但 RWKV-7 一直杰出稳。

举例，有团队把 Qwen 2.5 的 attention 转移到 RWKV 架构，教师一天就能达到 70% 的成果，若是多练几天能到 80%，再练会更好，这个遵守是很高的。

遵守与成果的解围

量子位：RWKV 的中枢上风在哪些方面？

太初智能彭博：从 RWKV-7 开动，咱们不仅是遵守更高，成果也更好。存在两类问题是更符合 RWKV 去惩处而 Transformer 不符合惩处的：

第一是state tracking，即是情状追踪。举例棋战需要捏续对棋盘情状进行追踪，用 Transformer 需要堆多层才能惩处，但在表面上可以说明 RWKV 一层就够了（天然，用多层仍然会遵守更好，这里相比的是模子每一层的抒发力）。

第二是永远 CoT，即是念念维链推理。RWKV 可以保捏固定的显存和速率，作念超长推理。比如咱们社区最近有东说念主用 RWKV 小模子作念 400 万 token 的 CoT 惩处了"全宇宙最难的数独"，这个量级用 Transformer 作念就遵守低。

△RWKV 数独官网页面

用荒芜 attention 可以（举例最近的 NSA，MoBA），不外，荒芜 attention 进一步进化，即是 RWKV 这种道路，最终会同归殊涂。*

量子位：靠近低本钱、高性能和并行计较的"不可能三角"，RWKV 如何突破？

太初智能彭博：这个确乎挺难的，但不是完全不成并存。你看东说念主类即是一个很好的例子，咱们既低本钱又高性能，咱们的教师也很高效（但注释，和深度学习的教师门径不同，这是很玄妙的）。

目前机器东说念主替代东说念主的程度为什么这样慢？即是因为东说念主太低廉了，若是东说念主很贵的话，寰球早就都用机器东说念主了。

咱们只可冉冉突破这个不可能三角，因为它确乎有道理——你不成什么都要。关于复杂模子，并行化有难度，这是 RWKV 每一代都要去惩处的中枢问题。

假想每一代 RWKV 是很毛糙的，奈何让它高效并行化、高效教师、高效推理才是着实的难点。

咱们可以把这个三角作念得越来越大，把三个边都同期尽量撑一撑。杰出是以后配合模拟计较，量子计较，照旧可以作念一些奇妙的事情。

△大模子"不可能三角"

量子位：并行化上的挑战会影响 RWKV 的范围化教师吗？

太初智能彭博：RWKV-7 的 scaling 杰出好。因为一个很清晰的平正是，模子越来越大的时候，它的 state 也会越来越大，那么使命驰念力会越来越强。

从前寰球普通说 RWKV 的驰念力不好，但 7 代清晰好好多。咱们作念了大海捞针的测试，用一个 0.1B 的杰出小的模子，在 4K 的险阻文教师，它作念 16K 的大海捞针也可以竣工捞针。

△RWKV-7-World 0.1B（L12-D768）无需微调竣工通过 ctx 16k 的大海捞针

量子位：在进步并行性方面，RWKV 作念了哪些使命？

太初智能彭博：这个在手艺上会越来越复杂，咱们一直会写 CUDA 代码来惩处。

咱们跟国内所有这个词主要 AI 芯片公司都有群，他们都在密切关注和教师 RWKV 的推理和教师，因为它代表下一代模子的发展地方。

瞻望 25 年下半年会有一种存内计较的新芯片，杰出符合跑 RWKV 这种模子。到时候寰球会看到，这对 RWKV 的施行会很成心。

从实验室到产业

量子位：手脚非架构师，咱们应该奈何判断一个创新架构的发展后劲，有哪些方针是最关节的？

太初智能彭博：关于大多量东说念主，最好的方针仍然是看大厂用无须。普通用户不慈祥架构，只慈祥成果。着实能评判的是模子公司。

表面上模子的抒发才智是可以从数学和表面去评估，但表面和本色老是有差距。AI 发展太快太复杂了，表面赓续跟不上本色情况。

量子位：买卖考证会是估量的最热切范例吗？

太初智能彭博：这确乎是最本色、最有劝服力的范例，因为这个寰球不得不信。比如说若是大买卖公司用 RWKV，那即是一个相等本色的根据，我就无须去劝服各方了。

是以我也不但愿去劝服东说念主，因为劝服东说念主其实是很浪费哀吊的事情，寰球最终照旧要看本色的事情。

其收场在 AI 的本钱照旧太高，需要再降 10000 倍，这需要好多年。部署手艺的优化、本钱的裁减，这才是着实的壁垒。

举例 DeepSeek 在 R1 之前，到 V3 都只须少数前沿商讨者关注，直到 R1 才出圈火爆。况且咱们目前也看到，各家都上线了 R1，然后即是比拼部署和推理本钱。*

量子位：在强大创新模子中，RWKV 的买卖化身位如何？

太初智能彭博：在新架构方面，咱们一直有当先上风，这来自咱们捏续迭代的才智。

好多团队会基于现存手艺作念一些缝补缀补，但着实能捏续上前鼓动捏续作念好多代架构的团队，咱们似乎是全球惟一的。

你看目前的发展趋势，Mamba 2 也曾和 RWKV-6 相等接近了，若是有 Mamba 3 很可能会和 RWKV-7 简直一模一样。

不光是 Mamba，还有一些其他包括国外的新使命都执政着 RWKV 的地方走。举例最新的 Titans 雷同 RWKV-7。

这是因为什么？因为类 RWKV 的手艺道路也曾变成了共鸣。寰球用不同的名字，但都在磨灭条路上走。

△非 transformer 创新架构盘货

量子位：目前 RWKV 有什么本色的买卖应用案例吗？

太初智能彭博：咱们了解到有个国外独角兽公司在用 RWKV 作念线上部署的模子，他们 CTO 前不久专门来香港找我，但他们目前不想公开这事。

因为他们认为这是他们的独到上风，因为目前好多东说念主还没意志到 RWKV 有多好用。他们用了之后发现遵守进步很清晰，成果也完全中意他们的需求，买卖上就相等祈望。

量子位：有不雅点认为不同模子各有上风，比如云表符合 Transformer，端侧符合 RWKV，你奈何看？

太初智能彭博：其实各式场景都更符合 RWKV。咱们目前主要作念端侧小模子，只是因为教师本钱低。

但寰球也曾找到门径，可以把 Transformer 模子快速转移到 RWKV 这种新架构上，只需要很少的教师就能适配。是以这不是架构的局限，而是咱们在不同发展阶段作念不同的事情。

△RWKV 社区数据

量子位：太初智能在 AI 行业的生态定位是什么？

太初智能彭博：其实，咱们的定位是架构公司，咱们不是普通的模子公司，天然目前咱们会教师一些模子，但只是为了说明咱们架构的才智。

咱们的上游是芯片，卑劣是模子公司。咱们和模子公司不是一个生态位，是以咱们会手艺维持模子公司用 RWKV 架构，也会共享咱们的教师警戒。

咱们目前只须十几个全职成员，跟着咱们越来越大，咱们才会冉冉作念各个方面，包括 2B 和 2C 应用等等。

咱们有点像 CPU 的 RISC-V 指示集，或者比如说 5G、6G 的范例。就等于说咱们作念 5G、6G、7G 一代代作念下去，但咱们我方不一定要去出产具体的通讯家具。

为什么目前主要教师端侧小模子？一个是咱们但愿不要浪用钱，因为 RWKV 架构还在不休校正，另一个是这种事让大厂作念最合适，他们有更优质的数据和富饶预算。

量子位：目前这个手艺道路的考证情况如何？

太初智能彭博：目前也曾有 50 多篇第三方论文考证了 RWKV 的成果，在咱们官网都有，袒护了话语、图像、视频、动画、3D、语音、时代序列各式模态。

举例，腾讯优图就用 RWKV 作念了文生 3D 多东说念主动画，蚂蚁用它作念文本压缩。只须你目前用的模子里有 attention，换成 RWKV 都能进步遵守成果，咱们也提供手艺维持。

△RWKV 在多种场景 50 余篇论文

量子位：Deepseek 的爆火对 RWKV 的发展旅途会产生若何的影响？

太初智能彭博：其实不会有影响，Deepseek-R1 是模子，咱们是架构。他们的爆火一方面是底层收场的优化，一方面是数据和 RL 对都作念得好。

他们用 MoE 裁减了教师本钱和部署的算力需求，让门槛更低了，本年各家都会有当先 R1 的模子，任何公司都莫得壁垒，不需要据说任何公司。

量子位：若是大厂强大遴荐 Deepseek，他们还会有能源尝试新的模子架构吗？

太初智能彭博：我举个例子，其实 MoE 目前也曾落伍了，有更先进的手艺，举例 Meta 的 Memory+，字节的 UltraMem，即是很好的地方，寰球很快就会连续往前走。

认为 DeepSeek 会一家通吃的想法，就像从前看到 ChatGPT 出来就认为应该一齐东说念主战胜一样，本色上 AI 直到目前仍然还在相等低级的阶段，谈这些还太早太早了。

量子位：Deepseek 通过市集考证获取了生态上风，这会变成某种护城河吗？

太初智能彭博：开源模子是确定赢的，但不成有速胜速败的想法，不夸张地说，关于 AI 的探索，还有至少几十年的路要走。

让绝大多量东说念主闲隙不需要很久，但这不代表所有这个词事情都作念已矣，咱们应该有更高的追求。

之前 Llama 出来时，寰球也会问是否可以变成生态壁垒，但其实这里根柢不存在用户衷心度。

目前寰球从其它模子切到 R1，其它模子有壁垒吗？以后寰球从 R1 切到其它模子，R1 会有壁垒吗？

量子位：你认为大模子创新的下一个战场在那里？

太初智能彭博：在芯片层面。2025 年下半年会有新一代的存内计较芯片出现，这对 RWKV 的施行会很成心。

咱们也曾和国内所有这个词主要芯片公司设备了关联，他们都在密切关注和教师 RWKV，因为寰球能看出来这是下一代模子的发展地方。

△存内计较芯片表现意象下一个拐点

量子位：AI 的着实智能是什么，你奈何看？

太初智能彭博：着实的智能是能冲破老例，找到完全超出现存念念维的，前东说念主想不到的惩处决议。目前的 AI 模子与东说念主类的创造才智还有很大差距。

况且东说念主类学习遵守杰出高，看到的灵验数据比大模子少得多，但咱们能很快学会，并变成着实的协调。

说真话，流浪小动物适应环境的生计才智体现出的智能都比目前的 AI 模子要更多。

量子位：你曾说过"着实的智能一定是冲破老例的"，这个判断从何而来？

太初智能彭博：举个例子，天然目前看上去咱们不可能以前赢棋战 AI，但仍然可以构造出一些棋战场所让东说念主类能赢最强的 AI。

为什么？因为有些特等场所可以转移成数学问题来解，但隧说念的棋战 AI 意志不到这极少。

东说念主类的一个杰出之处就在于能跳出既定的念念维框架，这是目前的 AI 系统还作念不到的。

量子位：最近 DeepSeek 和 GPT 的棋战对战引起了好多关注，DeepSeek 用了一些规则除外带有愚弄性的技巧到手，让好多东说念主认为相等贤慧，这更接近冲破老例了吗？

太初智能彭博：这仍然是从东说念主类常识里学的，通过 RL 可以进一步找到令东说念主目前一亮的东说念主类没想过的门径，但照旧在既有规则内。

所谓冲破老例，是在咱们之前不知说念有路的地方，走出新的路。

△DeepSeek 执黑，"策反"对方棋子

量子位：下一代超等智能会是什么款式？

太初智能彭博：这需要冉冉完全突破现存框架。举例，我策画的 RWKV 后续十几代迭代中，包含了如何收场着实有生命、有灵性的系统。

这不仅关乎智能，也关乎某些更热切的问题。单纯追求所谓智能，但本色可能是偏颇的智能，而不有计划其他身分是短视的。

量子位：Transformer 的主流地位是否可复制？会不会不再有下一个一家通吃的完全主流模子了？

太初智能彭博：一直会有更好的架构出现。咱们可以想想，东说念主类星际旅行的时候，难说念还在用 Transformer 吗？不可能，确定会有新架构。

在这个历程中，某些代的 RWKV 成为完全主流完全可能。我也曾策画了 RWKV 十几代的迭代道路，我关注长线。

往后的发展，还波及新硬件。需要变成轮回，假想新硬件的时候，可以有计划新架构的本性；假想新架构时，也会有计划硬件的本性。这种相互促进的关系很热切。

正确的方针是，寻求最符合咱们这个天地物理定律的架构。

量子位：目前越来越多模子都在走向搀和道路，你如何看待这个趋势？

太初智能彭博：最近 MiniMax 教师了搀和模子，他们之前有个 PPT 算计其实 GPT-4o 可能也曾是搀和模子，但 OpenAI 不会公布这些信息，是以咱们无法知说念。

△MiniMax-01 手艺文档

量子位：搀和架构会是目前更好的谜底吗？

太初智能彭博：这个有点像汽车，RWKV 7 就像新能源车，Transformer 相等于燃油车。目前燃油车渐渐被淘汰，搀和能源车不少，纯电动车也不少，我认为后续开首会相比像这种情况。

永远来看搀和确定只是过渡，畴昔一定是纯电动，或者说纯的新能源，不一定是电动，可能畴昔还有更先进的能源。因为东说念主类是不休在发展的。

量子位：为什么隧说念 attention-free 架构就一定更先进？

太初智能彭博：因为 softmax attention 自己即是一个很有局限的假想，不单是是遵守的松手，还包括成果和抒发力的松手，这些都在数学上可以说明。

在我看来，一种好的决议，是用 RWKV 手脚大脑，手脚驱动，然后调用外部驰念，调用外部用具，这些都可以用 RL 自动学会，且能收场竣工的无穷驰念。

如前所述，从前寰球认为 transformer 作念不了 System 2，目前就被 CoT+RL 惩处了。RWKV 的情况也会是如斯。

智库在研｜大模子创新架构专题商讨叙述

模子层创新正掀翻东说念主工智能深度变革，咱们深信transformer 架构创新校正及非 transformer 架构创新探索是通往 AGI 的热切旅途，本次对话是专题系列对话的第一篇，量子位智库竭诚邀请与行业内其他大模子架构创新者设备衔接，共享前沿领悟及最好施行，配合请关联：

MK体育

MK体育KV cache 越来越大-MK体育- MK体育官方网站- MK SPORTS

热点资讯

相关资讯