中美 AI 竞争的差距到底有多大?

上周五因为有 AI 新品发布的原因,我写了一篇中美 AI 竞争格局的短文,分别发了公众号和 X,收到了大量的反馈。看了这些评论,我感觉自己的理解确实是不全面的。事实上我们根本没法从一个维度去定义这件事。

比如我和一些做基模的专业同学沟通,他们的判断——编程模型差 5%-10%,整体上可能是 3 – 6 个月的差距——这些就是基于他们自己的专业判断,有基线有标准,甚至放到国际评测榜单上,也是类似的结论。这是个专业判断。甚至在 OCR 开源模型这个领域,PaddleOCR-VL-1.5 就是做到了 SOTA。

但涉及到个人,感受就千差万别了。有用户说,中国差在了硬件上,有的说算力不够,模型也不可能好到哪儿去。有的普通用户日常让 AI 助手解决生活里的一些问题,中文的豆包、千问、DeepSeek 等模型,就是比 ChatGPT 和 Gemini 回答的好啊。

即便是同一个领域——比如编程——体感也不一样。

有的用户用来做补全和完成一些简单的模版任务,MiniMax M2.1 就是很好啊,干得漂亮还便宜。有的用户呢,开多个 Agent 做多任务并行,完成复杂的编程实践,这时候 Claude 的优势就发挥出来了,所以他们会认为 CC 比国内模型强大很多。

现在看起来,这是个很难定义的衡量标准。就目前的大趋势来说,基模能力整体上中国落后美国,这是没问题的。落后几个月,不好说,但不会超过一年,甚至中国有些领域是领先的,比如开源模型。2026 如果中国解决了一部分算力问题,我预测这个差距会进一步缩小,因为 Scaling Law 的效果已经越来越不明显了,预训练和强化训练也开始呈现疲态,AI 厂商已经开始追逐第三范式 Online Learning 了。这对追赶者来说,是好事。

还有一点无法忽视,目前的模型越来越强,99% 的用户根本没办法压榨大模型的能力极限。也就是说,模型能力花了 100 倍的功夫,增加了 5% 的能力,大部分用户都感知不到。

比如周五发布的 Opus 4.6 确实很强,但是有多强?目前我试了几个项目,感觉前一代也能解决啊。想榨干模型的能力,几乎是不可能的。甚至想找一些前一代模型搞不定、但新模型却能轻松搞定的案例都很难了。

目前关于新模型(Opus 4.6)能力最有说服力的故事,是 Anthropic 的 Nicholas Carlini 谈 Opus 4.6 的那篇:用一支并行协作的 Claude 团队来构建一个 C 编译器——这可以看作是 Anthropic 团队在自动化软件开发方向的一次系统性实践。

Building a C compiler with a team of parallel Claudes

这是一次用多实例 Claude 自动协作、从零构建可编译 Linux 内核的 C 编译器的实验,我觉得 99% 的工程师别说完成实验了,设计实验都困难。

这个事有多复杂呢?构建一个 agent teams,让多个 Claude 实例在几乎没有人类干预下,在同一个代码仓库长期并行地协作开发。作者用 16 个 Claude,在将近 2000 次 Claude Code 会话和约 2 万美元 API 花费下,从零写出了一个基于 Rust 的 C 编译器,可以在 x86、ARM、RISC‑V 上编译 Linux 6.9,还能编译 QEMU、FFmpeg、SQLite、Postgres、Redis,并在大多数编译器测试套件上达到 99% 通过率。

首先,用一个“无限循环”脚本让单个 Claude 永不停机地反复拉起自己,每次读同一套 agent prompt,持续拆解任务、写代码、再选下一步要做什么。然后扩展成并行架构:多个 Docker 容器各自克隆同一上游仓库,用简单的“写锁文件 + git 同步”避免多个 agent 抢同一任务,通过频繁 pull/merge 解决冲突,没有额外的调度/编排 agent,每个 Claude 自主决定下一步要做啥。随着项目扩展,作者逐渐引入了更完备的测试与 CI,让 Claude 依靠高质量测试和日志来自我定位问题。

我的理解也就能到这里了。

这个实验充分展示了 Opus 4.6 能力。之前的版本勉强能做出能跑小 demo 的编译器,但不能编译大型项目;Opus 4.6 在这个 scaffold 下第一次跨过了“能编译真实世界大型项目”的门槛。

不过编译器依然有硬伤:缺少 16 位 x86 代码生成器,只能在引导阶段依赖 GCC;汇编器和链接器还不稳定;对某些项目仍编译失败;生成的代码性能显著差于 GCC 即便后者不开优化;Rust 代码质量远逊于顶级人类工程师,而且一旦尝试继续修 bug 或加特性,很容易破坏已有功能。

这是下一代 Opus 要解决的问题。事实上每一代模型都在拓展与开发者协作的方式:从 IDE 补全,到根据注释写函数,再到 Claude Code 这种结对编程型 agent,如今 agent teams 展示了“全自动完成复杂项目”的可能。

这让人们看到了规模性使用 Agent 的可能性,但目前这种可能性也只有顶级的 AI 工程师能够触碰,大部分工程师都在做智能代码补全,根据注释模板生成代码,处理文件,做单一 Agent 任务等等。所以体感也是完全不同的。

那么类似 LMArena 的评测榜单有没有价值呢?肯定有啊,比如最近中国模型在编程领域的成绩就很不错。前五名是美国模型,后五是中国模型。有人说,那不是可以刷榜吗,针对性训练等等。这个其实越来越难了,因为 LMArena 也在进行,不仅仅有机器评测,有升级的训练场,有案例测试,还有人工投票,等等。

你看文本大模型的能力,目前前十就剩下一家中国模型,还是百度的 ERNIE-5.0,其他家怎么不刷上去呢?

另外中美的商业模式也不一样,美国 AI 公司对 C 端卖订阅费用,对 B 端卖 API 赚钱,非常明确和简单,现在 OpenAI 已经开始探索第三种方式——广告业务了。

国内呢,就复杂得多,豆包是国内最大用户量的 AI 产品吧,普惠,一分钱不收。千问和元宝为了追赶豆包,还得补贴用户红包和奶茶,抢占市场。类似火山引擎和百度 AI 云这样的toB 服务,倒是一样的,企业想用 AI,还是买 API 和服务比较稳妥。

另外,为什么国外顶级模型都是闭源的,中国都是开源的?

ChatGPT、Gemini、Claude 等在模型研发上投入了数十亿美元,通过闭源(API 授权制),它们可以建立极高的商业壁垒,确保每一笔算力投入都能通过订阅费或 API 调用费获得回报。

国内 AI 公司本来就是后发,需要通过开源来快速吸引开发者,降低全球用户的试用门槛,从而在短时间内建立起足以抗衡美国的开发者生态。另外,面对算力和芯片限制,中国企业也倾向于分布式创新。开源能汇聚全球开发者的反馈,在算法优化和推理效率上寻找突破。第三,开源对中小企业也更友好,中国厂商通过提供“好用且免费/低价”的开源权重,能迅速渗透到制造业、政务等垂直细分市场,以普及率换取未来的商业地位。

这里面还涉及地缘政治的问题,咱就不细讲了。总之中国的环境其实要复杂的多,美国就更直接、简单。未来两边肯定是螺旋式交织上升,具体 AI 能发展到什么程度,如何改变世界的格局和商业模式,改变人们的生活……

我想,五年之内见分晓吧。

AI知识库上线:墨问时间知识库

2025 年的 3 月份我们结束了长达三年的墨问星球的运营,开始专注墨问的产品研发和内容创作。但耗时三年创作的内容如果留在知识星球里肯定就没用了,内容形式也不够友好。怎么整?

年中的时候我们开始和字节的火山 VikingDB 合作,看看如何重新激活这三年的内容。当时我还写了一篇公众号:字节的火山 VikingDB

随后我们就启动了这个漫长的任务。做这件事需要很多细致的工作。首先要对星球里的内容做清洗,短文本、长文章、图文、问答等等,重新抽象,最后融合成墨问的 1303 条笔记,然后为这些笔记进行分类,更新内容,提取知识 tag,最后进行技术选型,产品设计和研发。

在 AI 时代,信息的连接方式也在发生变化:以前只能是“人去找信息”,现在“信息可以理解你的需求并主动抵达”。基于这个判断,我们把这些知识全部重构为一套新的产品:墨问时间知识库

墨问时间知识库——也是墨问的第一款 AI 知识库——已经上线了。

访问 https://mowen.cn/ 就能看到它。

墨问时间知识库内容涵盖 1303 篇高质量笔记,共 260 万字。墨问时间知识库,不是一个普通的“文章集合”,而是一套面向长期成长的内容与工具体系

它把“从书中学、和高人聊、在事上练、创业手记”等主题整合为可检索、可学习、可复用的知识网络,并通过 AI 搜索、分类、标签与交互式问答,把方法与案例在具体问题上随时“召回”:

怎么涨工资、如何晋升、职场里如何做良好沟通、产品相关的好书推荐、创业初期股权怎么设计……

你不仅会得到答案,还能直接跳转到相关笔记继续深入学习和实践。

墨问时间知识库的底层是向量库与长期记忆库,上层是端到端的 RAG 能力,它把文本、图片、音频等多模态统一转化为可计算的向量空间。通过空间坐标的比对实现跨模态的高效语义检索。简单说,它能理解“你说的话,并且给你想要看的笔记”。

更重要的是知识库里的内容。这些内容经历过时间和上万用户的检验,它不仅是一个“能交互和准确找到知识”的工具,更是一套“随时用得上”的系统。你在职场与产品实践中的问题,会通过问答准确召回;你在阅读与写作中的困惑,会被相关笔记与案例解决;你的长期行为与实践,会帮助你形成稳定的学习与决策闭环。

什么人适合订阅墨问时间知识库?

互联网职场人士、自由职业者、产品经理、程序员、创业者、内容创作者、热爱阅读的人,以及所有在职业成长与认知升级上有持续投入的个体。

墨问时间知识库有小程序版本么?

目前知识库问答只有 Web 版本,阅读历史、评论和点赞等信息会同步到墨问小程序上。

墨问时间知识库订阅后一直可以看吗?

永久有效。非订阅用户有 50 次对话的额度。

这次墨问时间知识库的定价简单且亲民:

非墨问会员用户 99 元,会员用户 69 元;如果你尚未成为墨问会员,可选择 168 元同时解锁墨问时间知识库与一年 Pro 会员。知识库权益永久有效

一旦订阅,阅读、收藏、评论与互动体验会在 Web 与小程序里同步,你的学习轨迹与成果也会得到持续保存。

我们相信,好的知识不该只停留在“读过”,而应被“随时召回、即时应用”。墨问时间知识库,把内容、方法与工具放进一个可运行的系统里,让时间为你证明:坚持与积累,终将转化为可复用的能力。

未来墨问每个会员都会具备创建自己知识库的能力,敬请期待。

开始构建墨问的 Web 版本

https://note.mowen.cn/note/detail?noteUuid=m9nentvuT10II_nLQAo4z

最早设计墨问的时候,原计划在 Web 端创作,阅读和交互用移动端的微信小程序承接,所以先做个墨问便签的 demo 试试小程序的能力。后来发现小程序也可以有桌面端,移动端能力也越来越强,就把创作和互动、AI 语音、画廊、AI 听读、pdf、视频号,都干到小程序上了。All in one。墨问便签也成了墨问。

AI 时代来临,Web 强势回归,它变得比任何时候都更加重要。配合大模型能力和 AI 浏览器,Web 端的应用可以做的事情变多了。除了图文阅读,在 Web 端可以方便的做 AI 搜索、知识库、智能播客、图形图像处理、设计软件、创作多媒体内容等等。

AI 从内容角度给了这个时代重新起飞的动力,Web 重新成为了重要的载体。墨问当然要做 Web 了,墨问,不止于小程序。

1、打开 https://mowen.cn/,点击右上角的“写笔记”,或者直接使用 w.mowen.cn,即可进入墨问笔记的写作状态:

2、编辑器上方工具栏分别是:图片、画廊、底图、上传音频、黑体、引用、高亮和 上传 pdf。点击右上角的 “A”。可以设置编辑器和阅读器的样式,目前一共四种,和小程序保持一致。

3、写作过程中鼠标滑至当前行左侧会出现块选图标,点击出现下拉菜单,可以设置整段文字的样式。

4、写作过程里可以随时使用 ctrl + s(wins)或 cmd + s(mac)保存私密笔记,并继续创作。点击右上角的保存,保存文稿并进入阅读模式。私密笔记点击发布可以快速发布这篇笔记,状态是完全公开。

自己的笔记在阅读状态下时,双击可以进入编辑态。和小程序交互一致。

5、目前 Web 端笔记还不能点赞评论,“我的笔记列表”和首页(发现页、订阅页等)还没有做,所以我们可以在阅读状态下,点击右上角的“小程序”即可进入小程序互动。

6、想在 Web 端编辑已有墨问笔记的,可以点击小程序里墨问笔记的分享按钮,复制这篇笔记的 Web 链接到浏览器里,即可进行编辑创作。

墨问 + AI 浏览器:

在 Web 端写作可以充分利用 AI 浏览器的能力,Dia、豆包、Comet 都是很好的选择。

墨问 Web 的一小步,对应了未来的一大步。

Claude 这条路在中国企业这里彻底断掉了

9 月 5 日这一天,Anthropic 在官网发布了一则消息:立即停止 Claude 向中国资本控股企业提供服务。所谓“控股”,指的是持股比例超过 50% 的企业,这一政策覆盖的可不仅仅是大陆公司,事实上大陆公司本身也用不了。这个策略同时包括那些在境外注册,但有中国资本或股东背景的公司和组织。

目前看起来,Claude 这条路在中国企业这里彻底断掉了。

AI 的地缘政治

过去二十年,互联网科技产品大多强调“全球化”。硅谷的产品可以在北京、东京、柏林同时使用,哪怕偶尔有审查或功能阉割,底层的技术逻辑还是相通的。但到了 AI 时代,这条路越来越窄了。先是芯片,后是软件。

Anthropic 在公告中说,这项措施是为了“应对法律、监管与国家安全风险”。换句话说,AI 已经被当作战略资源。和石油、芯片一样,AI 模型不再是单纯的商业工具,早就被嵌入到大国博弈的棋盘里。

这一点在 GPT-4 之后已经很明显。美国政府把最先进的 AI 模型看作“国防资产”,严格控制其出口与使用范围。现在 Anthropic 的决定只是把这种控制明确落地到商业规则中:你是谁、你后面是谁,这决定了你能不能用 Claude。

有意思的是,Anthropic 并非只针对中国,公告里明确提到,这一政策同样适用于美国认定的“对手国家”(adversarial nations),比如俄罗斯啊、伊朗啊、朝鲜等等。

blacklist,在这份名单上,中国的体量让事情变得敏感起来。

这件事让我们也看到另一层逻辑:这也是商业上的风险规避。Anthropic 不希望自家模型被用于可能引发地缘冲突、规避制裁或触及安全边界的场景。对于一家需要不断融资、依赖美国政府关系的公司来说,这个选择也不意外。

直接一点,这对于中国企业来说,意味着什么呢?

如果你是一家 AI 初创公司,哪怕是注册在新加坡、开曼群岛,只要背后有中国资本背景,无论是中国的 VC 还是大公司投资,都将无法继续使用 Claude 的服务。Anthropic 说的非常明白,这是为了避免中国企业通过设立海外子公司、购买第三方云服务来“曲线救国”。

比如字节的 IDE 工具 Trae,一个版本是国内版,只能用国内大模型,另一个是国际版,海外公司的版本,可以使用 GPT,Gemini,Claude,现在呢,我猜测至少是不能使用 Claude 了,包括我之前介绍的阿里 IDE Qoder,都是一样的策略。

1、国内开发者与 Claude 渐行渐远,想通过 API 调用或境外云服务接入,几乎没有可能。

2、Claude 代表了当下语言模型在编程、推理、长文本处理上的最强水平,尤其是编程能力,失去这个通道,我们需要加快国内模型追赶速度。某种角度,这是好事。

3、资本与创业环境会变化。投资人要考虑的,不仅是模型能力,还有合规风险。你投的这家公司,是不是有可能因为“用不了 Claude”而失去竞争力?

一道新的铁幕落下,倒也不算意外。

冷战时期,人类世界被铁幕分割成两部分。今天的 AI 行业,似乎也在形成新的铁幕。Claude 在那边,豆包、文心、通义、月之暗面在这边。模型的性能差异、训练语料差异、生态和市场差异,都会随之变得割裂,各自发展。

长远来看,这未必是坏事,正如当年的芯片产业,断供是痛苦的,但也是国产替代最直接的催化剂。

Anthropic 的这份公告,强化了某种意象:全球 AI 行业正在从“技术竞争”转向“地缘政治竞争”。AI 同样是国家安全、战略利益的一部分。

面对,继续向前走就好了。

2025年9月10日

墨问发布 OpenAI、社区版 mcp 和 chrome AI 剪藏助手

什么是 OpenAPI?

简单来说,就是墨问提供了一系列接口,让开发者可以通过这些接口来访问墨问的服务:创建和修改笔记,设置笔记的格式,为笔记打标签,设置状态,公开还是私密等等。

有了 OpenAPI 之后,墨问就成了一个开放平台。在前 AI 时代,开发者可以基于 OpenAPI 开发自己的应用,比如墨问的 Chrome 扩展,或者把自己的信息源通过墨问 OpenAPI 直接输出到墨问,形成自己的知识体系,做墨问的创作客户端等等。

到了 AI 时代,搭配 OpenAPI 的,多了一个 MCP。什么是 MCP?这里有介绍,看不明白来找我:

有了 MCP,普通用户就可以基于大模型的能力通过 MCP 和 OpenAPI 创作墨问笔记,构建自己的知识流通和分享渠道。

用户+自然语言+大语言模型+MCP+OpenAPI+墨问,就可以实现一个完整的知识分享和创作平台。

举个例子:我在看寇德卡的英文书,序言很好我想翻译一下并保存在墨问里同时发布,我就给书拍张照片,丢给大模型:

翻译图片里的内容后存入墨问笔记,标题黑体,其他内容自动标记黑体和高亮,分段空行,中西文加空格,发布成公开笔记。标签:摄影。

“duang”的一声,这篇笔记就出现了

罗伯特·德尔皮尔与约瑟夫·寇德卡谈《流亡者》

我们还可以:

  • 上传一个文件让大模型分析后输出一篇格式优美的墨问笔记
  • 和大模型聊天之后,把聊天内容保存到墨问里
  • 上传一张照片让大模型分析后写一篇笔记存入墨问里
  • 想到一个创意或写作主题,让大模型丢到墨问里
  • 看到一篇文章,让大模型丢到墨问里
    ……

这一切都 不需要你打开微信和打开墨问小程序 就能完成,你只需要一把墨问的 API Key。

墨问为每一个会员准备了一把 API 钥匙,希望每个人都能充分利用大模型的创作能力,提高自己的效率,创作自己的作品,形成自己的知识流转通道。


墨问 OpenAPI 和开发手册在这里:
https://mowen.apifox.cn

社区版 墨问 AI 剪藏 Chrome 插件也发布了,智能的 Chrome 浏览器插件,可以自动提取网页内容,通过 AI 整理或一键剪藏方式发布到墨问笔记:

https://github.com/z4656207/mowen-note-assistant/tree/master

墨问便签正成为历史

墨问便签这款产品,最初是用来做 demo 的,试试小程序的能力。另外,有一点纪念之前做的锤子便签的意味,就取了个名字,叫墨问便签。

没想到这个小产品慢慢有了生命,形成了社区,小程序的能力可以承载图文、音频、视频和订阅等很多功能,于是 demo 转正,我们在 2023 年 10 月 28 日正式发布了墨问便签 1.0。

时至今日,墨问便签早就跳出了便签的范畴,有了 AI 和社区属性,未来我们肯定会做 Web 版本。所以我想给它一个独立的名字,就叫墨问好了。事实上墨友们有很长一段时间都是这么叫的。

二爷说,批准。这等同于 TheFacebook 改名为 Facebook。

毕竟,
Google 原名是 BackRub
Apple Computer 改成了 Apple
TheFacebook 改名为 Facebook

墨问便签改为墨问,一切就算是对了。

这么地吧,

撒个花[庆祝][庆祝][庆祝]

https://note.mowen.cn/note/detail?noteUuid=jbJv5KSkoUPQfmFWVhY1o

2025年4月22日