CatReader 上线：重启 RSS 阅读

Posted by MacTalk

自从 AI 的 Vibe Coding 能力突飞猛进之后，我自己也没闲着，做了好几个项目，不过大部分是自己用。CatReader 是我决定要产品化并开放给墨问会员的一个项目。

在 AI 时代，拥有一份自己信赖的一手信源非常重要，比如现在，你去看一堆不靠谱 AI 媒体通过翻译、组稿、AI 写作攒出来的东西，远远不如去阅读各大 AI 实验室的 Blog、研究报告、新闻、产品介绍，看知名 AI 实践者的 Blog，以及各大公司和创始人在 x.com 上的发言。实际上我还收集了大量的长期写作者的优质 Blog，还有播客、视频、书籍等我感兴趣的相关内容，那么，AI 时代如何更有效率的使用这些资源呢？

这个就是我的需求来源，别人搞不定，我自己搞一个。

Continue reading →

两小时用智谱 glm 5.2 实现了 CatReader 的移动微信版

Posted by MacTalk

昨天上午写了一篇阅读方式的改变就去出去玩了，打了一小时羽毛球，出去吃东西徒步还赶上了北京下雨，冲锋衣立功了。

https://note.mowen.cn/detail/C4utJToz42XeJ2VrJOruB

晚上到家看到 glm 5.2 发布了，我最近一直在用 glm 5.1 写东西，国际版纯血 pro，非常抗用，能力国内顶级，那就试试 glm 5.2，花了两小时，用智谱 glm 5.2 实现了 CatReader 的移动版微信版。

微信里打开 https://cat.mowen.cn

用微信自动登录，然后放入浮窗，丝滑共享。目前已对所有墨问会员开放。

2026年6月14日

谁说 ChatGPT 和 Codex 合体了？

Posted by MacTalk

AI 媒体现在也太能扯了，前两天看到有若干家媒体公众号说 ChatGPT 和 Codex 合体了，打开文章发现并不是纯标题党，言辞凿凿，十亿用户要用到 Codex 啦（因为 ChatGPT 有十亿用户了）。

我直觉上感觉不可能。ChatGPT 和 Codex 根本就是定位不同的两款产品，怎么会合体？况且 ChatGPT 移动版刚刚集成了 Codex，用户可以通过移动端 ChatGPT 操作电脑端的 Codex，咋可能二者合体呢？

中午查证了一下，OpenAI 确实举行了名为 “Intelligence at Work” 的线上直播；并且，OpenAI 确实在 6 月 2 日发布了 Codex 相关更新：面向不同岗位的 6 个插件、Sites、Annotations，并强调 Codex 正从编程工具扩展为知识工作工具。Codex 周活用户已超过 500 万，知识工作者约占 20%，增长速度快于开发者。

但人家也没说合体啊，其实真正误导中国媒体的是 9to5mac 的一篇文章，标题是：OpenAI putting Codex inside ChatGPT app everywhere……但文章里写的是啥呢？OpenAI says it will soon put Codex functionality inside the ChatGPT app everywhere

我理解这句话的正确意思是， OpenAI 计划把更多的 Codex 功能带到 ChatGPT 应用中，和合体毛关系没有。

不过，这次 Codex 还真是带来了一个新功能叫做，Sites in Codex，之前大家用 Codex 都是写本地运行或者写完之后部署到其他云端的软件和服务， Sites in Code 让 Codex 具备了直接写云端服务的能力。

在对话里描述需求，比如为一次峰会做一个活动运营页面，或者为公司搭一个新员工入口。Codex 会理解场景，调用 Sites，把页面、交互和数据展示组织起来。它可以帮你把一个模糊的内部需求，快速变成一个可以访问、可以调整、可以交付给同事使用的小型应用。

整完直接复制链接，你和你的用户就能直接访问了。

过去，一个临时工具、内部看板、活动报名页，往往需要产品、设计、工程和运维之间来回沟通。或者你本地做出来，放到服务器上去。现在，使用者可以先把版本做出来，再通过权限设置决定谁能访问、谁能管理，并直接复制链接发给相关成员。

也就是说，Codex 具备了云端 App 的能力，会满足更多普通用户的需求，因为不需要部署啦。

这意味着很多轻量级业务系统会有新的生产方式。只要问题足够明确，Codex 就可以先生成一个可用原型供团队讨论和使用。

在国内，类似扣子和秒哒这样的平台一直在专注这个领域。

目前这个功能还是 Preview 版本，只对部分企业开放，期待早点开放给个人用户。

想 Vibe 就别错过这个巨大的流动知识库

Posted by MacTalk

周末的时候我主要看书写东西，拍照徒步，周末最好给自己一种跳出圈外的机会，多思考，多运动，保持健康的同时，给自己一些不同的情境，这样更容易激发创造性。

不过 Vibe Coding 群里的同学们可没歇着，上千条消息又聊出来了，毕竟是年轻人。我发现大家讨论的问题有这么几个共性：

1、没有任何技术背景，上来就想自己搞复杂的业务系统，前后端、消息、数据仓库，抓上亿的数据进行分析……然后问我该学点啥。

我的建议是：如果完全没有编程背景，自己用 Vibe Coding 的方式先做些单机或逻辑不复杂的东西，成功率更高些。如果做复杂业务系统，肯定要拉工程师过来。只能自己单干的情况下，会走巨多弯路，浪费 Token 还可能啥也做不出来。以前一个靠谱工程师怎么也得有五年工作经验和工程经验，啥没有全靠 AI，想搞出复杂系统，本身就是不合理的做法。

比如你可能不知道什么是 https，不知道什么是脚手架，不知道什么是前后端分离，不知道啥是 API，那么 AI 就没办法得到你的准确 prompt，它就会自己搞一套出来，还可能糊弄你。那你最后就会发现，Token 白烧，系统完全没法上线，安全问题一大堆……

2、分不清模型和工具，Codex 和 Claude Code、SOLO 之类的，都是 Agent 工具，工具依赖大模型做事。所以模型擅长什么，工具擅长什么，这完全是两回事，比如有用户说，我用这个工具做页面不好看啊，是不是工具不行。其实是自己不行。关于 Vibe 设计，可以看社群里的这篇讨论：关于AI 生成UI效果图的讨论。

3、多记录。很多人不喜欢记录内容，只是一味聊天，聊完就忘，还有人不看文档，很多问题会重复提问，效率非常低。所以我还是要说，记录即创作，把自己的实践写下来，你会发现很多没弄明白的地方，在写的过程里明白了。别说自己不会写，自己微信群叭叭聊上千字的，是你吧。

另外就是善用 Agent 的能力，比如 Agent + 墨问 CLI，那就是个巨大的、流动的知识库啊，墨问的用户在上面不遗余力的分享了大量的知识，你只需要一句自然语言就能找到自己想要内容，非常简单。比如：

查一下老池在墨问里写过哪些 Vibe Coding 相关的笔记，分类整理。

你会得到这个：老池的 Vibe Coding 笔记，也就几十条吧，我还给你分个类。

所以，如果你装了墨问 CLI，你就有了个巨大的知识库，有问题，先墨问，会提高很多效率。

墨问 CLI 已经对所有用户开放，安它：墨问命令行给你带来流动的知识库

墨问 Web 社区版本上线，本月墨问 cli 之后的第二个发布

Posted by MacTalk

现在墨问有小程序版本，墨问命令行版本，还有了 Web 社区版。

https://mowen.cn

之前墨问的 Web 版主要是为了给创作者使用，利用 AI 浏览器写笔记，打造一个舒适、简洁并具备设计感的编辑器和创作控制台。

这次的社区版本新增了首页探索（朋友在看、我的关注和发现）、付费订阅（我订阅的付费专栏里笔记的 feed）、我的笔记、标签（标签管理、我的分类笔记、付费笔记，相当于资源库）、消息（评论和点赞），集成了墨问时间知识库和墨问开放平台的说明文档。

探索页增加了快捷分享的入口，可以发文本和图片，适合碎片表达：

语音和图片都设计了全新的展示方式：

这是资源管理：

这是付费订阅：、

这是消息通知：

目前 Web 版本还有不少需要迭代的细节，主打一个先上线，再迭代。另外，目前还缺一个类似小程序的个人主页，我希望为大家打造成自己的 blog。敬请期待。

祝用的开心：）

2026年5月25日

中美 AI 竞争的差距到底有多大？

Posted by MacTalk

上周五因为有 AI 新品发布的原因，我写了一篇中美 AI 竞争格局的短文，分别发了公众号和 X，收到了大量的反馈。看了这些评论，我感觉自己的理解确实是不全面的。事实上我们根本没法从一个维度去定义这件事。

比如我和一些做基模的专业同学沟通，他们的判断——编程模型差 5%-10%，整体上可能是 3 – 6 个月的差距——这些就是基于他们自己的专业判断，有基线有标准，甚至放到国际评测榜单上，也是类似的结论。这是个专业判断。甚至在 OCR 开源模型这个领域，PaddleOCR-VL-1.5 就是做到了 SOTA。

但涉及到个人，感受就千差万别了。有用户说，中国差在了硬件上，有的说算力不够，模型也不可能好到哪儿去。有的普通用户日常让 AI 助手解决生活里的一些问题，中文的豆包、千问、DeepSeek 等模型，就是比 ChatGPT 和 Gemini 回答的好啊。

即便是同一个领域——比如编程——体感也不一样。

有的用户用来做补全和完成一些简单的模版任务，MiniMax M2.1 就是很好啊，干得漂亮还便宜。有的用户呢，开多个 Agent 做多任务并行，完成复杂的编程实践，这时候 Claude 的优势就发挥出来了，所以他们会认为 CC 比国内模型强大很多。

现在看起来，这是个很难定义的衡量标准。就目前的大趋势来说，基模能力整体上中国落后美国，这是没问题的。落后几个月，不好说，但不会超过一年，甚至中国有些领域是领先的，比如开源模型。2026 如果中国解决了一部分算力问题，我预测这个差距会进一步缩小，因为 Scaling Law 的效果已经越来越不明显了，预训练和强化训练也开始呈现疲态，AI 厂商已经开始追逐第三范式 Online Learning 了。这对追赶者来说，是好事。

还有一点无法忽视，目前的模型越来越强，99% 的用户根本没办法压榨大模型的能力极限。也就是说，模型能力花了 100 倍的功夫，增加了 5% 的能力，大部分用户都感知不到。

比如周五发布的 Opus 4.6 确实很强，但是有多强？目前我试了几个项目，感觉前一代也能解决啊。想榨干模型的能力，几乎是不可能的。甚至想找一些前一代模型搞不定、但新模型却能轻松搞定的案例都很难了。

目前关于新模型（Opus 4.6）能力最有说服力的故事，是 Anthropic 的 Nicholas Carlini 谈 Opus 4.6 的那篇：用一支并行协作的 Claude 团队来构建一个 C 编译器——这可以看作是 Anthropic 团队在自动化软件开发方向的一次系统性实践。

Building a C compiler with a team of parallel Claudes

这是一次用多实例 Claude 自动协作、从零构建可编译 Linux 内核的 C 编译器的实验，我觉得 99% 的工程师别说完成实验了，设计实验都困难。

这个事有多复杂呢？构建一个 agent teams，让多个 Claude 实例在几乎没有人类干预下，在同一个代码仓库长期并行地协作开发。作者用 16 个 Claude，在将近 2000 次 Claude Code 会话和约 2 万美元 API 花费下，从零写出了一个基于 Rust 的 C 编译器，可以在 x86、ARM、RISC‑V 上编译 Linux 6.9，还能编译 QEMU、FFmpeg、SQLite、Postgres、Redis，并在大多数编译器测试套件上达到 99% 通过率。

首先，用一个“无限循环”脚本让单个 Claude 永不停机地反复拉起自己，每次读同一套 agent prompt，持续拆解任务、写代码、再选下一步要做什么。然后扩展成并行架构：多个 Docker 容器各自克隆同一上游仓库，用简单的“写锁文件 + git 同步”避免多个 agent 抢同一任务，通过频繁 pull/merge 解决冲突，没有额外的调度/编排 agent，每个 Claude 自主决定下一步要做啥。随着项目扩展，作者逐渐引入了更完备的测试与 CI，让 Claude 依靠高质量测试和日志来自我定位问题。

我的理解也就能到这里了。

这个实验充分展示了 Opus 4.6 能力。之前的版本勉强能做出能跑小 demo 的编译器，但不能编译大型项目；Opus 4.6 在这个 scaffold 下第一次跨过了“能编译真实世界大型项目”的门槛。

不过编译器依然有硬伤：缺少 16 位 x86 代码生成器，只能在引导阶段依赖 GCC；汇编器和链接器还不稳定；对某些项目仍编译失败；生成的代码性能显著差于 GCC 即便后者不开优化；Rust 代码质量远逊于顶级人类工程师，而且一旦尝试继续修 bug 或加特性，很容易破坏已有功能。

这是下一代 Opus 要解决的问题。事实上每一代模型都在拓展与开发者协作的方式：从 IDE 补全，到根据注释写函数，再到 Claude Code 这种结对编程型 agent，如今 agent teams 展示了“全自动完成复杂项目”的可能。

这让人们看到了规模性使用 Agent 的可能性，但目前这种可能性也只有顶级的 AI 工程师能够触碰，大部分工程师都在做智能代码补全，根据注释模板生成代码，处理文件，做单一 Agent 任务等等。所以体感也是完全不同的。

那么类似 LMArena 的评测榜单有没有价值呢？肯定有啊，比如最近中国模型在编程领域的成绩就很不错。前五名是美国模型，后五是中国模型。有人说，那不是可以刷榜吗，针对性训练等等。这个其实越来越难了，因为 LMArena 也在进行，不仅仅有机器评测，有升级的训练场，有案例测试，还有人工投票，等等。

你看文本大模型的能力，目前前十就剩下一家中国模型，还是百度的 ERNIE-5.0，其他家怎么不刷上去呢？

另外中美的商业模式也不一样，美国 AI 公司对 C 端卖订阅费用，对 B 端卖 API 赚钱，非常明确和简单，现在 OpenAI 已经开始探索第三种方式——广告业务了。

国内呢，就复杂得多，豆包是国内最大用户量的 AI 产品吧，普惠，一分钱不收。千问和元宝为了追赶豆包，还得补贴用户红包和奶茶，抢占市场。类似火山引擎和百度 AI 云这样的toB 服务，倒是一样的，企业想用 AI，还是买 API 和服务比较稳妥。

另外，为什么国外顶级模型都是闭源的，中国都是开源的？

ChatGPT、Gemini、Claude 等在模型研发上投入了数十亿美元，通过闭源（API 授权制），它们可以建立极高的商业壁垒，确保每一笔算力投入都能通过订阅费或 API 调用费获得回报。

国内 AI 公司本来就是后发，需要通过开源来快速吸引开发者，降低全球用户的试用门槛，从而在短时间内建立起足以抗衡美国的开发者生态。另外，面对算力和芯片限制，中国企业也倾向于分布式创新。开源能汇聚全球开发者的反馈，在算法优化和推理效率上寻找突破。第三，开源对中小企业也更友好，中国厂商通过提供“好用且免费/低价”的开源权重，能迅速渗透到制造业、政务等垂直细分市场，以普及率换取未来的商业地位。

这里面还涉及地缘政治的问题，咱就不细讲了。总之中国的环境其实要复杂的多，美国就更直接、简单。未来两边肯定是螺旋式交织上升，具体 AI 能发展到什么程度，如何改变世界的格局和商业模式，改变人们的生活……

我想，五年之内见分晓吧。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

MacTalk-池建强的 Blog

让创作成为一种生活方式

CatReader 上线：重启 RSS 阅读

两小时用智谱 glm 5.2 实现了 CatReader 的移动微信版

谁说 ChatGPT 和 Codex 合体了？

想 Vibe 就别错过这个巨大的流动知识库

墨问 Web 社区版本上线，本月墨问 cli 之后的第二个发布

中美 AI 竞争的差距到底有多大？