← 返回文章列表

AI竟然能帮我长脑子了,1200万阅读的“AI+WIKI” 1200万的方案

有没有人和我一样,文章看了不少,播客听了不少,PDF 下载了一堆,微信收藏夹、飞书文档、浏览器书签、截图相册,全都满满当当。真要用的时候,还是得重新搜一遍,重新问一遍,重新想一遍。

我以为自己缺的是一个更强的搜索工具。

看了篇神X发现其实我缺的,不是工具,而是持续的维护。

问题来了, 维护是最烦最累的, 谁来维护呢?

上周卡帕西发了一条推文,三天拿了4.3万赞、1200万浏览,直接把AI圈炸了。

他说了一句让我愣了一下的话:他最近花在LLM上的token,大部分不是在写代码,而是在”操控知识”。

然后他分享了自己的做法——用LLM来”编译”一个个人知识库。没有向量数据库,没有embedding,没有任何花哨的RAG管线。就是一堆Markdown文件。

我看完第一反应是:就这?1200 万阅读?

看完第二反应是:卧槽,好像还真就该这样。

他到底做了什么

这个做法卡帕西叫”LLM Knowledge Base“,也有人叫做“LLM Wiki

说出来你可能不信,整套系统就三个文件夹加一个配置文件。

raw/——把你要研究的素材全扔进去。文章、论文、截图、笔记,什么都行,不用整理。这一层是只读的,LLM只看不改,相当于你的”原始事实源”。

wiki/——让LLM来读raw里的素材,然后”编译”成一个结构化的wiki。注意,不是你写,是LLM写。它来总结、分类、建交叉引用、标注矛盾、写概念页、写实体页、写对比分析。

卡帕西对这件事用了”编译”这个词,非常精髓——你品一品,知识不是被”存储”的,而是被”编译”的。

outputs/——你对wiki提问,LLM综合出的回答存在这里。关键来了:好的回答可以存回wiki,变成知识的一部分。

再加一个CLAUDE.md(或者AGENTS.md),告诉LLM这个知识库的运行规则。搞定。

卡帕西自己用这套东西在一个研究方向上积累了大约100篇文章、40万字。他本来以为得上向量数据库那套复杂方案,结果发现LLM自己维护索引文件和文档摘要就够了。

为什么比RAG好

你有没有遇到过这种情况——上个月让ChatGPT分析了五篇文档,得出了一个很有价值的综合结论。这个月换了个角度再问,它又得从头翻一遍。上次的分析结果?不存在了,蒸发了,留在了某个你再也找不到的聊天记录里。

这就是RAG的根本问题。

RAG像一个每次考试都开卷的学生。你问他问题,他每次都重新翻书、重新找相关段落、重新拼答案。他找的是文本碎片,不是理解过的知识。他对这些文档之间的矛盾、关联、演进一无所知。NotebookLM、ChatGPT文件上传,基本都是这个思路。

卡帕西这套方案,是让LLM先把书读完、理解完、做好笔记。考试时翻笔记,不翻原书。

两者放在一起看,差异很清楚:RAG是”提问时临时检索”,LLM Wiki是”先编译,再查询”。RAG每次查完就忘,LLM Wiki的每次问答都可以沉淀回知识库。一个是消耗上下文,一个是在生产上下文。

说白了,回答完之后东西会不会留下来——这才是最大的区别。

开源的不是代码,是想法

这里有个特别有意思的地方。

卡帕西没有开源一个repo、一个框架、一段脚本。他开源了一份75行的Markdown文件,叫”idea file”。

他说:在LLM Agent的时代,分享具体代码或应用的意义正在变弱。你只需要分享想法,然后对方的Agent会根据具体需求来定制和构建。

这话听起来有点飘,但你想想——你把这份文件丢给Claude Code或者OpenAI Codex,它真的就能帮你从零搭建出一个完整的个人知识库。不需要你写一行代码。

这其实代表了一种全新的”分发方式”:分享的不是成品,分享的是一种结构化的思路;接力完成落地的,是接收方自己的Agent。

有人在评论区说,以后PR不该叫Pull Request了,应该叫Prompt Request——因为Agent完全有能力自己实现大多数想法。

Lex Fridman也在用

这不是卡帕西一个人在玩。Lex Fridman(做播客那位)很快在推文下面回复说,他也在用类似的方案。因为做播客需要研究的主题又多又杂,这套知识库方法非常好用。

Lex还提到了一个骚操作:他会让系统生成一个”临时迷你知识库”,专注于某个特定话题,然后加载到LLM的语音模式里,在跑步的时候一边跑一边跟AI讨论这个话题。跑个7-10英里,一篇研究就消化得差不多了。

这就叫”临时wiki”——为一个任务临时搭建一个研究环境,用完就扔。

Farzapedia:给Agent建的个人百科

卡帕西发帖两天后,一个叫Farza的开发者搞出了一个更有冲击力的东西。

他让LLM读取了自己2500条日记、Apple Notes和一部分iMessage对话,生成了400篇相互链接的个人百科文章。涵盖他的朋友、创业项目、研究方向,甚至最喜欢的动漫对他的影响。

关键是Farza说了一句话:这个wiki不是给我看的,是给我的Agent看的。

这就把事情讲清楚了。大多数人搞个人知识库,最后都停在”方便我回头翻”。Farzapedia展示的是另一种方向——把你的人生经验整理成Agent能导航、能钻取、能利用的文件系统。

比如Farza要给新产品做落地页,就让Agent去wiki里找他最近喜欢的图片、电影、竞品页面和审美线索,综合出文案和视觉方向。Agent从index.md出发,一层层往下钻,跟一个助理在翻你的私人档案库一样。

卡帕西看到后专门转发点赞,列了四个优势:可见(你能看到AI知道什么不知道什么)、你的(数据在本地不在云上)、文件优先(底层就是Markdown,想用什么工具看都行)、BYOAI(换Claude、换Codex、换开源模型都行)。

用他的话说:让AI公司们卷起来吧,你的数据你做主。

一个81年前的老梦

卡帕西在gist最后提到了一个人——Vannevar Bush。

1945年,Bush写了一篇文章,描述了一种叫Memex的设想:一个私人的、持续整理的知识存储系统,文档之间通过关联路径相互连接。这比后来的万维网还早了几十年,而且方向不太一样——Memex更私人、更注重主动整理、更看重文档之间的联系本身。

Bush当年没解决的问题是:谁来做维护?

人类的知识库系统,放弃维护的速度,永远比知识增长的速度更快。Notion也好、Obsidian也好、飞书文档也好,多少人建了知识库最后荒废了?不是不想维护,是维护的成本太高、太烦、太无聊。

81年后答案来了:LLM不会觉得烦,不会忘了更新一条交叉引用,一次操作可以同时改十几个文件。维护成本趋近于零,知识库才有可能真的活下来。

几句实话

说了这么多好的,也得泼点冷水。

这套方案有一个甜蜜区间——几十到几百篇文档的规模。如果你有十万篇文档、几十个知识领域,那还是得上更正式的检索和向量方案。卡帕西自己也留了边界。

wiki变大以后,治理是个真问题。页面怎么命名、引用怎么保留、什么能自动写什么必须人看、哪些结论已经过期、哪些页面看着顺但其实不可靠——这些”不显眼的苦活”才是长期运行的关键。

卡帕西在gist里专门写了一句:human owns verification。wiki可以交给LLM维护,但验证责任在人。

所以别一上来就想着”把整个人生都喂进去”。

如果你想试

建议从一个很窄的范围开始。

你最近在反复看的一组文章、一个研究方向、几份竞品资料、一小批项目相关的笔记——拿这些东西建一个最小闭环:把素材丢进raw/,写一页简单的规则文件,让Agent处理一份来源,看看它会更新什么。然后问一个需要跨资料综合的问题,如果回答有价值就存回wiki。

就这五步,你就能感受到这套东西和传统知识库到底差在哪。

工具方面,卡帕西推荐了几个:Obsidian做浏览前端,Obsidian Web Clipper一键把网页转成Markdown,qmd做本地搜索,Marp生成幻灯片,Dataview查询页面元数据。整个wiki说到底就是一个Markdown文件的Git仓库。

卡帕西自己也承认,目前这套系统还是”一堆拼凑的脚本”。但他觉得这里有一个巨大的产品机会。

我也这么觉得。知识管理这件事,问题从来不是工具不够多,而是谁来做那些无聊的维护。现在LLM把这个答案给出来了。

从vibe coding到agentic engineering再到知识编译——卡帕西这两年的轨迹越来越清楚:Markdown正在成为AI时代的编程语言,而知识正在成为比代码更值得操控的东西。