心神野而有度,灵思密而无疆
人生而自由,这种自由是选择的自由。 —— 萨特
最开始之前,是个人免责声明:本文纯属个人暴论,如有意见不同,欢迎留言。
在开篇之时,我想先抛出一个问题给大家:你认为,周围的人日常会使用 GPT 或者 AI 相关的产品呢?
在熟人群体中,我做了一个简单的调研。抛开和我一样的计算机领域的从业者外,其他的回答呈现一个极端的比例:一成不到的人会使用 ChatGPT 或者其他的 AI Chatbot;剩下九成的人表示完全没用过,或者试过就放弃了。非常反直觉的地方在于,我自认为「读研读博的学生」、「做市场调研和销售的朋友」、「游戏公司的员工」这些看起来和前沿科技比较接近的人,实际上并不会在日常中使用 AI 产品。
这个结论是反直觉的,环顾四周,外有 OpenAI、Meta、Google 相互倾轧;内有通义千问、文心一言、月之暗面百舸争流。看起来似乎是个神仙遍地走的辉煌时代。然而呢?各家企业实际上还是在为了各自的 AI 业务苦苦挣扎,能用的 AI 模型不少,但是我自己觉得好用的可能就只有 OpenAI 和 Claude,即使是 OpenAI 这样的行业领头羊也不好说有没有真正通过 AI 业务盈利。
我的之前的文章中也讨论了很多 AI 落地的困难:不稳定,不好用,不确定,部署难,隐私问题,等等……这些都是限制更广大群众接触和使用 AI 的桎梏。其实不论从哪个角度来看,现在的 AI 产品使用成本确实过高了。这里的成本是多方面的,不光是价格成本,也有部署成本、开发成本、测试成本,以及评估 AI 到底能不能带来收益这件事本身,评估需要的成本也相当高。
上面所说种种,可以换一种说法简单概括,那就是「不自由」。特别是对于最普通的广大群众来说,他们不具备自由的权利,也没有选择的自由。对于大部分普通人来说,用 AI 可能已经足够困难了。姑且不提大部分人不具备自己部署模型的能力,市面上的 AI 竞品又如此繁多,用户很难知道哪一个好用,哪一种适合自己。
说了这么多现状,在这里想借着这个机会,随便聊聊,我过去一年,为了追求「自由」所做的一些事情。
我们为什么要创新
计算机科学界长期以来存在一个经典难题:重复造轮子的倾向。这种现象不仅存在于学术圈,更是在工程领域屡见不鲜。
从学习的角度来看,造轮子确实有其积极意义。它能帮助我们深入理解技术细节,从而达到知其然也知其所以然的境界。从工程的视角出发,重新设计和优化现有方案也不失为一种进步。然而,这些美好的愿景往往只存在于理论层面,现实却往往不尽如人意。
现实中,重复造轮子则成为了大厂进行「技术储备」和「战略宣传」的工具。今天你做了一个新的库,明天我也要有一个自己的与你对标。每一个厂商都自己维护了自己的开发生态,凭空构建了阻碍知识传播的桥梁。要不是编译器和操作系统这种东西的门槛相对高一点,不难想象每个厂商都拿着自己的编译器和操作系统自立为王。这种现象让人不禁想起安部公房在《绳》中的一段妙喻:
绳子和棍棒,是人类最早的工具。棍棒可以抵挡麻烦,绳子可以把好东西收归身边;它们是人类最早的朋友,也是我们的创造。有人的地方,一定也有绳子和棍棒。
——安部公房《绳》
公司精心打造的工具生态系统,一方面如同绳,将创新成果牢牢绑在自家平台上,增加了技术迁移的难度,从而获得长期优势;另一方面又像棍,用来抵御竞争对手的法律威胁,同时规避技术授权的高昂成本。
从感性角度来说,这种重复劳动的做法令人反感。但理性分析后不得不承认,从商业角度看,这种策略确实能让公司在短时间内在特定领域占得先机。然而,这种成功更多是商业上的胜利,对消费者而言,情况并没有实质性改善:尝试新技术的成本居高不下,软件价格昂贵,平台间迁移困难重重。即便在今天,我们仍需在电脑上保持更新最新版本的 pandoc 和 ffmpeg,以应对各种文档和视频格式的转换需求。哪怕是图片和文档,这种最为基础的文件格式在世界范围内都还没有完全统一,更不必说其他方面的产品了。
之后便是当下 AI 大模型爆炸发展的时代。个各厂商甚至不惜一切代价,让自己朝向 AI 的方向进行转型。过去的一年内,但凡和科技沾点边的企业都在用 AI 给产品「赋能」。互联网和软件厂商不惜代价自己训练自己的模型,硬件厂商不惜代价设计最适合 Transformer 的硬件设施。几乎所有人都在这条路上疾驰,而且短期内还没有停下来的势头。大家都认为 AI 就是下一个工业革命的核心元素,和蒸汽机、电、互联网一样,是下一个革命性的工具的心脏。
可惜的是,当下的 AI 产品暂时还不能算作工具,甚至可能是一种轻奢侈品。理想状态下,我们不是为了用 AI 本身而用 AI,而是因为我们看到了 AI 在自动化上的强大能力,以及应对复杂多样环境所呈现的强大鲁棒性。因而 AI 应该成为我们当下正在使用工具的上位替代,而不是如今用这种聊天交互的形式呈现给人。这种形式所催生出来的并不是工具,而是商品。而一件工具从工具本身变成商品的那一刻,就开始了对人的异化,从而让我们变成工具的奴隶,而不是使用工具的人。甚至为了追求更好更强的工具而无限付出不必要的成本。而这就是当下 AI 略微畸形的发展现状。
不过实际上我也没有那么悲观。工具本身是具有双重性的。一方面,它能够被用来加强社会控制和压迫,就和当下一样,作为绳和棍棒存在;另一方面,它也具有解放的潜力,这也是我们对 AI 真正期待的地方。我们认为这种自动化的能力可以将我们从重复劳动中解放出来。为了实现人类的真正解放,我们必须重新思考和设计技术,使其服务于人类的真实需求和幸福,而不是维护现有的权力结构。至于解放后可能带来的社会结构冲击和过剩生产力导致的失业问题,我暂时没有更好的解决方案。作为技术从业者我还是希望纯存一点,从技术角度思考问题。至于制度和文化我觉得应该交给更适合的人来先行思考。就从技术角度而言,大语言模型为代表的一系列 AI 技术和产品,确实可能给我们带来一个更好的未来。当下的 GPT 给我们的未来一个有所保障的下限,即使我们技术路线没有办法进步,我们对已有技术进行完善也足以称之为优秀的工作了。这些让我们技术侧的工作者有了更强的信心和动力,让我们朝着光的方向前进。
这种光,在我眼里,有另一个名字,是我认为一种对现实的「超越性」。我所追求的,是我在技术上看到了超越其本身的超越性。AI 技术带来的自动化,让我看到我脱离日常琐碎重复劳动的希望;而基于海量文本对人类心理的理解能力,让我看到了对自我性格进行补全完善的可能。这也是我希望通过创新所追求的。
溯洄从之,道阻且长
创新难吗?
确实很难。作为一个典型的「中国式学生」,我的思想不可避免地受到中式传统的影响。思考问题的模式也会收到过往教育经历的影响。很多时候我的「解题思路」会影响我的思考模式。我学了些东西,就想找个场景把他们用起来,故而经常拿着锤子去找钉子。然而,现实中成功的科研很多都是对着钉子去制造锤子的。
但是这种思维模式的阻碍其实只是我的个人问题,我也在学着用另一种思考模式去调整我的心态,这种问题是出自我自身的问题,是可以克服的。其实更难克服的障碍来自其他方面。
作为计算机领域的科研从业者,复现前人的工作是试验中重要的基础环节。为了公平的对比和测试,我花费了大量时间去整理和复现之前的工作。对某些测试的复现和测试开销非常巨大,让我本不富裕的钱包雪上加霜。而且即便是计算机这种学科,其中的工作也真真假假,也有很多同行不愿放出代码、数据或者详细的测试步骤,让文章复现阻碍重重。更有一些文章让人恼火,采用不开源的手段使指标虚高,导致同行无法复现,从而直接阻碍了领域的发展。
不过上述的问题是做科研路上不可避免的,是每个科研人都要面对的基础问题。相对比较幸运的是我选择了计算机这个比较年轻,也比较公平的学科。实验复现的成本比起生物、物理等重度依赖专业仪器的学科,这门学科还是给了我非常多的机会。
最近一年,AI 领域最热门的一个子方向无疑是 RAG 了。理论上说,RAG 的很多工作某种意义上只是一种高级的 prompt engineer。各种厂商在这个赛道上拼命内卷,让独立项目难以生存。虽然现状确有一些悲观,但是我还是非常认可这种思考模式。对我来说,RAG 证明了我的一个猜想:小模型的能力可以通过外接数据进行弥补。
这种说法,在有些地方叫作「Quality in. Quality out」。而其中最难处理的部分,是我们如何将高质量的知识送到 LLM 中。而信息不等于数据,更不等于知识。过去的一年中,我花费了大量时间研究这种前置数据的处理过程,如何处理数据这件事情上,我也有了更深刻的认识和思考。我们的资源决定了获取信息的流量,在有限的信息中更高效地提取知识,可能是未来几年最值得研究的问题。
整理前人的知识,这件事情在 2024 年的当下可能格外迫切。而这件事本身也确实非常符合我的个人价值观,不论是我四年前在 zlib 岌岌可危时和同学众筹搭建镜像站,还是最近无偿为计算机领域从业者搭建 arXiv 检索,其本质都是一致的,都是普天下读书人的理想:
「为天地立心,为生民立命,为往圣继绝学,为万世开太平」。
何以继绝学,卧薪尝胆苦读十载,方窥圣人遗志,习得先贤灵思;何以开太平,闭口深思实干万日,终能拨云见日,超越空谈妄语。人类耗费千年光阴在知性的丰碑上镌刻的一切皆能被我所用,超越跻身先贤之列也不是没有可能。这种自信,三分来自我少时青云之志,愿能鸿鹄高翔;三分来自我当下年轻气盛,正值年少轻狂;三分来自前辈传承,代代百世流芳;剩下一分是留得些许自知之明,能把谦卑好学留在心上,存得心境流光。
创新这件事,确实道阻且长。做科研的路确实不好走,不过我还年轻,在我有机会试错的时候,不妨让我试试为这个世界献上一场盛大的艺术吧
末法时代的读书人会梦到什么呢
从事计算机领域的科研之后,我思想上确实变得更加自由了。通过过去一年的学习和思考,我慢慢看到了一条边界,是当前 AI 模型和传统算法的边界,或者说是人和机器之间一条模糊的边界。这条界限之下,我看到的是人性,是温暖的文字,是优雅的公式,是用努力汗水和知性的一场交易;这条界限之上,是漫天星辰,是自动化的生产力,是辉煌灿烂的新世界。
这条界限在逐渐清晰的时候,我们也看到当下生产模式的变化,AI 辅助创作这种模式也不算新鲜了。越来越多的作品会使用同样的词句,基于同一个模型的的文章总是有一股不谋而合的 AI 风味。效率被提升的同时,不可避免带来的就是严重的同质化,这两者是相依相存的。
数千年前,印刷技术出现的时候,我们也曾经面对过这个矛盾。当活字印刷渐渐成为效率工具的时候,我们看到的是文明的传播,是技术的进步,是生产力的突破;被历史忽视的是书匠的失业,以及书写差异性的流失。待到打字机时代,这种自由被进一步剥夺。在人类还在亲手书写思想的时代,有颜筋柳骨,有苏黄米蔡。然当下,我们的书写工具的质量虽迅速提升,我们的纸笔质量比千年前优秀了千百倍,然当今天下书法,又有几人称王,几人成圣?
创作这件事也大抵如此,这是个体独立性的末法时代,是传统创作模式在凋亡和挣扎的年代。创作是不会死亡的,即便书法渐渐凋零的当下,这种文化还是得到了传承,而创新性更强的创作模式也不会死亡和消失。千年前的大儒学者,可能会喜欢自己的字体,会坚守自己的观念。他们亲手书写自己的作品,创作属于自己的字体,让形式和内容结合的艺术代代相传。当下大家已经不再固执地要为自己独创一种字体以彰显自己的个性,我们不再执着地追求字体上的形式自由,而在更深刻的创作领域追求自由。这也是我对这个世界最为痴迷和热爱的地方,人类总能在精神上找到自由的出路。焚书坑儒烧不毁诸子百家的辉煌,文艺复兴也不会被教会禁锢思想,我们的种族总有办法,让思想在无边无际的原野上驰骋奔放。
作为末法时代的读书人,除了做点小小的研究之外,这一年的闲暇时间,我还会用自己的文字真实地记录和描写我的生活。在鲍德里亚的观点中,我们的现代社会已经被拆解成符号。现在的 AI 也多少有些这种影子。许多所谓的虚拟女友或者是虚拟陪伴,对「人」的刻画也仅仅停留在符号化和标签化的描述上。一模一样的模型,贴上不同的标签就能变成不同的人。就好像今朝的《标签 拉链 皮》一样,我也真切感到科幻小说和现实的边界是如此模糊。但我觉得这个世界可能不应该这么简单,生命是体验的总和,我们的过往一切经历成就了我们的现在。就好比我并不喜欢用 MBTI 这种流行的标签定义自己一样,我的过去可爱又漂亮,短短几个标签怎么能概括我的灵魂在这世上二十余年的飘荡。
地球转动的速度,是每小时 15 度。arXiv 上,每天计算机领域的文章平均是 1500 篇。Groq 上的大语言模型半分钟可以生成 15000 个 token。尽管这个世界转得很快,变化也很快。相比之下,我每小时 1500 字的速度创作完全不值一提。但是这个世界很宽容,在 AI 慢慢抹除我们创作独立性的前夜,也请容我不紧不慢地为自己的创作小小地缅怀。
(好吧,我自己根据我自己过去 blog 的风格 fine tune 了一个模型,之后的创作或多或少会有一些自动化的要素了,所以有了这篇故事的结尾。)