Kros Dai’ Blog No excuse, no panic

Tim 从 Steve Jobs 接手 Apple 12 年了

因为要保持作息习惯,今年的 WWDC 和昨天的 Apple Event 我都没看直播。不出意外,今天又是一大片梗图嘲笑 Apple 已没有创新能力。

搞笑归搞笑,但是要知道 Apple 每个 SKU,在同品类和级别中都是全球出货量最大的设备。在十几年的时间里做到一如既往地持续更新、没有一款上市时间严重 delay、没有一款出大的质量问题,这是非常恐怖的能力。

Tim Cook 从 Steve Jobs 接手 Apple 已经 12 年了,除了维持了 iPhone 仍然是世界上最强大的、我个人认为性价比最高的手机外,还:

  • 成功推出了 Apple Watch,几乎占了一半的智能手表市场
  • 成功推出了 AirPods,占了 30% 的无线耳机市场,2022 年光 AirPods 的销售额就有 145 亿美元
  • 自研 CPU 已遥遥领先行业,iPhone / iPad / Mac / Watch / AirPods / HomePod / Apple TV 全系列硬件产品搭载了自研芯片
  • 软件体验跨设备无缝切换,搭建了一个强大的跨多种设备的软件生态
  • 宣布 2030 年前全部产品和服务实现碳中和,并且今年的 Apple Watch 从材料、生产到运输已实现碳中和
  • 没有跟着市场激进地扩张,也没有原地掉头裁员
  • 服务器没挂过(AWS、Facebook、Twitter 都挂过)
  • 没出过严重的公关危机事件

iPhone 15 Pro (Max) 在各项性能提升的同时,机身轻了 10%,支持录制 Spatio Video …… 不管你满不满意,我很满意。虽然还没亲身体验 Vision Pro,虽然至今所有的 VR 设备在我看来都失败了,但是按我现在对 Apple 和 Tim 的了解,我非常看好。

瓦格纳这是在送普金一份大礼

今天最大 Breaking News:瓦格纳集团叛变了。但我总觉得这件事对于普金的政权来说,是在俄乌战争上吃了那么多苍蝇之后最大的一次转机。

  • 西方绝对不会支持瓦格纳。道理很显然,西方世界的理想目标是把俄罗斯纳入自己的游戏规则(民主、开放市场),并不是为了推翻普金而推翻。瓦格纳如果强大到可以推翻普金,那么俄罗斯会成为一个更军事化的核武大国,他们就是一个威力加强版的普金,这是西方绝对不愿意看到的。乌克兰这时候很尴尬,到底是跟着瓦格纳反攻莫斯科呢,还是坐山观虎斗,我猜大概率是后者,因为相比普金,Prigozhin 危险 100 倍。所以瓦格纳的叛变基本上可以当做是帮了普金暂时挡住了乌克兰的反攻。
  • 瓦格纳只是一支雇佣军,不是一个“藩镇”,这和藩镇起兵的基础是完全不同的。藩镇有自己大本营、有财政收入,而瓦格纳必须依赖金主支持,失去俄罗斯后,谁又会充当金主呢?现代战争的补给太重要了,光有军队、没有军事物资补给很快就会崩溃。不知道瓦格纳这次叛变前准备了多少库存,我猜支持不了 3 个月。
  • 一支雇佣兵团在没有金主长期输血的情况下,最多也就 2、3 个月能玩。而俄罗斯战略纵深那么大,就算、就算势如破竹打入莫斯科,也不可能占领莫斯科,更不可能占领俄罗斯。所以,瓦格纳的目标只能是打击俄罗斯的经济和政治中枢,尽快联合各个“共和国”起来反抗普金,这样才有点胜算。
  • 但是,瓦格纳的叛变的政治理由非常不清晰,搞了个“清君侧”,说明他们还是尊重普金的法统地位,这已经让他们在政治上落了下风,很难和车臣之类的共和国联合起来对抗中央政府。
  • 俄罗斯至今没有把俄乌战事升级成全面战争,还是觉得理亏的,但现在面对内乱,只要瓦格纳的军事进展再进一步,威胁到莫斯科,Putin 完全可以进行全国总动员,剿灭国内叛军的理由无论如何都足够有力和政治正确了。最终如果全国动员起来,剿灭了叛军,那普金的威望和权利会达到一个新的高度,到时候手上又有忠臣与自己的胜利之师,再干乌克兰就真的不好说了。

所以,不知道 Prigozhin 同志怎么想的,我看普金这时候笑死了,看来敢限期让瓦格纳签合同收编还是有底气的。

蒙大拿州禁用 TikTok 的法案一定会被判违宪

蒙大拿州长 Greg Gianforte 签署了在全州禁用 TikTok 的法案,正式成为州法,自 2024 年 1 月 1 日起生效。 我预计很快会有美国的自然人或者组织在蒙大拿州联邦地区法院起诉州政府,这条州法很可能被判违宪,而且这个违宪得太过明显,不知道蒙大拿的 law makers 怎么想的,上诉到最高法院也一定是违宪。

  1. 漫无目的地立法(Bills of Attainder)。美国宪法第 1 条第 9 款规定 “不得制定追究或定罪某人的特别立法”,这禁止国会通过针对特定个人或群体的定罪法案;第 10 条第 1 款则规定 “各州不得通过追究或定罪某人的特别立法”,扩展了相同的禁止规定到各州;宪法第 14 修正案保障 “每个人在法律面前平等和平等保护的权利”,该法案专门限制 TikTok 而不涉及其他类似社交媒体,也违反平等保护条款,构成对特定实体的歧视。这 3 款共同禁止了国会和各州制定针对某个特定个人或团体定罪或施加处罚的法律,确保了立法的一般适用性,而不是滥用立法权力去惩罚特定目标。
    • (1866) Cummings v. Missouri:最高法院裁定密苏里州一项禁止担任特定职业的法律违反宪法,因为它设计上是针对特定个人的;
    • (1867) Ex parte Garland:最高法院裁定一项禁止南方同情者在联邦法院担任律师的法律违宪,因为它是针对特定群体的;
    • (1965) United States v. Brown:最高法院推翻了一项禁止美国公民在共产党的领导下从事劳工运动的法律,因为该法律只针对持特定政治信仰的公民;
    • (1984) Selective Service System v. Minnesota Public Interest Research Group:最高法院确立了男性注册兵役的法律不违宪,因为该法律是一般适用于所有同龄男性公民,而不是针对特定个人或群体。这显示法律要有一般适用性,而不针对特定目标,才符合宪法。
  2. 联邦,也就是说只有国会有权立法管制对外贸易,州政府无此权利。为了避免各州在这些涉外领域出现冲突或过度限制而损害整体国家利益,宪法第一条第 8 款赋予了国会管制对外贸易和国内商务的权力,它还确保只有联邦政府才有权与外国订立条约或达成协议。
    • (1824) Gibbons v. Ogden:最高法院裁定纽约州授予某人制定州际贸易规则的特许权违宪,因为国会有权管制州际及对外贸易,州政府不得干预;
    • (1827) Brown v. Maryland:法院推翻马里兰州征收进口货物税的法律,因为国会有征收关税的专属权力,州不得过度干预对外贸易;
    • (1942) United States v. Pink:法院认为纽约州不能限制与苏联的贸易,因为只有联邦政府有管制对外贸易与国际协议的权力;
    • (2000) Crosby v. National Foreign Trade Council:法院裁定马萨诸塞州禁止与缅甸贸易的法律违宪,因为它侵犯了国会在这一领域的专属立法权限;
    • (2003) American Insurance Association v. Garamendi:法院推翻加利福尼亚州要求保险公司披露纳粹时期的犹太人保单情况的法律,理由同上。
  3. 第一修正案确保了美国人享有非常广泛的言论自由,有关第一修正案的多个案例甚至保障了外国人和实体在美国传播信息的自由,法院认为阻止公民读取来自世界各地的书籍和观点影响美国公民获取信息的权利。
    • (1958) Ling v. Scott:法院推翻了一法加利福尼亚法律,禁止书店销售被视为 “危险” 的中文书籍,法院认为此举违反第一修正案;
    • (2001) Simon & Schuster, Inc. v. Fischetti:法院裁定即使是亲北京政府的书籍,也应受到一定程度第一修正案的保护,政府限制需证明一定理由。

其他方面的违宪可能:

  • 宪法第一条第 10 款禁止各州通过破坏合同义务的法律,TikTok 现有的用户和创作者的合约应当被保护;
  • 法案的生效程度及方式也需遵循 “正当过渡” 的原则,给予相关各方适当调整期,过度突然的效力也面临法律质疑。

现在媒体说的最多的是可能违反第一修正案,当然,但我觉得以上第 1 第 2 条是更清晰且无可辩驳的。如果美国允许针对一个特定群体或个体公司进行立法,或者让州法跨越联邦进行国际贸易管制,那一定会非常大地动摇美国宪法确立的原则、联邦和州的关系、各州之间的平等贸易、和自由市场的根基。如果在联邦层面最终通过了类似的法案,那么才会涉及到是否违反第一修正案,这就比较考验最高法院的法官(和原告律师团)了。

压缩即智慧?

GPT 是一种文本的有损压缩/解压算法

ChatGPT Is a Blurry JPEG of the Web 文章发表的时候 GPT-4 还没出来,但我觉得这篇文章真正揭示了 GPT/LLM 的本质 ——

💡 GPTs 是一种针对巨量文本内容的有损压缩与解压算法,ChatGPT 是被 OpenAI 筛选过的互联网文本内容的一份有损压缩的离线副本。
  • 互联网上的文本内容,可以认为是高维空间的人类知识在一维空间上的“投影”,GPT-like 的压缩算法是根据这些投影出来的信息,建立起的一个高维空间(XX亿参数)的模型。
  • Instruct 的作用,是让 GPT/LLM 学会如何解压信息。在使用 ChatGPT 的时候,模型根据你的输入,在高维空间选择了一个位置,打了一盏灯,调了方向和角度,投影到一维得到 tokens。
  • 对应地,可以把搜索引擎当做是全互联网文本信息的无损压缩,但就像浏览 JPEG 这种小尺寸的缩略图比看 RAW 更方便一样,有损压缩天然更适合查询信息。
  • 人类本身的记忆、学习的方式就是一种有损压缩,所谓 ”死记硬背” 暗示的就是这个人不聪明,而聪不聪明、或者说衡量智慧程度的度量,本质就是看你对信息的压缩比大不大,学了很少的信息就能融会贯通(推理能力强)的就是聪明的,其实就是压缩比高。
  • 而压缩比的关键,在于 reasoning 的能力(或者反过来说,所谓 reasoning 就是寻找一种信息压缩比最高的算法)。
  • 可以把所有 ChatGPT 的回答都当做它在用自己的有损信息做 “插值算法”,产生最能符合你要求的结果,当你要求 ChatGPT ”使用独立宣言的风格描述在烘干机中丢失袜子”时,他其实是在 “词汇空间” 中取两个点并生成占据它们之间位置的文本:When in the Course of human events, it becomes necessary for one to separate his garments from their mates, in order to maintain the cleanliness and order thereof …… 正是类似图像补全算法中的 “插值算法” —— 这种把有损信息补全的方式让我们产生了 GPT/LLM拥有 “智慧” 的错觉。
  • 现在 GPT/LLM 的通病 “幻觉” 就是来源于这种插值算法,这是有损压缩的必然产物,只是有些错误信息过于明显以至于我们一眼就能识别,而绝大多数输出其实本质也是一种 “幻觉”,只是我们觉得真实信息应该也是这样因此无法识别;就像人类的虚假信息,源头的传播者并不觉得自己是在制造虚假信息,他不知道是自己 ”脑补“ 出来的而是觉得自己真的 “知道”,这也可以看成是他们大脑产生的 “幻觉”;

如果 ChatGPT 真的是上述所说的这样是对于真实世界信息的有损压缩,那么我们会有几个推论:

  • 压缩后的数据质量非常取决于训练数据的 “清晰度”,反复使用模糊的图片去生成压缩图片是没任何意义的。因此 OpenAI 一定会竭尽所能,不让模型在训练时触到 GPT(或其他 LLM) 产出的语料(或者,如果发现 OpenAI 在竭尽所能把训练数据中清洗掉 GPT/LLM 生产的内容,也可以反过来印证 GPT/LLM 就是一种压缩算法的正确性)。这和现在市面上的 GPT copycats 用 ShareGPT 的语料蒸馏的路径会截然不同。
  • 训练语料的信息含量越高、原创性(独特性)越强、越是不像 GPT/LLM 能产出的语料、语料的风格特色越是丰富多样 …… 训练出的 GPT/LLM 的质量才会越高。
  • 真正具有原创能力的领域专家,将来在 GPT/LLM 的加持下,价值会十倍上升。
  • 因为是压缩,目前 GPT/LLM 的创作能力只体现在 “缝合” 而无法真正 “原创”,可以做出 AI 孙燕姿唱周杰伦的歌,但无法创作出 「半岛铁盒」、「爱在西元前」。

后来 OpenAI 的首席科学家 Ilya Sutskever 在与黄仁勋的对话中确认了这个说法,他认为 “really good compression of the data would lead to unsupervised learning”,这个 insight 是创立 OpenAI 的两个 founding ideas 之一:

We had two big initial ideas at the start of OpenAI that state that had a lot of staying power, and they stayed with us to this day … The first big idea that we had, which I was especially excited about very early, was the idea of unsupervised learning through compression … I really believed that really good compression of the data would lead to unsupervised learning. Now compression is not language commonly used to describe what is really being done until recently when suddenly it became apparent to many people that those GPTs actually compress the training data. There is a real mathematical sense in which training these auto-regressive generative models compresses the data, and intuitively you can see why that should work if you compress the data really well. You must extract all the hidden secrets which exist in it. Therefore that is the key.

其他:

  • 睡眠有助于巩固新的记忆,将短期记忆转化为长期记忆,并提高认知功能。这很可能暗示着 GPT/LLM 的范式已经非常接近大脑了,每天睡觉的一个重要作用就是把短期记忆重新 “训练” 压缩进模型。
  • 现在的 GPT/LLM 暂时离 AGI 还差不少,主要是如何赋予(教会)模型 reasoning 的能力,以使得压缩比可以百倍提升,但 CoT 的能力不太可能可以随着模型的尺寸增加线性增长出来。

2023 第一天,看看这个世界

在我人生中,经历过 3 次让我感觉无限幸福的时刻:

  1. 当把人生第一台 PC 捧回家的时候;
  2. 当 PC 装上 Modem,第一次听着一连串怪叫然后连上 Internet 的时候;
  3. 当手里拿着第一代 iPhone 的时候;

回头看这 3 个时刻,都代表着大家拥有了一种新的生产力工具。工具这东西对人类的价值实在太大了,以至于文明的程度会以掌握的工具来命名,比如石器时代、青铜器时代、铁器时代、蒸汽时代、电气时代 …… 这些科技的出现大幅延伸了人类的手和脚,使我们可以轻松捕获猎物、耕种土地,让我们走得更快飞得更高、运输更大更重的货物、制造出越来越精密的工具。到了电话、电报、无线电、电视的出现,一直到现在我们身处的 “互联网时代”、“移动互联网时代”,科技已经开始延伸人类的眼睛和耳朵,每一次的技术进步都使我们的信息获取效率提升十倍。十分幸运,竟然能在 20 年里体会到 3 次巨大的技术进步,每一次都让我感到自己对未来的想象力会跟不上现实的发展(实际上也是)。

2022 年,让我人生第 4 次感觉到想象力跟不上 —— 机器学习演化出的 AIGC 和 ChatGPT 将来一定会深刻影响每个人的生活,就像 PC、互联网、iPhone 的出现注定会影响所有人一样。只是如何影响、最终会成为一个什么样的产业格局,还不知道。但是站在未来回看,人们会说,从 2022 年开始,科技开始延伸人类的大脑了。

Untitled

相比 “信息时代” 的说法,我觉得 “软件时代” 更具象,因为 “信息” 本身不是一种科技,而软件才是(我在这对软件的定义,包含了计算能力也就是 CPU/GPU,下同)。信息只是软件解决的一部分问题,软件在更基础的层面、在全部的行业都大幅提升了生产力。比如:

  • 把 CD 淘汰的不是音质更接近的 MD,而是音质差得多的 MP3;把 MP3 播放器淘汰掉的是更笨重的 iPod;
  • 宫崎骏还在手绘「天空之城」时,Pixar 已经尝试用软件来制作动画片;
  • 第一代 iPhone 相比诺基亚,更大、更重、不支持 3G、摄像画质更差、不能复制粘帖、不能换电池的,但是无法阻止手机几年间就被 iOS 和 Android 瓜分了;
  • Tesla 这样的新能源在席卷汽车行业,核心是软件能力的提升让电气系统成为动力和传动系统,自动驾驶的突破也让电车在未来能有比油车好得多的使用体验;
  • 不是因为火箭的原理或制造能力的突破,而是软件能力的突破,让 SpaceX 的综合发射成本能降到原来的十分之一;

这些行业不像 BAT,核心都不是依赖解决信息效率而获得成功的,因此我觉得叫信息时代并不准确,而应该叫软件时代。否则无法解释现在全球市值最高的 2 家企业:Apple 和 Microsoft。Apple 解决的不是信息问题,而是(通过制造硬件)提供了独特的软件体验;微软是一家纯靠卖软件(包括游戏)的公司,并不卖任何信息。还有很多很多的企业,没那么大,但本质是依赖软件能力而获得的成功,比如我用过的 Invisalign(隐适美),靠软件标准化了牙齿矫正行业。

软件正在颠覆所有行业,不管制造业还是服务业,所有有所作为的企业都是软件企业,软件能力不行的公司的价值一定会面临严峻考验。从 2000 年到现在,中美靠软件一步步蚕食了日本和德国的制造业优势,成为唯二的 “发展中国家”。

数据源:[世界银行](https://data.worldbank.org/indicator/NY.GDP.MKTP.CD?end=2021&locations=CN-US-JP-DE-FR&start=2000&view=chart)

数据源:世界银行

要发展制造业,从低端(比如 SHEIN)到高端的芯片制造、航天、核聚变,都是要靠软件来实现十倍百倍的突破。

软件之所以有那么大的能量,我认为是因为软件是一种更底层的 “基建”。比如一个程序员,可以从教育行业,到 TapTap,再去汽车行业(真实案例)…… 这种专业技能可以跨那么大的行业而迁移,在以前是无法想象的。

科学的中文,原意为「分科治学」。随着工业革命和现代科学的进步,很多学科、行业的价值得到非常深入的挖掘,需要深入学习才能掌握前人的经验和知识。然而随着软件以及计算机硬件的进步,使得程序可以服务于非常多的学科和行业,代替了重复和繁重的数据处理和计算工作,现在研究数理化生物医学的“科学家”,首先必须是一名优秀的程序员,否则没有得力的武器。

DeepMind 的 AlphaTensor,发现了新的矩阵快速算法;DeepMind 的 AlphaFold,高精度预测了已知的 2 亿个科学界几乎所有编目蛋白质。而这些都基于的 AlphaZero —— 一个设计用于下围棋的 AI。棋牌游戏、线性代数、结构生物学,这些本来毫不相干的专业和学科,都依赖同一个技术分别往前推进了。嗯,光是 DeepMind 的研究还拓展到了考古数学热核物理

保守估计,在未来 10~20 年,我们将看到 AI 逐个攻占所有行业的科研阵地。「分科治学」在很长一段时间将不复存在,AI 将成为所有科研的基建

比如现在 ChatGPT 所展现出的 NLP 技术:

  1. 明显有逻辑且还有可解释性(Chain-of-thoughts);
  2. NLP 本身不受语言的限制,能处理各种人类自然语言。

这两件事合在一起就很可怕了,GPT-3 这种自然语言模型理论上可以储备任何的人类知识。这就注定会成为人类的生产力更底层的基建,也意味着很多行业会重新塑造。受互联网反复进攻但始终守住阵地的金融、医疗、法律三大行业,一定会被 ChatGPT 这样的 NLP 颠覆;这三个行业都依赖大量的专业文档和数据,且这些文档和数据有很强的逻辑性。从业人员都需要经过长期的专业训练和实践,踩过非常多的坑才能做到融会贯通。

  • 金融:比如巴菲特的工作就是读公司的财报,通过阅读、分析,结合自己对商业的认知来发现潜在被市场低估的优秀企业,其目标和实现的逻辑非常清晰,如果有一个飞速阅读且不知疲倦且过目不忘的 “巴菲特” 不断扫全网财报,是不是能比老巴菲特更早更多地发现投资机会?比如财务审计,大量采数和核对的工作,AI 可以通过计算机模型进行审计,比人类更准确地发现问题。
  • 医疗和法律更是依赖海量的文献和案例,AI 可以建立起更全面的知识库,从而提供更加准确的判断和解决方案。用来帮助咨询和诊断,都可以大大提升医疗和法律的服务水平,让专业人员可以更加聚焦于深入探索,更加快速地得出正确结论。
  • 影视和游戏行业,一定会被 AIGC 改写。
    • text-to-image/video 可以节省大量的原画设计、场景设计、3D 建模甚至特效的时间。工业光魔这种公司都很可能被新技术取代。
    • 现在的 3D 渲染软件、游戏引擎都是基于真实的物理规则做的近似模拟,体验的升级主要依赖硬件性能的提升。今后是否会从 stable diffusion 中衍生出全新的渲染范式,以至于不需要通过昂贵的计算来模拟真实物理和光线的规则?一旦有这样的突破,那么现在的引擎技术都会被重写。

现在还很难想象 AI 的终局是什么样,但一定会有很企业随着 AI 诞生、壮大或破灭,就像 2000 年前很难想象互联网的终局是什么样,当时最红的是一家做浏览器的公司叫 Netscape。

2014~2015,光一个推荐系统的技术进步,不止让所有互联网巨头收益,还孕育出一个字节。

AI 会不会取代人类?

如前所说,每次科技的进步都是在延伸人类的能力,会取代一部分人的工作,但同时也是解放更多人的双手双脚,释放的是更高的生产力,不需要打猎种地不代表没其他事情可做。科技的进步、文明的发展,只会激发更多的需求,会有更多的专业岗位,只是我们现在还不知道未来的图景是什么样的,就像 100 年前的人很难想象今天的工作岗位会是哪些。

This site is licensed under a Creative Commons License .