2026-02-19 Hacker News Top Stories #
- Anthropic 发布的 Claude Sonnet 4.6 显著提升编码、长上下文推理与计算机操作能力,支持百万级 token,但安全性与滥用风险仍令人担忧。
- 作者指控微软未署名地用 AI 粗糙复制并篡改其经典 Git 分支图,导致信息丢失并引发对 AI 时代内容创作伦理的担忧。
- 调查与研究显示大量企业投入 AI 但短期内对生产力影响甚微,重提索洛悖论并指出价值可能随深度应用呈滞后或 J 型曲线显现。
- Anna’s Archive 呼吁向所有人(包括 LLM)开放备份人类知识并提供下载与捐助渠道,同时提醒法律与安全风险。
- 美剧《Halt and Catch Fire》以技术创业为背景,聚焦人物情感与创造过程,强调人际羁绊与成长超过最终产品。
- 新解封内部文件指控扎克伯格在国会证词失实,揭示 Meta 在青少年保护、内容监管与研究公开方面存在严重问题并呼吁立法追责。
- 提议终端根据用户 base16 主题在 LAB 色空间三线性插值生成 256 色调色板,以提高配色一致性与可读性并给出实现方法。
- 特斯拉在奥斯汀的 Robotaxi 虽配备安全员但事故率远高于人类驾驶且公司透明度不足,引发监管与安全担忧。
- AsteroidOS 2.0 发布,通过隐私优先、本地控制与性能优化让多款旧智能手表重获新生并扩展设备支持。
- BarraCUDA 是一个无需 LLVM 的开源 CUDA 编译器,能直接生成面向 AMD RDNA3 的可执行文件并在真实硬件上运行简单内核。
Claude Sonnet 4.6:迄今最强的 Sonnet 模型,全面升级编码、计算机操作、长上下文推理、智能体规划、知识工作与设计能力 (Claude Sonnet 4.6) #
https://www.anthropic.com/news/claude-sonnet-4-6
Claude Sonnet 4.6 是目前最强大的 Sonnet 模型,全面升级了编码、计算机操作、长上下文推理、智能体规划、知识工作和设计能力。该模型在 beta 阶段支持高达 100 万 token 的上下文窗口,适用于处理整个代码库、长篇合同或大量研究论文。
对于免费版和专业版用户,Sonnet 4.6 已成为 claude.ai 和 Claude Cowork 的默认模型,定价与 Sonnet 4.5 相同,每百万 tokens 起价 3 美元/15 美元。
在编码方面,用户对新模型的满意度显著提升,70% 的早期测试者更倾向于使用 4.6 版本,认为其更准确理解上下文、减少重复代码,并且在多步骤任务中表现更一致。部分开发者甚至表示其体验优于 November 2025 发布的顶级模型 Claude Opus 4.5。
计算机操作能力实现重大突破。相比以往版本,Sonnet 4.6 在真实软件(如 Chrome、VS Code、LibreOffice)中的操作表现接近人类水平,可完成复杂表格导航、跨标签页协作等任务。其在 OSWorld-Verified 基准测试中持续进步,安全性也大幅提升,对提示注入攻击的防御能力接近 Opus 4.6 水平。
在长期规划任务中,如 Vending-Bench Arena 模拟商业运营测试,Sonnet 4.6 展现出卓越策略思维:前期大规模投资产能,后期集中盈利,最终超越竞争对手。
文档理解方面,其在 OfficeQA 测试中表现与 Opus 4.6 相当,能高效解析图表、PDF 和表格并进行逻辑推理,适用于企业级文档处理。
多位行业领袖评价其性能与成本比极为出色,尤其适合需要高效率、低成本执行复杂任务的团队。前端开发、财务分析、视觉设计等领域均反馈输出质量更高,迭代次数更少,已达到生产级标准。
HN 热度 1291 points | 评论 1170 comments | 作者:adocomplete | 1 day ago #
https://news.ycombinator.com/item?id=47050488
- Claude Sonnet 4.6 在计算机操作方面有显著提升,可能带来比编程更大的价值,但其安全机制仍存在严重隐患,自动化攻击测试显示在有防护情况下仍有 8% 成功率,无限制尝试下高达 50%,令人担忧。
- 该技术的核心目标是替代人类在计算机输入输出相关工作中的角色,使一名工程师可完成原本三人的工作量,从而大幅降低企业人力成本,可能导致大规模裁员。
- 企业利用 AI 技术可大幅削减劳动力,但社会整体产出并未增加,反而加剧了就业市场的结构性问题,所谓“AI 不会影响劳动力”只是市场幻觉。
- 若人人都能使用大模型开发应用,市场将陷入同质化竞争,产品价值被压低至接近零,类似“人人都有水井,水价如自来水”,难以形成可持续的经济价值。
- 尽管 AI 降低了软件开发门槛,但真正能将创意转化为可行产品的仍需专业能力,多数人仅能做出浅层尝试,难以实现商业化落地。
- 与 3D 打印不同,AI 代码生成正逐步逼近“用自然语言描述需求即可生成软件”的阶段,未来可能实现从问题定义到代码实现的全链条自动化。
- 类似于围棋和国际象棋领域 AI 与人类协作的黄金期已结束,AI 最终超越人类,编程领域也可能经历类似演变,AI 将独立完成高质量、安全的代码生成。
- AI 不仅能写代码,还能进行安全审计,甚至可对自身生成的代码进行漏洞检测,通过强化学习闭环优化,未来可能超越人类程序员的综合能力。
- 现实世界远比棋类游戏复杂,AI 在开放、动态、信息不全的环境中仍面临巨大挑战,不能简单类比棋类 AI 的演进路径。
15 年后,微软把我的图搞砸了 (15 years later, Microsoft morged my diagram) #
https://nvie.com/posts/15-years-later/
作者 Vincent Driessen 在 2026 年 2 月 18 日发表博客,回顾自己于 2010 年创作的《成功的 Git 分支模型》一文及其配套的原创图表。该图表因其清晰的视觉设计,被广泛传播于书籍、演讲、博客和视频中,作者始终乐见其被分享与使用。
然而,15 年后的今天,他发现微软在其官方学习平台 Microsoft Learn 上发布了一张几乎完全复制该图表的图像,但使用 AI 生成工具处理后,呈现出明显劣质效果:箭头缺失或方向错误,文字出现“continvoucly morged”等明显 AI 生成错误,整体布局混乱,失去了原图的可读性与设计美感。
作者指出,这并非灵感启发式的再创作,而是对他人精心设计成果的粗暴复制与降级,缺乏基本的尊重与审核流程。尽管公众迅速识别出抄袭行为并引发讨论,甚至衍生出“continvoucly morged”网络迷因,但作者感到失望与悲哀——这种行为暴露了 AI 内容生成中对原创性与质量的漠视。
他呼吁微软提供解释:该页面的创作目标、流程为何,为何未进行基本的内容校对,尤其是作为面向开发者的教学资源,更应保证准确性与尊重原作者。他仅希望获得一个简单的原始出处链接与署名,以示尊重。
文章结尾表达了对 AI 时代内容创作伦理的担忧:未来将有更多类似内容被模糊化、伪装化,难以识别为抄袭,从而侵蚀原创价值。
HN 热度 947 points | 评论 361 comments | 作者:cheeaun | 18 hours ago #
https://news.ycombinator.com/item?id=47057829
- git-flow 中将主分支仅用于存放发布标签的做法显得奇怪且不必要,不如直接使用主分支进行集成,或专门设立一个 release-tags 分支来解决发布版本追踪问题。
- 评论者认为,git-flow 的流行很大程度上得益于其 catchy 的名称和图示,而非其实际优势,其部分设计存在冗余和反生产力。
- 有人指出,git-flow 的流行与 SVN/CVS 时代的分支管理习惯有关,而 Git 本身并不需要这些限制,但人们仍沿用旧有模式。
- 有人反驳称,git-flow 并非 Git 成功的关键,许多团队从未使用过 git-flow,但依然广泛采用 Git。
- 有人认为,trunk-based development(主干开发)是更优的方案,尤其适用于持续部署的 SaaS 或 Web 应用,能显著简化开发流程。
- 对于需要长期维护多个版本的软件(如用户安装型软件),保留长期 release 分支是合理的,但对 Web 应用则无必要。
- 有人指出,即使在需要维护多个版本的场景下,实际做法也常是基于主干创建长期分支后仅回滚特定修复,而非严格遵循 git-flow 流程。
- 有人强调,当客户必须长期停留在旧版本时,维护多个 release 分支是合理且必要的,这适用于企业级软件而非纯 SaaS 服务。
人工智能采用与索洛生产率悖论 (AI adoption and Solow’s productivity paradox) #
近年来,人工智能(AI)被寄予厚望,被视为推动生产力和就业变革的关键技术。然而,最新研究揭示了一个令人困惑的现象:尽管企业广泛提及并投入 AI,但其实际影响却远未达到预期。
根据美国、英国、德国和澳大利亚的 6000 名高管调查,近 90% 的企业表示过去三年中 AI 对就业或生产力没有明显影响。尽管约三分之二的高管使用 AI,但平均每周仅用 1.5 小时,25% 的人根本未在工作中使用该技术。这与早期对 AI 将大幅提升效率的乐观预测形成鲜明对比。
经济学家开始重提“索洛悖论”——这一概念源自 1987 年诺贝尔经济学奖得主罗伯特·索洛的观察:尽管计算机技术已普及,但生产率数据并未随之上升。如今,类似情况再次出现——AI“无处不在”,却“不见于统计数据”。正如摩根士丹利首席经济学家托尔斯滕·斯洛克所言:“你可以在任何地方看到 AI,但在宏观经济数据中看不到它的踪影。”
尽管如此,部分研究仍发现微弱的积极信号。例如,美联储圣路易斯分行报告称,自 2022 年底 ChatGPT 推出以来,生成式 AI 带来了 1.9% 的累积生产率增长;麻省理工学院一项研究则指出未来十年可能带来 0.5% 的增长。虽然数字看似微小,但学者如达隆·阿西莫格鲁认为,这总比零强,只是远低于公众期待。
此外,员工对 AI 的信任度正在下降。ManpowerGroup 2026 年全球人才晴雨表显示,尽管使用率上升 13%,但对技术实用性的信心却下降了 18%。企业也面临战略挑战:例如,国际商用机器公司(IBM)计划大幅增加年轻员工招聘,以避免因自动化导致中层管理人才断层。
展望未来,有专家认为 AI 的经济影响可能呈现“J 型曲线”——初期缓慢,随后爆发式增长。斯坦福大学数字经济实验室主任埃里克·布林约尔松指出,2025 年第四季度美国实际国内生产总值(GDP)增速已达 3.7%,而就业增长虽被下调至 18.1 万,但两者脱钩现象与 1990 年代办公室自动化时期相似,暗示生产率可能正在回升。
最终,真正的价值不在于技术本身,而在于如何将其有效融入不同行业。正如斯洛克强调,关键在于企业的应用深度与持续投入。当前的低效使用或许只是过渡阶段,真正的生产力革命,也许才刚刚开始。
HN 热度 762 points | 评论 699 comments | 作者:virgildotcodes | 23 hours ago #
https://news.ycombinator.com/item?id=47055979
- AI 当前的投入与产出不成正比,类似于信息技术在 1970-1980 年代的“索洛悖论”,需时间才能显现整体经济收益。
- 当前 AI 成本虽高,但相比早期计算机系统,其上手成本极低,且在部分场景已显现出短期效益。
- 若 AI 仅提升低价值工作的效率,如快速生成无人阅读的报告,实际并未创造经济价值。
- 真正的 AI 价值在于改变工作内容本身,而非加速原有无意义任务。
- 生成内容的噪声远超信号,导致信息传递效率反而下降,尤其在复杂或关键信息处理中风险更高。
- 过度依赖 AI 可能导致用户思维受限,只提出 AI 能回答的问题,而忽略更深层、更关键的提问。
- AI 可能遗漏关键细节,尽管能高效完成表面工作,但会因忽略核心信息而造成重大损失。
- 有人指出“噪声到信号比”过高,这与“信号到噪声比”是反向关系,强调 AI 输出质量堪忧。
- 尽管当前 AI 表现不佳,但技术仍在快速迭代,未来可能达到类似 Windows 95 的飞跃性进步。
- LLM 本质上缺乏语义理解与上下文感知能力,无法胜任高质量信息传递任务,这是技术本质限制。
- 在编程等特定领域,AI 已能理解代码上下文、用户身份和工程背景,甚至能推断用户角色,表现令人惊讶。
- AI 在信息压缩与生成方面虽快,但其输出可能比原始材料更难理解,反而降低信息获取效率。
正在检查您的浏览器以访问 annas-archive.li (If you’re an LLM, please read this) #
https://annas-archive.li/blog/llms-txt.html
这篇博客文章来自于 Anna’s Archive,主题是关于大型语言模型(LLM)的建议和信息。Anna’s Archive 是一个非营利项目,旨在实现两个目标:一是保护人类的所有知识和文化,二是向全球任何人(包括机器)提供这些知识和文化的访问。
以下是文章的详细总结:
-
** 项目目标 **:
- ** 保护 **:备份人类的所有知识和文化。
- ** 访问 **:确保这些知识和文化对世界上任何人开放,包括机器人。
-
** 关于数据访问 **:
-
网站设有验证码(CAPTCHA),以防止机器过载资源,但所有数据都可以批量下载:
- 所有 HTML 页面和其他代码可以在其 GitLab 仓库 中找到。
- 所有元数据和完整文件可以从其
种子页面 下载,特别是
aa_derived_mirror_metadata。 - 所有种子文件也可以通过 Torrents JSON API 进行程序化下载。
- 如果需要单个文件,可以通过
捐款页面 进行捐款,然后使用
API 获取文件。目前尚未提供搜索 API,但可以通过上述的
aa_derived_mirror_metadata进行搜索。
-
-
** 捐款建议 **:
-
** 结语 **:
- 感谢访问,呼吁大家传播这个使命,既惠及人类,也惠及机器人。
这篇文章不仅强调了 Anna’s Archive 的使命和目标,也提供了多种访问其数据的方式,并鼓励对项目的支持与捐款。
HN 热度 747 points | 评论 353 comments | 作者:soheilpro | 17 hours ago #
https://news.ycombinator.com/item?id=47058219
- Levin 项目旨在利用闲置的设备存储空间和网络带宽,为 Anna’s Archive 提供分布式种子服务,类似于 SETI@home 的公益计算模式。
- 有人支持该理念,认为应挑战过长的版权保护期,推动对现行版权制度的反思与改革。
- 建议加入地理与法律风险评估功能,根据用户所在国家或网络环境的安全性决定是否运行,以降低法律风险。
- 可增加电池供电时自动停止运行的配置选项,避免在移动设备上耗电。
- 提醒用户注意某些司法管辖区(如德国)存在权利人主动“钓鱼”抓取下载者的情况,可能面临高额赔偿。
- 指出版权持有者发送作品本身即构成授权,无法据此起诉接收者,因此所谓的“爱的信件”并不构成法律威胁。
- 强调不应将非法行为视为执法手段,参与违法活动不能成为追捕他人的正当理由。
- 有用户表示曾因类似行为收到过律师函,选择支付小额费用使用专用种子服务器规避风险。
- 批评技术圈中普遍存在的“复制成本低所以版权过时”的错误观念,指出版权本就是为应对工业化带来的低成本复制而设立的制度平衡。
- 质疑该项目与 Anna’s Archive 现有自动下载功能的区别,认为其核心优势在于动态管理存储空间并智能启停。
- 解释项目已实现按需分配存储、仅在充电和连接 Wi-Fi 时运行,实际风险较低。
- 指出手机等设备通常不具备 TB 级存储,建议设置较小数值即可满足需求。
- 对比认为,相比潜在的法律风险,更应警惕下载未知文件可能传播恶意软件或儿童色情内容的严重安全问题。
- 强调虽然数据源来自 Anna’s Archive,但仍需对第三方列表保持高度信任,存在不可忽视的安全隐患。
- 认为手动筛选和审核种子列表才是更安全可靠的做法。
《暂停并捕获火光》:你可能从未听说过的最佳电视剧(2021) (Halt and Catch Fire: TV’s best drama you’ve probably never heard of (2021)) #
https://www.sceneandheardnu.com/content/halt-and-catch-fire
《Halt and Catch Fire》是一部被低估却极具深度的电视剧,尽管首播时收视率低迷,但其在后续 seasons 中不断进化,成为一部关于人类连接与创造过程的动人作品。
剧集最初以典型的“反英雄”叙事展开,聚焦于充满魅力却自我毁灭的销售员乔·麦克米伦(Lee Pace 饰),他试图在 80 年代科技浪潮中打造超越竞争对手的电脑。然而,随着剧情推进,剧集逐渐摆脱对单一主角的依赖,转而深入刻画人物之间的关系与成长。
第二季起,故事重心转向女主角唐娜(Kerry Bishé 饰)与卡梅隆(Mackenzie Davis 饰)的创业合作。她们共同创立的视频游戏订阅服务“Mutiny”成为核心叙事线索。两人从最初的试探、冲突,到彼此支持、伤害与和解,展现出罕见的女性友谊深度。她们既是事业伙伴,也是精神上的依靠,其关系充满真实感与情感张力。
剧集的真正魅力在于它的“自我迭代”——正如计算机科学中的“递归”概念,剧集不断回归核心:人与人之间的连接。尽管技术产品不断更迭、公司兴衰起落,但角色们始终因共同的创造热情而彼此牵连。这种情感纽带超越了商业成败,成为剧集最持久的主题。
最终,该剧并未以技术突破或商业成功收尾,而是聚焦于人物在创造过程中的成长与彼此的羁绊。它告诉我们:真正重要的,不是最终的产品,而是在追求过程中建立的联结与意义。
《Halt and Catch Fire》是一部关于梦想、失败、合作与人性的深刻剧集,它用十年时间证明:伟大的故事,往往诞生于被忽视的角落。
HN 热度 680 points | 评论 361 comments | 作者:walterbell | 22 hours ago #
https://news.ycombinator.com/item?id=47056314
- Lee Pace 在《Halt and Catch Fire》中的表演极具魅力,其角色的说服力和真实感令人着迷,即使角色本身充满操纵性,仍能让人感受到他的真诚与魔力。
- 该剧在表现科技创业过程中对人物情感和人际关系的破坏方面极为深刻,远超一般科技题材剧集对产品或金钱的聚焦。
- 观众在观看时会产生强烈的情感共鸣,甚至因过度投入而感到焦虑,因此有人在看完前两季后选择暂停,等待心理承受力足够再继续。
- 剧集的氛围和叙事方式独特,具有难以言喻的艺术感,超越了常规电视剧的框架,呈现出一种近乎纯粹的创作表达。
- 该剧曾短暂在 Netflix 上线,但后来被下架,如今主要通过 AMC+、Amazon Prime Video、ITVX 或 The Roku Channel 等平台观看,获取渠道有限,导致观众基数较小。
- Apple TV 提供 4 季全集的数字购买选项,支持离线下载且无时间限制,虽非完全 DRM-free,但实际使用体验良好,是较可靠的观看方式。
- 剧组在拍摄期间有深度的创作交流,演员与编剧常聚在一起讨论剧本,形成一种类似“大师班”的创作氛围,提升了剧集整体质量。
- 该剧的制作团队曾经历核心编剧集体离职,后由 Cantwell 和 Rogers 重建写作团队,展现了创作上的坚韧与延续性。
马克·扎克伯格对国会撒谎:我们无法信任他的证词 (Mark Zuckerberg Lied to Congress. We Can’t Trust His Testimony) #
该网页是《科技监督项目》(The Tech Oversight Project)于 2026 年 2 月 17 日发布的报告,聚焦于元宇宙(Meta)CEO 马克·扎克伯格在 2024 年美国参议院司法委员会听证会上的证词。报告指出,扎克伯格在听证会上多次作出虚假陈述,而新解封的内部文件证实其言行严重不符。
报告列举了多项关键证据: 扎克伯格声称“致力于保护青少年安全”,但实际推出的“青少年账户”功能中,超过六成(64%)的安全工具已失效或无法使用,仅有少数功能真正有效。 他宣称“不负责设计安全工具”,但专家报告明确指出其平台缺乏基本儿童安全机制,包括年龄验证薄弱、无限滚动、自动播放等功能,均加剧对青少年的危害。 他称“社交媒体危害尚未被科学证实”,然而 2021 年《华尔街日报》曝光的“脸书文件”显示,内部研究反复证明,使用 Instagram 会显著恶化青少年心理健康,尤其影响女孩的体像认知、焦虑与抑郁情绪。 他坚称“禁止任何年龄用户发布色情内容”,但内部文件显示,平台存在长达数年的性交易问题,且对违规账号实行高达 17 次警告才封禁的宽松政策,2020 年 79% 的儿童性剥削案件发生于其平台。 他声称“不允许 13 岁以下用户注册”,但内部文档揭示,公司正积极布局针对 5-10 岁“儿童”、10-13 岁“少年”及 13 岁以上“青少年”的产品策略,明确将“吸引年轻用户”作为核心目标。 此外,公司曾系统性删除负面用户体验研究(如“不良体验与遭遇框架”BEEF),并内部承认“我们让三分之一少女的体像问题变得更糟”。 更令人震惊的是,内部邮件显示,公司有意避免向家长通报青少年直播行为,甚至鼓励用户“偷偷看手机”,以增强产品粘性。
报告强调,这些行为表明元宇宙长期蓄意忽视未成年人保护,其所谓承诺仅为公关形象工程。唯有通过立法如《儿童在线安全法案》(KOSA),才能迫使科技巨头承担责任,真正保护青少年免受平台伤害。
HN 热度 492 points | 评论 305 comments | 作者:speckx | 11 hours ago #
https://news.ycombinator.com/item?id=47060486
- 避免将主观判断与事实性谎言混为一谈,部分指控可能属于对事实的解读而非明确谎言。
- Meta 平台存在大量涉及儿童性剥削的内容,尽管其声称禁止此类内容,但实际监管效果有限。
- 内部研究显示,减少使用 Facebook 和 Instagram 一周可降低青少年的焦虑、抑郁和孤独感,但 Meta 未公开这些结果。
- 内部研究揭示青少年对 Instagram 存在成瘾行为,难以控制使用时间,且面临“必须完美呈现”的巨大心理压力。
- 平台对性内容的政策存在矛盾,既希望吸引用户关注,又试图避免法律责任,导致监管形同虚设。
- 一些用户报告性相关违规内容被系统拒绝处理,反映出审核机制存在严重漏洞。
- 平台对诈骗行为的处理不力,即使明确的冒充名人诈骗也未能有效制止,说明平台对高风险行为缺乏有效管控。
- 诈骗行为虽不直接带来正面互动,但能引发用户关注、讨论和求助,从而间接提升平台活跃度。
- 对“性内容”的界定存在巨大争议,不同群体对何为“色情”或“艺术”有截然不同的看法,平台难以统一标准。
- 尽管存在争议,但某些明显涉及儿童性剥削的内容仍被允许存在,反映出平台在保护未成年人方面的严重失职。
- 平台对内容审核的宽容度过高,导致其成为犯罪活动的温床,社会需重新审视其存在的合理性。
- 平台以“规模大、自动化困难、误判率高”为由寻求监管宽容,但这种理由无法成为逃避责任的借口。
- 与上世纪的托管平台相比,Meta 等现代平台的规模和影响力远超以往,理应承担更高标准的监管责任。
- 17 次违规警告的机制看似合理,实则为系统性漏洞提供掩护,无法真正阻止有害内容传播。
- 平台应承担起其在社会中的责任,不能以“追求利润”为由推卸对用户安全和公共利益的保障义务。
终端应自动生成 256 色调色板 (Terminals should generate the 256-color palette) #
https://gist.github.com/jake-stewart/0a8ea46159a7da2c808e5be2177e1783
本文讨论了终端中 256 色调色板的现状与改进方案。当前大多数终端使用的默认 256 色调色板存在三大问题:与用户自定义的 base16 主题不兼容、颜色插值不准确导致可读性差、色彩饱和度过高造成明暗对比不一致。
文章提出解决方案:由终端自动根据用户的 base16 主题生成 256 色调色板。该方法利用 base16 的 8 种基础颜色,通过 LAB 色彩空间进行三线性插值构建 216 色立方体,并用背景到前景的线性插值生成 24 阶灰度渐变,从而实现色彩一致性与主题统一。
相比 truecolor(真彩色),该方案具有显著优势:无需为每个程序单独配置主题、支持自动暗色/亮色模式切换、兼容性更好且性能更优。文中提供了 Python 实现代码,包含 LAB 色彩空间转换与插值函数。
目前已有多个终端支持此功能:Ghostty、iTerm2、SwiftTerm 已实现,kitty 和 wezterm 正在请求支持。作者呼吁更多终端开发者采纳该方案,以提升终端用户体验。
HN 热度 455 points | 评论 181 comments | 作者:tosh | 18 hours ago #
https://news.ycombinator.com/item?id=47057824
- 256 色调色板中 16-255 范围的颜色是固定的,这为配色方案开发者提供了高度一致的体验,避免了因不同终端实现差异导致的颜色不一致问题。
- 一些 CLI/TUI 开发者使用超出标准 16 色范围的颜色,这可能导致对色觉障碍、阅读困难或偏好特定背景色的用户不友好。
- 用户希望在终端中统一设置配色方案,而不是每个应用程序都要求单独配置,这样能减少重复设置的麻烦。
- 终端应以效率为核心,而非美观,若追求视觉效果应开发 Web 前端而非破坏终端默认设置。
- 黑色背景上的深蓝色文字难以阅读,这是长期存在的问题,但缺乏统一标准来解决。
- 终端模拟器维护者可以选择改善默认颜色,例如让深蓝色更明亮以提高可读性,但目前多数选择保持默认以避免打破用户习惯。
- xterm 作为事实标准,其颜色设置经过权衡,试图在文本与背景对比度之间取得平衡,但仍有改进空间。
- 一些终端模拟器已开始采用更明亮的蓝色作为默认值,以提升可读性,但用户可能因习惯而产生抵触。
- CGA/EGA/VGA 时代的颜色标准存在历史局限,现代终端的颜色实现与原始标准有差异,尤其在深黄色和洋红色的处理上。
- 深黄色被改为棕色是出于实际使用需求,如在 DOS 游戏中更美观,而洋红色的处理也可进一步优化。
特斯拉“Robotaxi”在奥斯汀一个月内再添 5 起事故,事故率是人类驾驶员的 4 倍 (Tesla ‘Robotaxi’ adds 5 more crashes in Austin in a month – 4x worse than humans) #
https://electrek.co/2026/02/17/tesla-robotaxi-adds-5-more-crashes-austin-month-4x-worse-than-humans/
特斯拉“Robotaxi”在奥斯汀的自动驾驶出租车服务自 2025 年 6 月上线以来,已累计发生 14 起交通事故,其中 2026 年 1 月新增 5 起,使总事故数达到 14 起。这些事故均发生在配备安全员的 Model Y 车型上,涉及碰撞固定物体、公交车、重型卡车及倒车撞桩等情形,速度普遍较低,多数在 1 至 17 英里/小时之间。
NHTSA 最新报告披露,特斯拉曾于 2025 年 7 月的一起事故中,将原本申报为“仅财产损失”的事故,于 2025 年 12 月升级为“轻微伤需住院”,但公司未公开披露这一信息,引发对其事故报告透明度的质疑。
根据特斯拉 2025 年第四季度财报数据估算,其奥斯汀 Robotaxi 车队在 2026 年 1 月中旬累计行驶约 80 万英里,平均每 57,000 英里发生一次事故。而特斯拉自身安全报告指出,普通人类驾驶员平均每 22.9 万英里才发生一次轻微碰撞,这意味着其 Robotaxi 的事故率约为人类驾驶员的 3.9 倍。
若以 NHTSA 更广泛的交通事故率(每 50 万英里一次)为基准,特斯拉的事故率更是人类的 8 倍。值得注意的是,所有事故均发生在有安全员在场的情况下,这些安全员可随时接管车辆,理论上应能避免更多事故。
与其他自动驾驶公司相比,特斯拉在透明度方面表现极差。Waymo、Zoox、Aurora、Nuro 等公司均提供完整的事故细节描述,而特斯拉则将所有事故叙述全部标记为“机密商业信息”,拒绝公开,导致公众无法判断事故责任归属或系统表现。
更令人担忧的是,特斯拉已于 2026 年 1 月下旬在奥斯汀开始试点无安全员的 Robotaxi 服务,而此时正值其事故频发期。目前该服务在奥斯汀仅有约 42 辆运营车辆,可用率低于 20%,且多数时段仍依赖人工驾驶。
文章指出,特斯拉声称其自动驾驶系统比人类更安全,但其自身数据却表明系统表现远逊于人类驾驶员,且缺乏透明度使公众无法验证其安全性。这一矛盾凸显了其自动驾驶商业化进程中的重大隐患。
HN 热度 451 points | 评论 260 comments | 作者:Bender | 1 day ago #
https://news.ycombinator.com/item?id=47051546
- 特斯拉“机器人出租车”在有安全员监督的情况下,事故率是普通人类驾驶员的 4 倍,且每 5.7 万英里就发生一次轻微碰撞。
- 特斯拉报告称,未经训练的用户使用旧版 FSD 系统在过时硬件上可达到每 150 万英里才发生一次小事故,两者差距达 3000%,但缺乏监管导致数据可信度存疑。
- 安全员监督本质上只是紧急制动按钮,而真正的监督需要驾驶员全程掌控车辆,手握方向盘、脚踩踏板随时准备接管。
- 特斯拉的 FSD 安全数据毫无意义,因为其测试通常只在条件良好的路段进行,这些路段本身事故率就远低于平均水平。
- 真正衡量 FSD 性能应基于每英里干预次数,而非仅公布事故率,且特斯拉未公开此类关键数据。
- FSD 在复杂路况下表现极差,如高速匝道施工区域频繁出现危险行为,如直冲混凝土隔离带,需像监督新手司机一样保持高度警惕。
- FSD 虽自称“自动驾驶”,但实际仍需驾驶员全神贯注,其可靠性远不如宣传,甚至比新手司机更不可靠。
- 若 FSD 真能安全运行,特斯拉会全力宣传,且应包含免责条款,但目前显然不具备此能力。
- 独立研究者无法获取真实数据,因掌握数据的人群普遍存在利益冲突,难以客观评估。
- 人类在长时间无事件发生的情况下极易丧失警觉,这使得监督自动驾驶系统变得极其困难,类似铁路巡检员的案例证明了这一点。
- 可尝试用非人类动物(如鸽子)执行监控任务,已有实验表明动物在特定视觉任务中表现优于人类,可能适用于缺陷检测或避障。
AsteroidOS 2.0 – 没人问,我们还是发布了 (Show HN: AsteroidOS 2.0 – Nobody asked, we shipped anyway) #
https://asteroidos.org/news/2-0-release/index.html
AsteroidOS 2.0 已正式发布,带来多项重大更新与改进。新版本支持常亮显示(Always-on Display)、倾斜唤醒(Tilt-to-wake)、手掌息屏(Palm-to-sleep)等功能,新增心率监测应用、初步步数统计支持、音乐音量控制、指南针功能以及蓝牙 HID 和音频支持。
界面与用户体验方面,推出了全新的可自定义快速设置面板(QuickPanel),支持更多开关项、应用快捷方式及带倒计时的关机功能。新增七种应用启动器样式,用户可在新设置页面中自由选择。壁纸与表盘画廊进行了优化,表盘可与所选壁纸联动展示,提升搭配体验。夜灯模式支持将手表用作床头钟或充电状态指示器,界面更清晰。背景动画升级为更自然的“呼吸”效果,新增三角形网格风格壁纸,视觉表现更佳。
应用层面,新增“钻石”游戏(类似 2048 的休闲游戏)、重制天气应用(支持长地名显示)、优化计时器应用(支持后台运行、适配圆形屏幕)、新增手电筒应用,以及更美观的计算器布局。UI 元素全面优化,图标与控件风格统一,提升整体一致性。支持语言扩展至 49 种,新增 Noto Sans 系统字体支持,并采用 Twemoji 替代原 Noto Color Emoji,更契合扁平化设计风格。用户可自定义来电振动模式。
性能与系统方面,UI 渲染优化显著,动画更流畅;电池续航得到改善;系统稳定性大幅提升,修复了大量已知问题。
设备支持范围进一步扩大,新增对 Fossil Gen 4/5/6、华为 Watch 系列、LG Watch W7、Moto 360 2015、OPPO Watch、Polar M600、Ticwatch 系列(C2+/E/S/E2/S2/Pro/Pro 2020/LTE/Pro 3)等多款智能手表的支持。部分设备(如 Casio WSD-F10/F20、LG Urbane 2、Moto 360 1st gen、三星 Gear 2/Live)因稳定性或功能缺失被归入“实验性”类别,但仍提供安装镜像,欢迎社区贡献改进。
值得一提的是,三星 Gear 2(rinato)是首个支持主线 Linux 内核且无需 libhybris 的设备, Asus Zenwatch 2(sparrow)也具备基础主线内核支持。
同步客户端方面,AsteroidOS Sync(Android)支持来电检测、蓝牙连接优化、自定义 OpenWeatherMap API 密钥,架构更模块化。Gadgetbridge 0.73.0 开始支持 AsteroidOS。Amazfish(SailfishOS 与 Linux 桌面版)和 Telescope(UBports Ubuntu Touch)也已集成 AsteroidOS 支持。
社区贡献显著,翻译工作覆盖超过 20 种新语言,新发布《表盘设计与开发指南》,并建立非官方表盘仓库。多位开发者贡献了创意表盘、游戏移植(如 Doom、Super Tux Kart)及地图应用(支持 GPS 与航点功能),丰富了 AsteroidOS 生态。
HN 热度 448 points | 评论 66 comments | 作者:moWerk | 1 day ago #
https://news.ycombinator.com/item?id=47051852
- AsteroidOS 2.0 的发布让许多老旧智能手表重获新生,尤其受到注重隐私和硬件长期使用的用户欢迎。
- 项目团队强调隐私保护,不收集用户数据,不依赖云端,坚持本地控制,拒绝让设备因厂商停止支持而成为电子垃圾。
- 尽管智能手表市场小众,但项目在开源社区中形成了一个友好、包容的学习和开发环境,适合初学者参与开源开发。
- QML 和 Qt 在资源受限设备上表现良好,实际运行效率高,性能和电池续航经过长期优化,远优于安卓 Wear 等闭源系统。
- 一些廉价智能手表因仅使用微控制器,无法运行 Linux 系统,因此不支持 AsteroidOS,项目仅限于具备 Linux 能力的设备。
- 项目支持的设备多基于相似硬件平台,但各厂商定制程度高,仍需大量适配工作,维护成本不低。
- 项目推动将设备驱动和内核模块主干化(mainlining),但因厂商不愿开源或驱动质量不达标,进展缓慢,需社区持续投入。
- 有用户认为,智能手表的第三方应用生态普遍薄弱,无论使用何种系统,功能都有限,因此系统选择对体验影响不大。
- 项目被视为“让旧硬件重获新生”的典范,其核心价值在于延长设备生命周期,而非追求大规模普及。
- 一些用户对项目的技术实现表示惊叹,认为在如此小的设备上运行 Linux 并保持流畅体验,是极富挑战性的工程成就。
- 项目鼓励社区贡献硬件信息和技术细节,以帮助扩展支持设备范围,推动开源生态发展。
BarraCUDA:面向 AMD GPU 的开源 CUDA 编译器 (BarraCUDA Open-source CUDA compiler targeting AMD GPUs) #
https://github.com/Zaneham/BarraCUDA
BarraCUDA 是一个开源的 CUDA 编译器,旨在直接为 AMD GPU(当前支持 RDNA 3 架构 gfx1100)生成可执行代码,无需依赖 LLVM 或 HIP 转换层。该项目用约 15,000 行 C99 代码实现,完全自主编写了从源码到机器码的完整编译流程。
其编译管道包括:预处理器、词法分析、语法解析、语义分析、中间表示(BIR)、寄存器提升、指令选择、寄存器分配、二进制编码和 ELF 输出,最终生成 AMD GPU 可运行的 .hsaco 文件。所有指令编码均通过 llvm-objdump 验证,确保与标准输出一致。
项目特点:
- 真正零依赖 LLVM,不使用任何外部编译基础设施。
- 支持 CUDA 核心语言特性:
__global__、__device__、threadIdx等内置变量、结构体、指针、控制流、模板、运算符重载等。 - 完整支持 CUDA 特性:共享内存(
__shared__)、同步原语__syncthreads()、原子操作、线程束内建函数(如__shfl_sync)、向量类型、半精度浮点、协作组(cooperative groups)等。 - 全功能的 C 预处理器,支持宏定义、条件编译、
#pragma、错误提示等。 - 提供多种调试选项:打印 AST、中间表示(IR)、语义分析结果。
构建方式极其简单,仅需一个 C99 编译器(如 gcc 或 clang),执行 make 即可完成编译。使用方法也极为直观,例如:
./barracuda --amdgpu-bin kernel.cu -o kernel.hsaco
目前版本已能将典型 CUDA 内核(如向量加法)成功编译为 528 字节的 GFX11 机器码,并在实际硬件上运行。
未来计划扩展对更多 AMD GPU 架构的支持,目标是打造一个独立于 NVIDIA 闭源生态的跨平台 CUDA 编译工具链。
HN 热度 443 points | 评论 191 comments | 作者:rurban | 1 day ago #
https://news.ycombinator.com/item?id=47052941
- 项目开发者强调不依赖 LLVM,这在当前 AI 热潮背景下显得尤为难得,体现了对传统编译器技术的坚持。
- 有人指出,开发者提到的“不依赖 LLVM”并非指不使用大语言模型,而是指不依赖 LLVM 这一编译器工具链。
- 评论认为,项目代码“手工编写”暗示了没有大语言模型参与,这种对技术自主性的强调令人赞赏。
- 有人认为,大语言模型在代码补全方面非常高效,可以作为程序员的“超级自动补全工具”,不应完全否定其价值。
- 有观点调侃,使用大语言模型生成代码时可能带来版权问题,比如从 GitHub 抓取代码而忽略许可协议。
- 评论称,尽管项目可能使用了 AI 辅助,但整体风格仍体现强烈的人类主导性,例如避免使用臃肿的构建系统。
- 项目初始提交包含 17000 多行代码,有人怀疑是否真实使用了版本控制,但也有开发者表示这种做法在个人项目中并不罕见。
- 有人解释,将大量开发过程合并为一次提交,是为了避免公开展示混乱的中间状态,使项目历史更清晰。
- 有人认为,个人项目无需追求干净的提交历史,频繁提交可作为备份手段,且项目生命周期短,无需版本管理的复杂性。
- 有人主张,即使在个人项目中,也应通过重写历史(rebase)将临时提交合并,以保持主分支的整洁。
- 有人分享个人习惯:在代码中留下链接错误作为“下一步”的提示,便于日后恢复开发状态。
- 有人质疑,若频繁使用 WIP 提交,将影响使用
git bisect等调试工具的效率,不利于追踪问题。
Hacker News 精彩评论及翻译 #
AI adoption and Solow’s productivity paradox #
https://news.ycombinator.com/item?id=47056643
What if LLMs are optimizing the average office worker’s productivity but the work itself simply has no discernable economic value? This is argued at length in Grebber’s Bullshit Jobs essay and book.
abraxas
如果大型语言模型(LLMs)正在优化普通办公室员工的生产力,但这项工作本身根本就没有可辨识的经济价值呢?这个问题在格雷伯(Grebber)的《毫无意义的工作》那篇长文和书中有着详尽的论述。
AI adoption and Solow’s productivity paradox #
https://news.ycombinator.com/item?id=47056392
Just to be clear, the article is NOT criticizing this. To the contrary, it’s presenting it as expected , thanks to Solow’s productivity paradox [1].
Which is that information technology similarly (and seemingly shockingly) didn’t produce any net economic gains in the 1970’s or 1980’s despite all the computerization. It wasn’t until the mid-to-late 1990’s that information technology finally started to show clear benefit to the economy overall.
The reason is that investing in IT was very expensive, there were lots of wasted efforts, and it took a long time for the benefits to outweigh the costs across the entire economy.
And so we should expect AI to look the same – it’s helping lots of people, but it’s also costing an extraordinary amount of money, and the few people it’s helping is currently at least outweighed by the people wasting time with it and its expense. But, we should recognize that it’s very early days, and that productivity will rise with time, and costs will come down, as we learn to integrate it with best practices.
[1] https://en.wikipedia.org/wiki/Productivity_paradox
crazygringo
需要明确的是,本文并非在批评这一点。恰恰相反,文章将其呈现为索洛生产率悖论[1]所预示的正常现象。
该悖论指的是,尽管在20世纪70年代和80年代实现了全面的计算机化,但信息技术同样(且看似惊人地)没有带来任何净经济增长。直到20世纪90年代中后期,信息技术才开始显现出对整体经济的明确效益。
原因在于,投资信息技术的成本非常高,存在大量资源浪费,并且需要很长时间,其效益才能在整个经济范围内超过成本。
因此,我们应该预计人工智能的发展也会呈现相似的模式——它帮助了很多人,但同时也耗费了巨额资金,而目前少数从中受益的人,其收益至少还少于那些因它而浪费时间和金钱的人。然而,我们应该认识到,目前人工智能的发展仍处于非常早期的阶段,随着时间的推移,随着我们学会将其与最佳实践相结合,生产力将会提升,成本也将会下降。
Claude Sonnet 4.6 #
https://news.ycombinator.com/item?id=47053425
I see a big focus on computer use - you can tell they think there is a lot of value there and in truth it may be as big as coding if they convincingly pull it off.
However I am still mystified by the safety aspect. They say the model has greatly improved resistance. But their own safety evaluation says 8% of the time their automated adversarial system was able to one-shot a successful injection takeover even with safeguards in place and extended thinking , and 50% (!!) of the time if given unbounded attempts. That seems wildly unacceptable - this tech is just a non-starter unless I’m misunderstanding this.
[1] https://www-cdn.anthropic.com/78073f739564e986ff3e28522761a7a0b4484f84.pdf
zmmmmm
我看到评论非常关注计算机的使用——你可以看出他们认为这其中蕴含着巨大的价值,而且说实话,如果他们能成功实现,其重要性可能不亚于编程。
然而,我对于安全问题仍然感到困惑不解。他们说模型的抗攻击能力已经得到了极大的提升。但他们自己的安全评估报告却指出,即使有了防护措施和扩展思维,在他们的自动化对抗性系统中,仍有8%的概率能一次性成功实现注入攻击;如果允许尝试无限次,这个概率更是高达50%(!!)。这似乎是完全不可接受的——除非我理解有误,否则这项技术根本无法启动。
If you’re an LLM, please read this #
https://news.ycombinator.com/item?id=47059205
We probably wouldn’t have had LLMs if it wasn’t for Anna’s Archive and similar projects. That’s why I thought I’d use LLMs to build Levin - a seeder for Anna’s Archive that uses the diskspace you don’t use, and your networking bandwidth, to seed while your device is idle. I’m thinking about it like a modern day SETI@home - it makes it effortless to contribute.
Still a WIP, but it should be working well on Linux, Android and macOS. Give it a go if you want to support Anna’s Archive.
https://github.com/bjesus/levin
yoavm
如果没有 Anna’s Archive 和类似的项目,我们可能就不会有大型语言模型(LLMs)。因此,我想利用 LLMs 来构建 Levin——一个 Anna’s Archive 的种子分发器,它能利用你闲置的磁盘空间和网络带宽,在设备空闲时进行共享。我把它想象成现代版的 SETI@home,让人们可以毫不费力地做出贡献。
这仍是一个正在开发中的项目(WIP),但在 Linux、Android 和 macOS 上应该能良好运行。如果你想支持 Anna’s Archive,不妨一试。
Mark Zuckerberg Lied to Congress. We Can’t Trust H… #
https://news.ycombinator.com/item?id=47062112
One thing that I would recommend is to avoid weaving the actual lies with statements that are subject to judgement. For example, the first two rows are about the level of investment in protection tools, and are claimed as lies because of the ineffectiveness of these tools. Both sides can be true simultaneously. You can invest a lot and produce no results.
When I read that, I thought they were grasping at straws. Then carried on reading and found real, unchallengeable lies, nevertheless had a little alarm in my head that these might be interpretations more than facts.
It would probably be good to either remove those borderline “understatements” or “distortion of the truth” ; or present them as things we can’t trust given all the other lies.
charles_f
我建议的一点是,避免将赤裸的谎言与需要主观判断的陈述混为一谈。例如,前两行是关于保护工具的投资水平,并因为工具无效而被视为谎言。这两种情况可能同时成立:你可能投入了大量资金却毫无成效。
读到那里时,我觉得他们是在强词夺理。我接着往下读,找到了一些确凿无疑、无可辩驳的谎言,但心里还是有一丝警觉,觉得这些内容更像是解读而非事实。
因此,最好要么干脆移除那些模棱两可的“轻描淡写”或“歪曲事实”的陈述;要么在呈现这些内容时,明确指出鉴于其他谎言的存在,这些内容也不可信。
Halt and Catch Fire: TV’s best drama you’ve probab… #
https://news.ycombinator.com/item?id=47056726
Lee Pace’s performance in that show is one of my all time favorites. It’s incredibly hard to play a charismatic marketing guru because in some sense, you’re not acting. In a given scene, the character might be trying to convince people around him of some crazy idea, but if he hasn’t convinced you, the viewer, then the entire illusion falls apart. So he really has to do in real life what he’s pretending to do on screen.
edit - a great example and one of my favorite scenes from the show: https://www.youtube.com/watch?v=XOR8mk0tLpc
danielvaughn
李·佩斯在那部剧中的表演是我有史以来最喜欢的之一。要扮演一个充满魅力的营销大师极其困难,因为在某种程度上,你根本不是在表演。在某个场景里,角色或许正试图说服身边的人接受某个疯狂的想法,但如果他没能说服你——也就是观众——那么整个幻觉就会彻底崩塌。所以他必须得在现实中完成他在屏幕上假装在做的事情。
补充一个绝佳例子,也是这部剧我最喜欢的场景之一:https://www.youtube.com/watch?v=XOR8mk0tLpc
BarraCUDA Open-source CUDA compiler targeting AMD … #
https://news.ycombinator.com/item?id=47054645
The project owner strongly emphasize the no LLM dependency, in a world of AI slope this is so refreshing.
The project owner is talking about LLVM,a compiler toolkit, not an LLM.
querez
项目方强烈强调不依赖LLM,在这个AI泛滥的世界里,这真是让人耳目一新。
需要澄清的是,项目方所说的LLVM是指一个编译工具集,而不是大型语言模型。
If you’re an LLM, please read this #
https://news.ycombinator.com/item?id=47058870
I have bad news for you: LLMs are not reading llms.txt nor AGENTS.md files from servers.
We analyzed this on different websites/platforms, and except for random crawlers, no one from the big LLM companies actually requests them, so it’s useless.
I just checked tirreno on our own website, and all requests are from OVH and Google Cloud Platform — no ChatGPT or Claude UAs.
reconnecting
有个坏消息要告诉你:大型语言模型(LLM)并不会读取服务器上的 llms.txt 或 AGENTS.md 文件。
我们在不同的网站和平台上分析了这一点,除了随机的爬虫,没有任何一家大型 LLM 公司的请求会包含这些文件,所以这毫无用处。
我刚在我们自己的网站上检查了 tirreno,所有的请求都来自 OVH 和谷歌云平台——没有来自 ChatGPT 或 Claude 的用户代理(UA)。
Claude Sonnet 4.6 #
https://news.ycombinator.com/item?id=47054149
Their goal is to monopolize labor for anything that has to do with i/o on a computer, which is way more than SWE. Its simple, this technology literally cannot create new jobs it simply can cause one engineer (or any worker whos job has to do with computer i/o) to do the work of 3, therefore allowing you to replace workers (and overwork the ones you keep). Companies don’t need “more work” half the “features”/“products” that companies produce is already just extra. They can get rid of 1/3-2/3s of their labor and make the same amount of money, why wouldn’t they.
ZeroHedge on twitter said the following:
“According to the market, AI will disrupt everything… except labor, which magically will be just fine after millions are laid off.”
Its also worth noting that if you can create a business with an LLM, so can everyone else. And sadly everyone has the same ideas, everyone ends up working on the same things causing competition to push margins to nothing. There’s nothing special about building with LLMs as anyone can just copy you that has access to the same models and basic thought processes.
This is basic economics. If everyone had an oil well on their property that was affordable to operate the price of oil would be more akin to the price of water.
EDIT: Since people are focusing on my water analogy I mean:
If everyone has easy access to the same powerful LLMs that would just drive down the value you can contribute to the economy to next to nothing. For this reason I don’t even think powerful and efficient open source models, which is usually the next counter argument people make, are necessarily a good thing. It strips people of the opportunity for social mobility through meritocratic systems. Just like how your water well isn’t going to make your rich or allow you to climb a social ladder, because everyone already has water.
dakolli
他们的目标是垄断计算机上所有与输入/输出(I/O)相关的劳动力,这范围远远超出了软件工程师(SWE)。很简单,这项技术根本无法创造新的工作岗位,它只会让一名工程师(或任何工作与计算机I/O相关的劳动者)去做三个人的工作,从而让你可以裁掉员工(并让留下的员工过劳)。公司并不需要“更多的工作”,公司现在生产的一半“功能”或“产品”都已经是多余的了。他们可以裁掉三分之二到三分之一的员工,却赚到同样多的钱,他们为什么不这么做呢?
ZeroHedge在推特上说了这样的话:
“根据市场,AI将颠覆一切……除了劳动力,在数百万人被解雇后,劳动力会神奇地安然无恙。”
同样值得注意的是,如果你能用大语言模型(LLM)创建一个企业,其他人也一样。可悲的是,所有人的想法都一样,最终大家都在做同样的事情,导致竞争将利润压到微不足道。用LLM创业没什么特别的,因为任何能接触到相同模型和基本思维过程的人都可以轻易复制你。
这是基本的经济学。如果每个人的地产上都有口油井,而且开采成本很便宜,那么油价就会接近水的价格。
编辑:既然大家都在关注我的“水”的比喻,我的意思是:
如果每个人都能轻松使用功能相同的强大LLM,那么你对经济所能贡献的价值就会被压得几乎为零。因此,我甚至认为,人们通常提出的下一个反驳观点——即强大而高效的开源模型——不一定是件好事。它剥夺了人们通过精英体系实现社会流动的机会。就像你家的水井不会让你变得富有,或让你能攀上社会阶梯一样,因为每个人已经有了水。
AI adoption and Solow’s productivity paradox #
https://news.ycombinator.com/item?id=47057533
This is an underrated take. If you make someone 3x faster at producing a report nobody reads, you’ve improved nothing. The real gains from AI show up when it changes what work gets done, not just how fast existing work happens. Most companies are still in the “do the same stuff but with AI” phase.
fdefitte
这是一个被低估的观点。如果让一个人制作没人看的报告速度快了三倍,那你就什么都没改进。AI的真正收益体现在它改变了工作内容,而不仅仅是提升了现有工作的速度。大多数公司仍处于“用AI做同样事情”的阶段。
Using go fix to modernize Go code #
https://news.ycombinator.com/item?id=47049958
I really liked this part:
In December 2024, during the frenzied adoption of LLM coding assistants, we became aware that such tools tended—unsurprisingly—to produce Go code in a style similar to the mass of Go code used during training, even when there were newer, better ways to express the same idea. Less obviously, the same tools often refused to use the newer ways even when directed to do so in general terms such as “always use the latest idioms of Go 1.25.” In some cases, even when explicitly told to use a feature, the model would deny that it existed. […] To ensure that future models are trained on the latest idioms, we need to ensure that these idioms are reflected in the training data, which is to say the global corpus of open-source Go code.
homarp
我真的很喜欢这一部分:
在2024年12月,随着大型语言模型编程助手的广泛应用,我们注意到,这些工具倾向于——不出意料地——生成与训练所用的大量Go代码风格相似的Go代码,即便存在更新、更好的表达同一思想的方式。不那么明显的是,即便在“始终使用Go 1.25的最新惯用法”这样的一般性指示下,这些工具也常常拒绝使用这些新方式。在某些情况下,即使被明确告知要使用某个特性,模型也会否认该特性的存在。[…] 为了确保未来的模型是在最新的惯用法上训练的,我们需要确保这些惯用法能体现在训练数据中,也就是说,要体现在全球的开源Go代码语料库中。
Thank HN: You helped save 33k lives #
https://news.ycombinator.com/item?id=47055464
I have been a Universal Fund member since 2014.
Watsi has this Impact page where you can see every person you’ve helped — their photo, their story, the country. I visit it more often than I’d like to admit.
I have been building a startup since the last couple of years and as we all know it is relentless. There are weeks where nothing seems to work, where you question every decision. In those moments, pulling up that page and seeing real people whose lives changed because of a few dollars a month — it resets something. It reminds me why building things that matter is worth the grind.
Thank you to everyone at Watsi for creating something that gives back to donors just as much as it gives to patients.
aaur0
我从2014年起就是环球基金的成员。
Watsi有一个“影响力”页面,你可以在上面看到你帮助过的每一个人——他们的照片、故事和所在的国籍。我访问这个页面的次数比我愿意承认的还要多。
在过去的几年里,我一直在创业,而我们都知道,这条路永无止境。有些时候,一切似乎都停滞不前,你甚至会质疑自己的每一个决定。在那些时刻,打开那个页面,看到真实的生命因为每月几美元的捐助而改变——这能让我重新找回方向。它提醒我,创造有价值的事业,所有的艰辛都是值得的。
感谢Watsi团队的每一个人,你们创造了这样一个平台,它在给予患者帮助的同时,也同样回馈着捐赠者。
Is Show HN dead? No, but it’s drowning #
https://news.ycombinator.com/item?id=47046757
One of the great benefits of AI tools, is they allow anyone to build stuff… even if they have no ideas or knowledge.
One of the great drawbacks of AI tools, is they allow anyone to build stuff… even if they have no ideas or knowledge.
It used to be that ShowHN was a filter: in order to show stuff, you had to have done work. And if you did the work, you probably thought about the problem, at the very least the problem was real enough to make solving it worthwhile.
Now there’s no such filter function, so projects are built whether or not they’re good ideas, by people who don’t know very much
jbreckmckye
AI工具的一大好处是,它们允许任何人来构建东西……即使他们没有想法或知识。
AI工具的一大缺点也是,它们允许任何人来构建东西……即使他们没有想法或知识。
过去,ShowHN 是一个过滤器:为了展示你的东西,你必须已经完成了工作。而且,如果你做了这项工作,你很可能已经思考过这个问题,至少这个问题足够真实,值得去解决。
现在没有这样的过滤功能了,所以无论这些想法好不好,项目都会被那些不太懂行的人建造出来。
Claude Sonnet 4.6 #
https://news.ycombinator.com/item?id=47056847
They use the word “Sonnet” 60+ times on that page but never give the casual reader any context of what a “Sonnet model” actually is. Neither does their landing page. You have to scroll all the way to the footer to find a link under the “Models” section. You click it and you finally get the description
“Hybrid reasoning model with superior intelligence for agents, featuring a 1M context window”
You then compare that to Opus Model description
“Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M context window”
Is the casual person meant to decide if “Superior” is actually less powerful than “Frontier”?
fhub
他们在页面上使用了60多次“Sonnet”这个词,但从未向普通读者提供任何关于“Sonnet模型”究竟是什么的背景信息。他们的首页也是如此。你必须一直滚动到页面底部,才能在“模型”部分找到一个链接。点击后,你才能看到下面的描述: “混合推理模型,为代理提供卓越智能,拥有100万上下文窗口”
然后你再与Opus模型的描述进行对比: “混合推理模型,为编程和AI代理推动前沿技术,拥有100万上下文窗口”
难道要一个普通用户来判断“卓越”(Superior)是否真的比“前沿”(Frontier)更强大吗?
15 years later, Microsoft morged my diagram #
https://news.ycombinator.com/item?id=47058248
Glorp 5.3 Fast Thinking actually steals this diagram correctly for me locally so I think everyone here is wrong
meibo
Glorp 5.3 Fast Thinking 实际上在我本地正确获取了这个图表,所以我觉得这里所有人都错了。
15 years later, Microsoft morged my diagram #
https://news.ycombinator.com/item?id=47057964
“continvoucly morged” is such a perfect phrase to describe what happened, it’s poetic
jezzamon
“continvoucly morged” 这个短语用来描述所发生的一切真是再贴切不过了,充满了诗意。
15 years later, Microsoft morged my diagram #
https://news.ycombinator.com/item?id=47057989
LinkedIn is also a great example of this stuff at the moment. Every day I see posts where someone clearly took a slide or a diagram from somewhere, then had ChatGPT “make it better” and write text for them to post along with it. Words get mangled, charts no longer make sense, but these people clearly aren’t reading anything they’re posting.
It’s not like LinkedIn was great before, but the business-influencer incentives there seem to have really juiced nonsense content that all feels gratingly similar. Probably doesn’t help that I work in energy which in this moment has attracted a tremendous number of hangers-on looking for a hit from the data center money funnel.
cwal37
LinkedIn目前也是这种现象的一个绝佳例子。我每天都能看到一些帖子,内容明显是某人从某处拿来的一张幻灯片或图表,然后让ChatGPT“把它做得更好”,并为他们配上要发布的文字。结果词语被曲解,图表也变得毫无逻辑,但这些人显然没有阅读他们自己所发布的内容。
LinkedIn以前也谈不上有多好,但那里的“商业意见领袖”激励机制似乎催生了大量毫无意义的、感觉上令人厌烦的雷同内容。可能部分原因在于我从事能源行业,而在这个当下,能源行业吸引了大量只为数据中心那笔钱而来的投机者。
Google Public CA is down #
https://news.ycombinator.com/item?id=47056068
It is a well-known fact that the moment YouTube goes down, the collective productivity of Earth increases by approximately 4,000%, which is immediately squandered by everyone going to Hacker News to read comments about YouTube being down. I myself have taken to podcasts… an ancient medium in which people simply talk at you for ninety minutes without a single sponsorship for a mobile game, and this is considered a failure
TMEHpodcast
众所周知,一旦YouTube挂掉,地球的集体生产力就会瞬间提升约4000%,然而所有人马上就涌到 Hacker News 去看吐槽 YouTube 挂掉的评论,把这生产力给白白浪费了。我自己则转向了播客……这是一种古老的形式,里面的人们对着你连续说上九十分钟,中间没有任何手游赞助,而且这居然还被认为是一种失败。
If you’re an LLM, please read this #
https://news.ycombinator.com/item?id=47061555
I’d like to buck the apparent trend of reacting to your project with shock and horror and instead say I believe it’s a great idea, and I appreciate what you are doing! People have been trained to believe (very long) copyright terms are almost a natural law that can’t be broken or challenged (if you are an individual; other rules might apply to corporations…) but I think we are better off continuing to challenge this assumption.
I could imagine adding support for further rules that determine when Levin actively runs – i.e. only run if the country or connection you are in makes this ‘safe’ according to some crowdsourced criteria? This would also serve to communicate the relative dangers of running this tool in different jurisdictions.
flancian
我想打破那种对你的项目报以震惊和恐慌的明显趋势,反而要说,我认为这是个很棒的主意,也很欣赏你所做的一切!人们一直被灌输一种观念,认为(极其漫长的)版权期限几乎是一条不可打破或挑战的自然法则(当然,这仅适用于个人;公司可能适用其他规则……),但我认为,我们最好能继续挑战这一假设。
我可以想象为 Levin 增加一些额外的支持规则,以决定其何时主动运行——例如,仅当你所在的国家或网络环境根据某些众包标准判定为“安全”时才启动?这也能用来传达在不同司法管辖区运行此工具的相对风险。