2026-04-08 Hacker News Top Stories #

作者Sam Burns制作了一款融合野兽派建筑美学与实用功能的混凝土笔记本支架，通过故意不充分搅拌混凝土和人工锈蚀金属部件来营造城市废墟的破旧质感。

Bram Cohen批评"vibe编码"极端做法会导致代码质量低下，主张开发者应积极参与代码审查而非完全依赖AI自动生成代码。

该网站通过对比电影《Idiocracy》与现实的政治、企业等现象，讽刺现实世界正逐渐趋近电影中描绘的反乌托邦荒诞情景。

《韦斯诺斯之战》是一款拥有丰富单人战役和多人地图的跨平台开源奇幻回合制策略游戏，具备活跃社区和高度可扩展性。

Ghost Pepper是一款完全本地运行的macOS语音转文字应用，用户按住Control键即可使用Whisper模型进行隐私保护的语音输入。

GLM-5.1是一款擅长长时任务处理的AI模型，能在长时间迭代中持续优化代码并构建复杂系统，在多项基准测试中表现优异。

研究人员使用形式化验证方法在阿波罗11号导航计算机的汇编代码中发现了一个潜伏57年的资源锁泄漏漏洞。

作者因担忧互联网中心化问题，详细介绍了将个人博客CDN从美国Cloudflare迁移至欧洲Bunny.net的全过程及配置方案。

Adobe Creative Cloud被曝未经用户许可擅自修改系统hosts文件以检测软件安装状态，引发类似Sony Rootkit事件的隐私争议。

该网页以时间线形式梳理了过去30年间49款定义行业发展的关键显卡，展现了GPU技术从早期3D加速到现代光线追踪的演进历程。

1. 展示：野兽派风格混凝土笔记本电脑支架（2024） (Show HN: Brutalist Concrete Laptop Stand (2024)) #

https://sam-burns.com/posts/concrete-laptop-stand/

这篇博客文章介绍了作者 Sam Burns 制作的一款混凝土笔记本电脑支架，设计风格受到了野兽派建筑的启发，融合了城市废墟和衰败的主题。支架采用了原始混凝土表面质感，整体沉重且坚固，配备了两个 2.1 安培的 USB 充电口和一个三插电源插座，此外还内置了一个植物盆。

文章详细描述了支架的关键特点，包括野兽派风格的悬挑设计、带有破损角落和锈蚀钢筋的城市衰败美学、暴露的锈蚀钢筋和铜线、内置的珍珠串植物盆以及人工锈蚀的笔筒。

制作过程分为多个步骤，混凝土浇筑分两次完成，故意不充分搅拌以制造表面砂砾和水泥分布不均的效果，增强陈旧感。植物盆由一个黄油罐改造而成，固定在混凝土中，内置塑料盆栽种植珍珠串植物，营造悬垂效果，呼应城市探险中见到的废弃建筑。

暴露的铜线经过特殊处理，喷洒氨水和水以产生腐蚀效果，模拟损坏的电缆。钢筋则用钢丝刷清理后用水、盐和过氧化氢加速锈蚀。笔筒同样经过盐水和过氧化氢处理，并用混合了丙烯酸颜料和沙子的颜料点缀，模拟苔藓质感。

作者对最终作品非常满意，尽管风格独特且不一定适合所有人，但成功体现了野兽派建筑和城市衰败的主题。由于支架极其沉重，搬运时需用手推车，体现了制作过程的艰辛与价值。

HN 热度 678 points | 评论 214 comments | 作者：sam-bee | 12 hours ago #

https://news.ycombinator.com/item?id=47673360

这款混凝土笔记本支架虽然不符合严格的“野兽派”风格，但作为个人创作项目非常酷且有趣。
为自己制作东西而不考虑市场需求，能带来创作的自由和乐趣。
使用混凝土作为笔记本支架材料可能会导致笔记本底部划伤，不够实用。
有人认为笔记本被刮花反而符合“城市衰败”的主题。
混凝土支架在现代办公环境中显得突兀，不够符合人体工学，也不适合动态办公桌。
皮革或木质笔记本保护壳是更好的选择，既保护设备又美观。
有人喜欢这款支架的外观和设计，认为它是用心之作。
对艺术和设计的专业知识会影响对作品的评价，区分专业指正和自负很重要。
有网友想尝试制作类似的混凝土支架，并考虑用喷漆或破损效果增加个性。
混凝土可以通过添加纤维或使用微水泥等技术做得更薄更轻，适合非结构性物品。
设计竞赛中已有用混凝土制作的轻薄物品，如混凝土独木舟。
混凝土行业有很多添加剂，比如石墨烯，可以增强混凝土的强度和轻量化。

2. 氛围编码教派的疯狂自用行为 (The cult of vibe coding is dogfooding run amok) #

https://bramcohen.com/p/the-cult-of-vibe-coding-is-insane

这篇文章由 Bram Cohen 撰写，标题为《The Cult Of Vibe Coding Is Insane》（“氛围编码教派疯狂”），主要讨论了软件开发中“氛围编码”（vibe coding）和过度“自用”（dogfooding）带来的问题。

作者指出，氛围编码是一种极端做法，开发者完全不去查看代码细节，仅凭与机器的模糊对话来推动项目，这种做法是不现实且荒谬的。虽然机器使用人类语言进行内部处理，且开发团队确实在构建计划文件、技能和规则等基础设施，但完全不深入代码本身会导致重复和混乱，降低软件质量。

文章强调，软件项目常常伴随着技术债务，传统上需要大量时间清理代码，而 AI 辅助编程可以大幅加快这一过程，帮助提高代码质量。作者建议，开发者应与 AI 进行充分沟通，明确问题和改进方向，通过反复讨论和指导，AI 才能高效完成代码清理和优化工作。

作者批评了 Claude 团队过度自用且拒绝查看代码细节的做法，认为这违背了合理的开发流程。作者本人则采用与 AI 对话、逐步审计和改进代码的方法，取得了较好效果。

总结来看，文章的核心观点是：软件质量差是开发者的选择，不应将责任归咎于 AI 工具。合理利用 AI 辅助编程、积极参与代码审查和指导，才能打造高质量的软件。

HN 热度 601 points | 评论 500 comments | 作者：drob518 | 1 day ago #

https://news.ycombinator.com/item?id=47664912

代码质量差并不意味着“vibe coding”不可行，反而说明可以在不遵守传统“好代码”规则的情况下打造成功产品。
许多产品的初始代码都很糟糕，通常是因为时间紧迫和交付压力，第一版代码往往是“先能用”，后续优化很少发生。
商业软件开发的目标是盈利，而非写出优质代码，绝大多数代码在市场检验后不会长期存在，因此花时间写好代码常被视为浪费。
代码的目标更多是可维护性和简洁性，以便团队成员能够理解和处理，避免维护地狱。
AI 生成代码需要大量基础设施支持，简单依赖 AI 自动生成代码往往会产生混乱和低质量代码。
通过与 AI 对话制定明确的规格和计划，可以减少代码混乱，提高开发效率，但仍需人工审查和反馈。
AI 辅助开发适合有明确需求和规范的场景，模糊或不明确的需求会导致更多反复和低效。
AI 辅助开发可以在非专注时间段进行，提高工作灵活性，但仍需人工监督和管理。
在产品尚未找到市场契合点时，快速迭代和“先能用”的代码更重要，产品稳定后才需关注长期可维护性。

3. 我们已经进入低能时代了吗？ (Are We Idiocracy Yet?) #

https://idiocracy.wtf/

该网页通过对比电影《Idiocracy》（《低能时代》）中的虚构未来世界与现实世界的现状，展示了两者之间的高度相似性，形成了一个“低能时代接近指数”。内容涵盖政治、企业、娱乐、教育、环境、科学、医疗、司法和文化多个领域，指出现实中许多现象与电影中荒诞设定的惊人吻合。

在政治方面，电影中以娱乐价值和肌肉气质当选总统的设定，与现实中特朗普作为真人秀明星和摔跤名人当选美国总统高度相似。政治活动越来越像娱乐表演，2024 年民主党全国代表大会邀请说唱歌手表演也体现了这一趋势。

企业层面，电影中饮料公司买下监管机构，替代水资源灌溉作物的荒诞情节，与现实中企业游说反对水资源监管、瓶装水销售激增形成呼应。快餐品牌在社交媒体上采取咄咄逼人、恶搞客户的风格，也与现实中品牌社交媒体的“毒舌”行为相符。

娱乐方面，电影中最受欢迎的节目是反复击打男性裆部的恶搞内容，现实中“Jackass”系列和 TikTok 上的高风险挑战同样主导娱乐市场。教育领域，电影中法学学位可在 Costco 批发购买，现实中谷歌、亚马逊、沃尔玛等企业推出企业自有学历项目，逐渐取代传统教育。

环境方面，电影中巨大的垃圾雪崩摧毁城市的设定，与现实中太平洋垃圾带面积巨大、垃圾山持续增长及垃圾滑坡致死事件相呼应。科学领域，电影中智商逐代下降的设定与现实中美国智商首次出现近百年下降趋势相符。

医疗方面，电影中医生完全无能，现实中 AI 聊天机器人替代医生，医疗错误成为美国第三大死因。司法领域，电影中监狱斗殴成为娱乐节目，现实中监狱格斗内容在网络走红，庭审直播吸引大量观众。

文化方面，电影中名字变得荒诞无意义，现实中名人给孩子起奇异名字的现象普遍。整体来看，网页通过大量现实案例与电影设定的对比，揭示了现实社会在多个方面正逐步走向电影中描绘的荒诞未来，形成一种对现实的讽刺与警示。

HN 热度 590 points | 评论 513 comments | 作者：jdiiufccuskal | 14 hours ago #

https://news.ycombinator.com/item?id=47672818

电影《Idiocracy》作为美国文化的辛辣讽刺，令部分观众感到被冒犯，因为他们认同片中“愚蠢者”的形象。
该电影常被部分人用来表达对大众的优越感，成为一种“我与众不同”的标签。
电影被部分人解读为带有优生学色彩，暗示“愚蠢的人繁殖导致愚蠢的人增多”，但也有人认为这只是夸张的喜剧元素。
现实中选举出的领导人行为愚蠢且有害，导致部分观众将电影视为纪录片般的真实写照。
有观点指出人们往往选择对自己不利的政策，反映了社会复杂的投票行为。
电影中的“愚蠢选民”论被批评为过于简化和表面化的分析，忽视了更深层次的社会问题。
电影设定中，精英阶层仍然重视智力，表明社会中对智慧的认知仍存在。
部分观众认为电影的“优生学”论述是基于进化论视角，强调环境和选择压力的变化，而非纯粹遗传决定论。
电影引发了对人类是否持续进步的思考，尤其是在现实中教育和智力水平出现倒退的背景下。
有评论指出电影的讽刺效果在不同社区（如 Hacker News 与 Reddit）中引发不同的理解和反应。
电影的优生学论述缺乏对文化和教育环境影响的平衡讨论，容易被误解为遗传决定论。
有人认为喜欢这部电影并不代表认同其潜在的优生学观点，但应警惕其隐含的社会偏见。

4. 韦斯诺斯之战：开源回合制策略游戏 (Battle for Wesnoth: open-source, turn-based strategy game) #

https://www.wesnoth.org

《The Battle for Wesnoth》是一款开源的回合制策略游戏，拥有浓厚的奇幻主题。游戏支持单人模式和在线或本地多人对战，玩家可以探索 Wesnoth 的世界，参与多样的冒险故事，如夺回王位、逃离巫妖领主、深入地下打造火焰宝石、抵御死灵法师的侵袭，或带领幸存者穿越沙漠对抗未知的邪恶。

游戏特色包括手绘像素风格的单位动画和半写实的对话肖像，提供 17 个单人战役和 55 张多人地图，拥有七大阵营超过 200 种单位，每种单位具备独特技能、武器和法术。玩家可以通过互联网或局域网与其他玩家对战，游戏支持 30 多种语言，并拥有高度可扩展的引擎，结合 WML 和 Lua 脚本，丰富的玩家自制内容可通过官方插件服务器获取。

游戏跨平台支持 Windows、macOS 和 Linux 系统，提供稳定版和开发版两种版本。稳定版适合新手和内容创作者，经过充分测试，包含错误修复和翻译更新；开发版则面向资深玩家和内容创作者，包含最新功能但可能不稳定。两版本均可通过 Steam 和其他平台获取，并支持自动更新。

系统需求方面，稳定版和开发版对硬件要求相似，最低配置为双核 2.0 GHz 处理器、4GB 内存和 800MB 至 2GB 硬盘空间，推荐配置更高，分辨率要求从 800x600 到 1280x720 不等，均需键盘和鼠标操作。

游戏拥有庞大的社区，论坛帖子超过 52 万条，提供丰富的帮助资源。玩家和爱好者可以通过制作插件、贡献代码或测试开发版参与项目。项目接受捐赠，用于维护服务器、网站及艺术和音乐创作，支持渠道包括 Liberapay 和 itch.io。

HN 热度 526 points | 评论 157 comments | 作者：akyuu | 1 day ago #

https://news.ycombinator.com/item?id=47664186

建议联系 Battle for Wesnoth 的主要开发者 Charles Dang，尤其是有美国 C++ 岗位的公司。
即使有多年开源项目经验和补丁贡献，毕业生在当前市场仍然很难找到合适的工作。
一些公司对开源贡献的认可度不高，导致贡献者难以获得回报。
有公司愿意提供 C++ 岗位，并主动联系了 Charles Dang，希望交流。
拥有安全许可的工作机会较多，尤其是在政府和国防相关领域，但获取许可不易且有一定限制。
一些人认为政府和军方工作并非道德败坏，反而是重要且有价值的职业。
对政府工作的负面看法可能导致优秀人才不愿意从事相关岗位，影响行业发展。
有人指出，申请安全许可工作存在风险，可能在了解具体工作内容后选择放弃，但过程耗时且不确定。
部分人对美国政府现状感到失望，担心在政府内部工作的声誉和职业发展受影响。
政府项目中也有许多积极有益的工作，如帮助低收入妇女和儿童的营养项目。

5. Ghost Pepper – macOS 本地按住说话语音转文字 (Show HN: Ghost Pepper – Local hold-to-talk speech-to-text for macOS) #

https://github.com/matthartman/ghost-pepper

该网页介绍了一个名为 Ghost Pepper 的 macOS 本地语音转文字应用，支持 macOS 14.0 及以上版本，适配 Apple Silicon 芯片（M1 及以上）。用户按住 Control 键说话，松开后即可将语音转录并粘贴到任何文本框中。该应用完全在本地运行，不依赖云服务，保证用户数据隐私。

Ghost Pepper 具备智能清理功能，利用本地大型语言模型去除语音中的填充词和自我纠正，提升转录文本的质量。应用以菜单栏程序形式运行，无 Dock 图标，支持开机自启，用户可自定义清理提示词、选择麦克风和开启关闭各种功能。

应用使用多种开源语音模型，包括 Whisper 系列（支持英语及多语言）和 Parakeet v3，清理模型则基于 Qwen 3.5 不同规模版本，兼顾速度和质量。所有模型均通过 Hugging Face 提供，自动下载并缓存。

安装简单，用户下载 DMG 文件，拖入应用程序文件夹，授权麦克风和辅助功能权限后即可使用。辅助功能权限用于全局快捷键和模拟按键粘贴。应用默认启用开机启动，且不在磁盘记录转录内容，保护隐私。

该项目开源，基于 Swift 语言开发，依赖 WhisperKit、LLM.swift、Hugging Face 和 Sparkle 等技术。适合注重隐私的用户使用，尤其是企业或受管理设备，支持通过 MDM 配置预授权辅助功能权限。

Ghost Pepper 的设计理念是提供一个完全本地、免费且高效的语音转文字解决方案，区别于依赖云服务且商业化程度高的同类产品。

HN 热度 449 points | 评论 194 comments | 作者：MattHart88 | 1 day ago #

https://news.ycombinator.com/item?id=47666024

谷歌手机早在几年前就能离线进行语音转文字，且能根据上下文自动纠正，技术成熟且高效。
微软 OneNote 早在 2007 年就有语音转文字功能，但后来转向在线模型维护。
Windows XP 时代已有语音识别功能，需训练适应用户声音。
OS/2 系统在 1996 年就内置了语音识别功能。
一些用户觉得 macOS 和 Android 默认的语音转文字准确度不高，转而使用第三方或开源模型如 MacWhisper。
最新开源本地语音识别模型（如 Whisper、Parakeet）在嘈杂环境和口音适应上表现更好，但仍存在偶尔识别错误和“幻觉”问题。
macOS 和 iOS 内置的语音识别功能可以本地运行，但部分情况下会将数据发送给苹果服务器以改进服务。
用户可以通过断网测试确认部分语音识别确实完全本地运行，但内置模型效果一般，第三方模型可能更好。
大型语言模型（LLM）在转录准确度上优于传统语音识别，但偶尔会出现误识别或重复词汇的情况。
Linux 用户可以使用如 HyprWhspr 等开源项目，结合 GPU 支持，获得较好的本地语音转文字体验。

6. GLM-5.1：面向长时任务 (GLM-5.1: Towards Long-Horizon Tasks) #

https://z.ai/blog/glm-5.1

GLM-5.1 是一款面向长时任务的下一代旗舰模型，具备比前代更强的编码能力，在复杂软件工程任务中表现出色，尤其在 SWE-Bench Pro、NL2Repo 和 Terminal-Bench 2.0 等基准测试中领先。与之前的模型不同，GLM-5.1 能够在长时间、多轮迭代中持续优化，处理模糊问题时判断力更强，能有效分解复杂问题，进行实验、分析结果并精准识别瓶颈，随着运行时间增加，性能不断提升。

在三个不同场景的测试中展现了其长时优化能力：

向量数据库优化（600 多次迭代）：在 VectorDBBench 挑战中，GLM-5.1 突破了原先 50 轮工具调用的限制，经过 600 多次迭代和 6000 多次工具调用，QPS 从之前的 3547 提升至 21500，约为之前最佳结果的 6 倍。优化过程呈阶梯状，模型通过结构性策略调整不断突破性能瓶颈。
机器学习工作负载优化（1000 多轮）：在 KernelBench 中，GLM-5.1 针对 GPU 内核进行加速优化，最终实现 3.6 倍的速度提升，且优化过程持续较长时间，表现优于 GLM-5 和 Claude Opus 4.5，但略逊于 Claude Opus 4.6。
构建 Linux 桌面环境（8 小时持续迭代）：面对无明确量化指标的开放式任务，GLM-5.1 通过自我审查和持续改进，逐步完善网页应用，从基础布局到文件浏览器、终端、文本编辑器等功能模块，展现了其在开放式复杂任务中的持续进化能力。

整体来看，GLM-5.1 不仅在初期表现优异，更重要的是其在长时、多轮迭代中的持续优化能力，使其在复杂软件工程和开放式任务中具备显著优势。

HN 热度 379 points | 评论 110 comments | 作者：zixuanlimit | 7 hours ago #

https://news.ycombinator.com/item?id=47677853

OpenAI 和 Anthropic 缺乏护城河，未来 AI 趋势是本地或私有推理。
目前还没有出现真正的杀手级产品，鼓励大家继续努力开发。
GLM-5.1 在生成代码方面表现优于 Opus 和 Codex，但在长上下文中偶尔会出现异常。
通过合理管理上下文窗口（如定期压缩或新开会话）可以缓解模型在长上下文中的问题。
本地运行大型模型存在硬件门槛，但通过 SSD 卸载和缓存技术可以部分解决性能瓶颈。
GLM-5.0 和 5.1 在模糊任务和代码理解方面表现出色，性价比高且支持本地运行。
目前开源模型在某些任务上已经接近甚至超越闭源模型，提升了用户选择的多样性。
通过批量处理任务和优化缓存管理可以提高本地模型的计算效率。
长上下文管理仍是挑战，部分用户倾向于频繁清理或压缩上下文以保证模型稳定性。
速度和效率是评价模型质量的重要指标，部分模型在代码优化方面表现突出。
未来期待有更快版本的 GLM 模型，以支持更高效的本地推理和编码工作。

7. 我们发现了阿波罗 11 号导航计算机代码中一个未被记录的漏洞 (We found an undocumented bug in the Apollo 11 guidance computer code) #

https://www.juxt.pro/blog/a-bug-on-the-dark-side-of-the-moon/

这篇文章讲述了阿波罗导航计算机（AGC）中一个被忽视了 57 年的软件缺陷。AGC 是历史上最受关注的代码库之一，经过无数开发者和学者的深入研究，但依然存在一个资源锁泄漏的漏洞，影响了陀螺仪控制代码的正常运行。

作者利用开源的行为规范语言 Allium，将 13 万行 AGC 汇编代码提炼成 1.25 万行规格说明，从中发现了这个缺陷。该缺陷涉及 IMU（惯性测量单元）子系统中的 LGYRO 资源锁：当陀螺仪扭矩操作被“caging”（紧急锁定）中断时，代码没有释放该锁，导致后续操作挂起，无法重新校准导航平台。

文章还描述了这一缺陷在阿波罗 11 号任务中的潜在影响。指令舱飞行员迈克尔·柯林斯在绕月轨道执行星光对准时，若误触发了 cage 开关，可能导致导航计算机挂起陀螺仪操作，无法完成对准，进而影响返回地球的引擎点火方向。虽然重启计算机可以解决问题，但在当时的紧张环境下，这种故障难以被及时诊断。

文中还提到，AGC 的代码由玛格丽特·汉密尔顿领导的团队开发，开创了优先级调度、异步多任务处理和软件错误恢复等概念。虽然 AGC 代码经过严格审查，但这类基于资源管理的缺陷依然未被发现，显示出传统代码阅读和仿真方法的局限性。

总结来说，文章揭示了一个深藏的软件缺陷，强调了形式化规格和行为建模在发现复杂系统错误中的重要作用，同时也展现了阿波罗导航计算机软件工程的先进性和复杂性。

HN 热度 372 points | 评论 180 comments | 作者：henrygarner | 13 hours ago #

https://news.ycombinator.com/item?id=47673005

Apollo 11 导航计算机代码中确实存在一个已知的 bug，该 bug 在阿波罗 14 和 15 之间被修复，且不会像文章描述的那样静默发生。
该 bug 在特定情况下会导致多个任务堆积，最终触发类似 1202 报警的错误，且正常操作中很难触发该问题。
Apollo 11 软件的恢复和分析工作非常复杂，部分代码来自打印稿，部分来自核心存储器转储，且经过了详细的门级分析和仿真验证。
阿波罗 11 着陆时的 1202 报警并非简单的传感器错误，而是在特定条件下可能导致严重后果，不能简单忽略。
现代对阿波罗任务的理解更全面，知道了更多潜在的失败模式，因此现在的着陆操作更为谨慎。
当时的计算能力极其有限，航天器安全性非常依赖于有限的导航和控制系统，风险极高。
宇航员对航天器结构的脆弱性有直观感受，意识到生命仅被薄薄的铝层保护。
阿波罗计划中虽然飞行任务中无人死亡，但早期测试和准备阶段有多名宇航员牺牲，不能忽视这些牺牲。

8. 放弃 Cloudflare，转用 Bunny.net (Dropping Cloudflare for Bunny.net) #

https://jola.dev/posts/dropping-cloudflare

这篇文章介绍了作者将个人博客的内容分发网络（CDN）服务从 Cloudflare 迁移到 bunny.net 的原因和具体操作步骤。

作者长期使用 Cloudflare，认可其免费且功能强大的服务，但担心过度依赖单一美国公司带来的风险和互联网中心化问题，因此寻找替代方案。bunny.net 是一家欧洲斯洛文尼亚公司，提供与 Cloudflare 竞争的 CDN 服务，性能优异且支持欧洲技术生态，成为作者的首选。

迁移过程中，作者先更换了域名注册商，选择了支持隐私保护且服务更好的 Porkbun。然后详细介绍了如何在 bunny.net 创建和配置“pull zone”（拉取区域），包括填写拉取区域名称、设置源服务器地址、选择服务等级和定价区域等。

接着，作者说明了如何将域名通过 CNAME 记录指向 bunny.net 的 CDN，并激活 SSL 证书，确保网站安全访问。缓存配置部分强调 bunny.net 默认尊重源站的缓存控制头，也支持智能缓存功能，适合大多数场景。作者还分享了自己通过 Phoenix 框架设置缓存头，实现 HTML 页面缓存以提升访问速度的具体代码示例。

最后，文章介绍了一些推荐的默认配置，如强制 SSL、启用 Origin Shield 减少源服务器负载、允许在源站离线时继续提供缓存内容等，提升网站稳定性和用户体验。作者还建议设置边缘规则，将自动生成的拉取区域域名重定向到正式域名，避免搜索引擎混淆。

整体来看，文章不仅分享了从 Cloudflare 迁移到 bunny.net 的动机，还提供了详细的操作指南和优化建议，适合有意更换 CDN 服务的技术用户参考。

HN 热度 363 points | 评论 187 comments | 作者：shintoist | 10 hours ago #

https://news.ycombinator.com/item?id=47675013

文章中使用了大量未明确标注的 Bunny.net 联盟推广链接，存在透明度不足的问题。
未清楚披露推广链接可能会影响作者的信誉，甚至违反相关法律法规。
在美国，类似情况可能违反联邦贸易委员会（FTC）的规定，需明确告知有推广佣金。
英国及其他国家也有类似的监管机构和规定，要求推广时必须披露利益关系。
链接显示为 bunny.net，但实际跳转带有推广参数，给人不诚实的感觉。
虽然作者居住在英国，但互联网是国际化的，推广规范应被普遍遵守。
有人认为推广链接的使用本身没问题，但必须明确告知读者。
讨论中提到不同国家监管机构名称不同，但本质上都要求透明和公平。
有评论指出，免费服务存在未来收费风险，选择收费较低且独立的服务商更可靠。
CDN 和 DNS 服务理论上没有供应商锁定，但实际使用中如果依赖特定高级功能，迁移可能不便。

9. Adobe 修改 hosts 文件以检测 Creative Cloud 是否已安装 (Adobe modifies hosts file to detect whether Creative Cloud is installed) #

https://www.osnews.com/story/144737/adobe-secretly-modifies-your-hosts-file-for-the-stupidest-reason/

这篇文章报道了 Adobe Creative Cloud 在 Windows 和 macOS 系统中偷偷修改 hosts 文件的行为。Adobe 通过在 hosts 文件中添加特定的 DNS 条目，利用浏览器加载特定图片的方式，检测用户是否已经安装了 Creative Cloud 软件。此前，Adobe 曾直接通过访问本地端口检测软件，但由于 Chrome 浏览器开始限制本地网络访问，Adobe 改用了修改 hosts 文件的方式。

文章指出，这种行为类似于早期 Sony/BMG 的 rootkit 事件，虽然修改 hosts 文件不算恶意软件级别的攻击，但作为第三方软件擅自修改系统关键文件，仍然非常不妥，且大多数用户对 hosts 文件的作用并不了解。评论区中，用户们讨论了软件对系统的过度控制、AI 辅助编程带来的风险以及软件开发中的质量控制问题。

此外，有用户提到一些工具（如 Chris Titus 的 Windows 清理工具）已经开始针对 Adobe 的这些修改进行拦截和清理，hosts 文件中甚至出现了多达 900 行与 Adobe 相关的屏蔽条目，显示出用户对 Adobe 此类行为的反感和防范。整体来看，文章批评了 Adobe 未经用户同意修改系统文件的做法，认为这不仅侵犯用户权益，也可能带来系统稳定性和数据安全风险。

HN 热度 328 points | 评论 165 comments | 作者：rglullis | 1 day ago #

https://news.ycombinator.com/item?id=47664205

Adobe 将旧账户改为“Adobe Creative Cloud Pro”，并且月费翻倍，强制捆绑 AI 功能，导致用户流失。
教学中转向免费和开源软件（FOSS）替代 Adobe 产品，认为核心概念相同，软件只是工具。
GNU Image Manipulation Program、Affinity、Darktable、Inkscape 等免费软件可以替代 Photoshop、Illustrator、Lightroom 等 Adobe 产品。
Blender 和 DaVinci Resolve 可替代 After Effects 和 Premiere，LibreOffice Draw 可替代 Acrobat Pro。
Autodesk 的 Revit 依然是行业难题，但 FreeCAD 的 BIM Workbench 和 BlenderBIM（BonsaiBIM）带来希望。
AutoCAD 价格高昂且无永久许可证，缺乏真正替代品，市场有需求但尚无有效开源替代。
目前 AI 技术难以替代复杂的 CAD/CAS 软件，FreeCAD 等开源项目已有一定基础。
BricsCAD 和 Rhino 是成熟的 AutoCAD 替代品，Rhino 计划继续保持非订阅模式。
学习行业标准软件对学生有利，但不应被软件厂商的商业模式绑架，尤其是非图形设计专业。
小型公司通常不强制要求使用特定软件，反而欢迎使用免费软件以节省许可费用。
不使用行业标准软件可能带来文件兼容、色彩管理和协作等问题，但 Adobe 垄断现状令人不满。
对于建筑学生，重点是支持 3D 建模和 BIM 输出，复杂的出版和设计细节要求较低。
应用程序不应随意修改系统配置文件，操作系统应限制此类行为，防止未经同意的修改。
软件安装路径应尽量限制在用户目录下，避免影响系统全局环境。

10. 每一款重要的显卡 (Every GPU That Mattered) #

https://sheets.works/data-viz/every-gpu

该网页以时间线形式详细介绍了过去 30 年间共 49 款重要显卡的发展历程，涵盖从 1996 年首款消费者 3D 加速卡 Voodoo Graphics，到近年的 RTX 系列和当前一代显卡。内容按时代划分为“开创时代”、“DirectX 时代”、“黄金时代”、“高清游戏时代”、“现代时代”、“RTX 时代”等多个阶段，每个阶段介绍了代表性显卡的发布年份、价格、显存容量、晶体管数量、功耗、计算性能（TFLOPS）以及其定义性的游戏。

开创时代（1996-1999 年）介绍了首批 3D 加速卡，如 Voodoo Graphics 和 NVIDIA 的 RIVA TNT 系列，奠定了 3D 图形加速的基础。DirectX 时代（2000-2003 年）则突出显卡首次支持可编程着色器和 DirectX 9.0，ATI 和 NVIDIA 展开激烈竞争。黄金时代（2004-2007 年）见证了统一着色器架构的诞生，NVIDIA 推出了革命性的 GeForce 8800 GTX，开启了 GPU 通用计算（CUDA）时代。

高清游戏时代（2008-2012 年）显卡性能大幅提升，AMD 和 NVIDIA 在制程工艺和显存技术上不断突破，支持 DirectX 11 和更高的计算性能。现代时代（2013-2017 年）显卡进一步提升效率和性能，推出了多款经典型号如 GTX 970 和 GTX 1080，成为主流 1080p 及高端游戏的首选。RTX 时代（2018 年起）引入了硬件光线追踪和 AI 超采样（DLSS）技术，开启了图形渲染的新纪元。

整体来看，网页通过显卡的技术参数、市场定位和代表游戏，清晰展现了 GPU 行业的技术演进和市场变迁，反映了从简单 3D 加速到现代复杂图形处理和计算的巨大飞跃。

HN 热度 299 points | 评论 185 comments | 作者：jonbaer | 15 hours ago #

https://news.ycombinator.com/item?id=47672295

该 GPU 列表看起来像是由 LLM 生成的描述，缺乏真正的策划和深度思考。
90 年代真正重要的 GPU 主要是 3dfx 和 NVIDIA，其他品牌的 3D 加速器性能提升有限。
S3 ViRGE 和 Matrox G200 虽然当时流行，但长期影响不大，甚至被认为性能较差。
S3 Savage3D 开创了纹理压缩技术，对游戏纹理存储和加载有重要影响。
Matrox 显卡在多显示器支持和电视输入输出方面有创新，但游戏支持较弱。
GeForce RTX 4000 和 5000 系列的实际影响力存在争议，有观点认为其提升有限。
早期 GPU 如 Voodoo 和 Rendition VQuake 在图形抗锯齿和性能上有一定突破。
许多游戏曾因纹理压缩技术未被充分利用，导致资源浪费和下载时间过长。
现代软件和服务常依赖用户反馈来改进产品，但这种做法引发了对责任归属的质疑。
Matrox G200 曾支持通过插槽扩展显存，并具备复合视频输出功能，适合多种用途。

Hacker News 精彩评论及翻译 #

Show HN: Brutalist Concrete Laptop Stand (2024) #

https://news.ycombinator.com/item?id=47676122

This man poured concrete around a power strip, chemically aged copper with ammonia, rusted rebar with peroxide, faked a damaged cable for vibes, and vibrated out the air bubbles with a dildo. This is the most unhinged and delightful Show HN I’ve ever seen.

atlgator

这个男人在电源插座周围浇了混凝土，用氨水化学氧化铜，用过氧化氢让钢筋生锈，伪造了一根损坏的电缆来制造氛围，还用震动棒振出了气泡。这是我见过的最疯狂又最有趣的Show HN。

Show HN: Ghost Pepper – Local hold-to-talk speech-… #

https://news.ycombinator.com/item?id=47667921

This thread is a support group for people who have each independently built the same macOS speech-to-text app.

atlgator

这个帖子是一个支持小组，成员们各自独立开发了相同的macOS语音转文字应用。

Are We Idiocracy Yet? #

https://news.ycombinator.com/item?id=47673539

I attended an audience testing screener for Idiocracy before the film’s final edit. I could not believe my eyes and ears, I loved it unlike anything I’d seen before, it was the hardest US culture satire I’d seen up to that point. Then the lights came up and the audience started giving their reviews, in an open mike fashion. They all identified with the “idiots” and were indignant insulted, and angry. I remember making eye contact with Mike Judge like “WTF!” It was an early screener and I think that reaction was a surprise to the film team. I own a copy and watch it more than once a year. One of my favorite hard satires.

bsenftner

我参加过《低能时代》电影最终剪辑前的观众测试放映。我简直不敢相信自己的眼睛和耳朵，我非常喜欢它，感觉以前从未见过这样的作品，这是我当时见过的最犀利的美国文化讽刺片。然后灯亮起来，观众开始用开放麦克风的方式发表意见。他们都认同“傻瓜”这一角色，感到愤怒、受辱和愤慨。我记得当时和导演迈克·贾奇对视，心里想“这是怎么回事！”那是一次早期放映，我觉得这种反应让影片团队很意外。我买了一份拷贝，每年至少看一遍。这是我最喜欢的尖锐讽刺片之一。

Show HN: Stop paying for Dropbox/Google Drive, use… #

https://news.ycombinator.com/item?id=47675655

Why wouldn’t I trust a vibe coded app that has existed for 1 week with all my important data?

sumeno

为什么我不信任一款存在仅一周却存有我所有重要数据的vibe编码应用？

Sam Altman may control our future – can he be trus… #

https://news.ycombinator.com/item?id=47671325

Ronan Farrow, the write of this article, made a comment in this thread that is buried in all the comments, “As is always the case with incredibly precise and rigorously fact-checked reporting like this, where every word is chosen carefully (the initial closing meeting for this one was nearly eight hours long, with full deliberation about each sentence), there is more out there on that subject than is explicitly on the page.”

I saw that before I read the article and it made me read the article in a very different way than I normally do. As I was reading, I found myself thinking, “Why is it worded that way? What else is the writer trying to say, or not say?”

It made reading this a lot more interactive than I normally associate with passive reading. Great job, Ronan!

rupi

这篇文章的作者罗南·法罗在评论区里埋藏了一条评论：“像这样极其精准且经过严格事实核查的报道，每个词都经过仔细斟酌（这篇报道的初步闭门会议就开了将近八个小时，对每句话进行了充分讨论），实际上关于这个主题的信息远比文章中明确写出的要多。”

我在读文章前看到了这条评论，这让我以一种与平常完全不同的方式去阅读文章。读着读着，我发现自己在想：“为什么会这样措辞？作者还在尝试表达什么，或者刻意不说些什么？”

这让我的阅读体验比平时那种被动阅读更具互动性。罗南，干得好！

Sam Altman may control our future – can he be trus… #

https://news.ycombinator.com/item?id=47668579

Yes, but first I want to be very clear on some things.

I could have hidden my identify behind a throwaway. I did not feel that would be appropriate when making this calim.
I am not looking for anything, literally at all. Any follow ups for blogs; anything that would benefit I will not answer.
This is NOT a new account, I am very easy to find; I am 6'1 140lbs

I was working for a company called NationBuilder and I had the opportunity to go on a work trip. Outside of a talk he had just given I was waiting for my ride and I looked over like…damn thats the speaker. I wanted to say Hi; he damn near flagged down the police. I apologized and just decided to move on.

Note: It was in Reno, and no I don’t want to go into details; the others are not hard to find because I happened upon them via blog posts so i’m sure if someone with the accumen of RF wants to know, he will find.

I have heard similar stores from several people in the years since. I AM NOT CALLING THIS PERSON RACIST. I am saying; he is observably scared of black people and that is not someone I want making descions about how the world moves foward.

arionhardison

是的，但我首先想对一些事情明确说明。

我本可以用一个临时账号隐藏身份，但在做出这个声明时，我觉得那样不合适。
我完全不寻求任何回报。无论是博客的后续采访，还是任何可能带来好处的事情，我都不会回应。
这不是一个新账号，我很容易被找到；我身高6英尺1英寸，体重140磅。

我曾在一家名为NationBuilder的公司工作，有一次参加出差。那次在一场演讲结束后，我等着接我的车，突然看到——哇，那就是演讲者。我想打个招呼，但他差点把警察叫来了。我道了歉，然后决定不再理会。

备注：地点是在雷诺，我不想透露细节；其它相关事件不难找到，因为我是在博客文章中偶然发现的，所以如果有人像RF那样敏锐，想了解的话，一定能找到。

这些年来，我听过好几个人讲过类似的故事。我不是在说这个人种族歧视。我是说，他明显害怕黑人，而这样的人我不希望他来决定世界的发展方向。

Sam Altman may control our future – can he be trus… #

https://news.ycombinator.com/item?id=47664087

As is always the case with incredibly precise and rigorously fact-checked reporting like this, where every word is chosen carefully (the initial closing meeting for this one was nearly eight hours long, with full deliberation about each sentence), there is more out there on that subject than is explicitly on the page.

ronanfarrow

正如这类极其精准且经过严格事实核查的报道一贯如此，每个词都经过细致斟酌（这篇报道的最初闭幕会议将近八个小时，针对每一句话进行了全面讨论），关于这个主题实际上还有更多内容未明言于文中。

Sam Altman may control our future – can he be trus… #

https://news.ycombinator.com/item?id=47667992

Hi @ronanfarrow — I have only had one interaction with Sam Altman in person, and I was advised to keep it to myself. I know this crowd may not care, but Altman is absolutely terrified of Black people — not in any contextual sense, but in a visceral, instinctive way. For someone who, as you put it, “controls our future,” this should matter.

FYI: I am by far not the only one to have experienced this and it 100% impacts hiring and other decisions at OpenAI.

arionhardison

嗨，@ronanfarrow——我只和Sam Altman本人有过一次接触，当时有人建议我不要说出去。我知道这群人可能不在意，但Altman对黑人感到非常恐惧——不是在任何情境上的恐惧，而是本能的、发自内心的害怕。对于你说的“掌控我们未来”的人来说，这一点很重要。

顺便说一句，我绝不是唯一有这种体验的人，这完全影响了OpenAI的招聘和其他决策。

My Experience as a Rice Farmer #

https://news.ycombinator.com/item?id=47671774

As a child, I grew up in a village in China and our family farmed rice. It was mostly my mom who was doing the farming while my dad worked in the city.

Some things I remember:

Seeing hired buffalos tilling our fields
Playing with frogs and catching tadpoles in the fields
Someone with a machine that removes the husks would come to our village during harvest
The smell of rice fields. I recently smelled it again and it’s very comforting.

Now I work in high tech, working on AI, and the fancy stuff. There is just something about rice fields that I love - maybe just memories, childhood, smell, how serene it looks when it’s full.

My one hope for AI, robotics, self driving cars, is that they can enable more people in cities to migrate back to rural places. When I was younger, I used envy those who grew up privileged in a big modern city. Nowadays, I absolutely am glad I grew up in a little village in a farming community and I consider myself lucky to have.

aurareturn

小时候，我在中国的一个村庄长大，我们家种植水稻。大多数农活都是妈妈干的，爸爸则在城里工作。

我记得的一些事情：

看到雇来的水牛在耕田
在田里玩青蛙，抓蝌蚪
收割季节时，有人会开着一台机器到村里来脱壳
稻田的气味。最近我又闻到了那味道，感觉非常安慰。

现在我从事高科技工作，专注于人工智能和各种先进技术。但我就是特别喜欢稻田——也许是因为记忆、童年、那股味道，或者是稻田丰收时的宁静景象。

我对人工智能、机器人和自动驾驶汽车唯一的希望，就是它们能让更多城市人迁回农村。当我年轻时，曾羡慕那些在大现代城市长大的特权阶层。现在，我非常庆幸自己是在一个小村庄、农业社区长大的，我觉得自己很幸运。

The cult of vibe coding is dogfooding run amok #

https://news.ycombinator.com/item?id=47665731

I suspect if people saw the handwritten code of many, many, many products that they used every day they would be shocked. I’ve worked at BigCos and startups, and a lot of the terrible code that makes it to production was shocking when I first started.

This isn’t a dig at anyone, I’ve certainly shipped my share of bad code as well. Deadlines, despite my wishes sometimes, continue to exist. Sometimes you have to ship a hack to make a customer or manager happy, and then replacing those hacks with better code just never happens.

For that matter, the first draft of nearly anything I write is usually not great. I might just be stupid, but I doubt I’m unique; when I’ve written nice, beautiful, optimized code, it’s usually a second or third draft, because ultimately I don’t think I fully understand the problem and the assumptions I am allowed to make until I’ve finished the first draft. Usually for my personal projects, my first dozen or so commits will be pretty messy, and then I’ll have cleanup branches that I merge to make the code less terrible.

This isn’t inherently bad, but a lot of the time I am simply not given time to do a second or third draft of the code, because, again, deadlines, so my initial “just get it working” draft is what ships into production. I don’t love it, and I kind of dread of some of the code with my name attached to it at BigCo ever gets leaked, but that’s just how it is in the corporate world sometimes.

tombert

我怀疑如果人们看到许多他们每天使用的产品的手写代码，会感到震惊。我曾在大型公司和初创公司工作，许多进入生产环境的糟糕代码在我刚开始时都让我大吃一惊。

这不是针对任何人，我自己也确实写过不少糟糕的代码。尽管我有时不愿意，但截止日期依然存在。有时候你不得不为了让客户或经理满意而采用临时的解决方案，而这些临时方案往往从未被替换成更好的代码。

此外，我写的几乎任何东西的第一稿通常都不是很好。可能是我不聪明，但我怀疑我并不孤独；当我写出漂亮、优雅、优化过的代码时，通常是第二稿或第三稿，因为我觉得在完成第一稿之前，我并没有完全理解问题和可以做出的假设。通常在我的个人项目中，我的头十几次提交会相当混乱，然后我会有清理的分支合并进去，使代码不那么糟糕。

这本身并不是坏事，但很多时候我根本没有时间做第二稿或第三稿代码，因为截止日期依然存在，所以我最初那个“先让它能运行”的草稿就是投产版本。我并不喜欢这样，也有点害怕自己署名的一些代码在大公司一旦泄露，但在企业世界里，有时候事情就是这样。

Issue: Claude Code is unusable for complex enginee… #

https://news.ycombinator.com/item?id=47662808

Not claude code specific, but I’ve been noticing this on Opus 4.6 models through Copilot and others as well. Whenever the phrase “simplest fix” appears, it’s time to pull the emergency break. This has gotten much, much worse over the past few weeks. It will produce completely useless code, knowingly (because up to that phrase the reasoning was correct) breaking things.

Today another thing started happening which are phrases like “I’ve been burning too many tokens” or “this has taken too many turns”. Which ironically takes more tokens of custom instructions to override.

Also claude itself is partially down right now (Arp 6, 6pm CEST): https://status.claude.com/

summarity

这不是针对Claude代码的特定问题，但我注意到Opus 4.6模型在Copilot等平台上也有类似情况。每当出现“最简单的修复”这个短语时，就该拉紧急刹车了。过去几周这种情况变得越来越严重。它会生成完全没用的代码，明知故犯（因为在出现这个短语之前，推理是正确的），结果把东西弄坏了。

今天又出现了另一种情况，比如“我已经消耗了太多的令牌”或者“这已经花费了太多回合”这样的表达。具有讽刺意味的是，要覆盖这些说法，反而需要更多的自定义指令令牌。

另外，Claude本身现在部分服务中断（Arp 6，欧洲中部时间下午6点）：https://status.claude.com/

Sam Altman may control our future – can he be trus… #

https://news.ycombinator.com/item?id=47662398

Gobsmacking details about Altmans’ time as Y Combinator president, in case anyone’s wondering.

Fantastic reporting.

kmfrk

关于奥特曼担任Y Combinator总裁期间令人震惊的细节，以防有人感兴趣。

报道非常精彩。

Issue: Claude Code is unusable for complex enginee… #

https://news.ycombinator.com/item?id=47664246

I’m the author of the report in there. The stop-phrase-guard didn’t get attached but here it is: https://gist.github.com/benvanik/ee00bd1b6c9154d6545c63e06a317080

You can watch for these yourself - they are strong indicators of shallow thinking. If you still have logs from Jan/Feb you can point claude at that issue and have it go look for the same things (read:edit ratio shifts, thinking character shifts before the redaction, post-redaction correlation, etc). Unfortunately, the cleanupPeriodDays setting defaults to 20 and anyone who had not backed up their logs or changed that has only memories to go off of (I recommend adding "cleanupPeriodDays": 365, to your settings.json). Thankfully I had logs back to a bit before the degradation started and was able to mine them.

The frustrating part is that it’s not a workflow or model issue, but a silently-introduced limitation of the subscription plan. They switched thinking to be variable by load, redacted the thinking so no one could notice, and then have been running it at ~1/10th the thinking depth nearly 24/7 for a month. That’s with max effort on, adaptive thinking disabled, high max thinking tokens, etc etc. Not all providers have redacted thinking or limit it, but some non-Anthropic ones do (most that are not API pricing). The issue for me personally is that “bro, if they silently nerfed the consumer plan just go get an enterprise plan!” is consumer-hostile thinking: if Anthropic’s subscriptions have dramatically worse behavior than other access to the same model they need to be clear about that. Today there is zero indication from Anthropic that the limitation exists, the redaction was a deliberate feature intended to hide it from the impacted customers, and the community is gaslighting itself with “write a better prompt” or “break everything into tiny tasks and watch it like a hawk same you would a local 27B model” or “works for me <in some unmentioned configuration>” - sucks :/

noxa

我是那个报告的作者。停止短语保护没有附上，但这里有链接：https://gist.github.com/benvanik/ee00bd1b6c9154d6545c63e06a317080

你自己也可以监控这些——它们是浅层思考的强烈指标。如果你还保留着一二月份的日志，可以让Claude针对那个问题去查找同样的情况（比如阅读：编辑比例的变化，删减前思考字符的变化，删减后的相关性等）。不幸的是，cleanupPeriodDays 默认设置为20天，任何没有备份日志或更改该设置的人现在只能靠记忆了（建议在 settings.json 里加上 "cleanupPeriodDays": 365,）。幸好我保留了降级开始前一段时间的日志，才得以挖掘出这些信息。

令人沮丧的是，这既不是工作流程问题，也不是模型问题，而是订阅计划中悄悄引入的限制。他们根据负载让思考能力变得可变，删减了思考内容使没人察觉，然后一个月来几乎全天候以大约十分之一的思考深度运行。这是在开启了最大努力、自适应思考关闭、最大思考令牌数很高的情况下。不是所有提供商都会删减或限制思考，但一些非Anthropic的提供商是这么做的（大多数不是API计费）。对我个人来说，遇到的问题是那种“兄弟，如果他们悄悄削弱了消费者计划，你就去买企业版！”的想法是对消费者非常不友好的：如果Anthropic的订阅版相比其他相同模型的访问表现明显更差，他们就应该对此进行明确说明。现在Anthropic完全没有任何迹象表明存在这种限制，删减是故意设计的功能，目的是让受影响的用户察觉不到，而社区却在自欺欺人地说“写一个更好的提示词”或者“把任务拆得很细，然后像盯本地27B模型一样密切监控它”或者“在我某种未提及的配置下可以用”，真是糟透了 :/

Issue: Claude Code is unusable for complex enginee… #

https://news.ycombinator.com/item?id=47663016

That analysis is pretty brutal. It’s very disconcerting that they can sell access to a high quality model then just stealthily degrade it over time, effectively pulling the rug from under their customers.

matheusmoreira

这个分析非常严厉。他们能卖出高质量模型的使用权，然后悄无声息地逐渐降低模型的性能，实际上是在暗中坑害客户，这让人非常不安。

AI singer now occupies eleven spots on iTunes sing… #

https://news.ycombinator.com/item?id=47662929

I have no doubt that those numbers have been inflated by AI powered marketing tools, dead internet theory style.

leviathant

我毫不怀疑那些数字是被AI驱动的营销工具夸大了，就像“死亡互联网理论”那样。

Issue: Claude Code is unusable for complex enginee… #

https://news.ycombinator.com/item?id=47668520

Thanks for the feedback IDs — read all 5 transcripts.

On the model behavior: your sessions were sending effort=high on every request (confirmed in telemetry), so this isn’t the effort default. The data points at adaptive thinking under-allocating reasoning on certain turns — the specific turns where it fabricated (stripe API version, git SHA suffix, apt package list) had zero reasoning emitted, while the turns with deep reasoning were correct. we’re investigating with the model team. interim workaround: CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 forces a fixed reasoning budget instead of letting the model decide per-turn.

bcherny

感谢反馈，ID们——我已经阅读了所有5份对话记录。

关于模型表现：你的会话中每次请求都会发送 effort=high（通过遥测确认），所以这不是默认的 effort。数据表明在某些回合中，适应性思考对推理的分配不足——具体出现虚构信息的回合（stripe API 版本、git SHA 后缀、apt 软件包列表）完全没有输出推理，而那些有深度推理的回合则是正确的。我们正在与模型团队进行调查。临时解决方案是：设置 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1，可以强制使用固定的推理预算，而不是让模型每轮自定决定。