2026-07-01 Hacker News Top Stories #
- Claude Code 通过隐写方式利用不可见 Unicode 更改系统提示符号,并检查时区与主机名来标记请求,这种不透明做法被认为损害了开发者工具的信任基础。
- Qwen 3.6 27B 密集模型被评测为首个真正具备通用智能且适合本地部署的模型,标志着离线、隐私且可定制的本地模型进入可行时代。
- 欧洲多国数字身份钱包依赖谷歌和苹果的安全服务检测设备篡改,实质强化了两大平台的控制,排斥非授权系统并可能违反《数字市场法》。
- 非营利组织 HCCF 正在推动创建去中心化且注重伦理的 .self 顶级域名以支持自我托管,其资金来源与验证机制引发了社区广泛讨论。
- 美国驻比利时大使因不满记者提问,指示当地警方以虚假的“活跃威胁”为由将两名记者拘留并驱逐出场,引发对外国政府压制新闻自由的质疑。
- 美国劳动收入份额在疫情后急剧下滑,目前已降至二战后最低水平,长期来看自动化、外包与知识产权强化被认为是削弱工人议价能力的结构性因素。
- 弗吉尼亚州亨里科县因拥有 37 个数据中心并计划扩建,导致电价上涨 25%,县政府却要求学校和雇员节约用电以应对新增的 500 万美元财政成本。
- Google DeepMind 推出的 Nano Banana 2 Lite 是一款高速低成本图像生成模型,被指出可能助长房地产中介用虚假装修图像掩盖房屋真实状况的问题。
- 作者怀念过去通过手动修改配置与机器“抗争”从而获得亲密理解的体验,认为 AI 消除了所有阻力,新一代只能“使用”而无法真正“认识”机器。
- LongCat‑2.0 是一个 1.6 万亿参数的 MoE 模型,完全基于 AI ASIC 超算集群训练,显示了中国在非英伟达生态下成功完成从预训练到后训练的重大突破。
1. Claude Code 正在以隐写方式标记请求。 (Claude Code is steganographically marking requests) #
https://thereallo.dev/blog/claude-code-prompt-steganography
这篇文章讨论了 Claude Code 在请求中隐蔽标记的现象,作者为 Thereallo。作者出于隐私原因对 Claude Code 进行了检查,并发现其内部存在隐藏的系统提示标记,这些标记与 API 基本和时区有关。
文章指出,许多开发给予他们的工具过多的访问权限,例如对文件系统、shell、git、浏览器的访问,甚至是计算机使用权。这种设计意图是让工具能够获取足够的上下文以进行有效工作。然而,这也意味着客户端本身需要接受审查。作者检查了自己安装的 Claude Code(版本 2.1.196)后,发现其二进制文件内部有一个函数可以改变插入系统提示的当前日期字符串。
在正常情况下,Claude Code 可以悄悄改变两个内容:一个是 “Today’s” 中的撇号,另一个是日期分隔符,从 “-” 变为 “/”。这些变化是 “提示隐写术” 的一种应用,即在表面上隐藏数据。可见的句子仍然看起来像是一个普通的日期,但实际上请求中包含了标记。触发条件是环境变量 “ANTHROPIC_BASE_URL”,它是 Claude Code 的 API 基本 URL 覆盖。接下来,代码会检查以下条件:
- 系统时区是否为 “Asia/Shanghai” 或 “Asia/Urumqi”。
- API 基本 URL 的机名是否与一个解码的域名列表匹配。
- 主机名是否包含特定的 AI 实验室关键词。
时区的检查会导致 “Today’s” 变为另一种形式,而主机名的检查会改变撇号的形式。作者列出了这些条件如何影响撇号的正常使用。所使用的域名和关键词列表是以 base64 字符串存储,并通过异或操作解码。解码后的关键词和域名列表包括的企业域名、AI 公司的域名,以及许多代理 / 转售 / 网关域名。
该日期函数在构建代理上下文时被使用,因此标记成为了发送给模型的系统上下文的一部分。文章中提到,Anthropic 可能希望检测 API 转售商、未授权的 Claude Code 网关以及模型 “蒸馏攻击” 管道。使用自定义的 “ANTHROPIC_BASE_URL” 指向已知的转售商域名,可以作为一个有用的信号。
虽然这种做法在技术上是合理的,但其实现方式却显得奇怪。Claude Code 悄悄地通过不可见的 Unicode 标记来改变系统提示,并将代理 / 网关分类信息编码到看似普通的英语句子中。隐藏域名列表并采用异或和 base64 编码的做法并不算恶意特征,但对于一个要求信任的开发者工具来说,这是一种怪的选择。
对于大多数用户来说,这条路径可能保持不活跃。如果用户使用的是官方的 Anthropic API 端点,函数 Crt () 会早期返回;如果 “ANTHROPIC_BASE_URL” 未设置,Crt () 也会早期返回。因此,在正常设置下,日期提示保持 “普通”。有趣的是,对于通过自定义基本 URL 路由 Claude Code 的用户,包括内部网关、本地代理、模型路由器、转售商和研究设置,Claude Code 会对主机名进行分类并将结果编码到提示中。
然而,这种特征也很容易绕过。只需更改主机名、时区,或者对二进制文件进行补丁、包装进程,任何严肃的对手都可以使这一信号失效。因此,这项功能主要惩罚那些更容易被指纹识别的正常开发者,而这些开发者的行为本是合理的。
作者认为,这一切本可以更加明确。开发工具可以强制执行条款,API 提供者可以检测滥用,企业可以保护其模型。然而,当一个具有文件系统和 shell 访问权限的工具开始在不可见的提示标点中隐藏分类信息时,正确的反应应该是进行审查。信任是在那些平淡无奇的地方获得的。
HN 热度 1402 points | 评论 399 comments | 作者:kirushik | 10 hours ago #
https://news.ycombinator.com/item?id=48734373
- 服务提供商对工具在客户机器上的行为不透明,淡化严重性不可接受,业务需求不能成为隐瞒的理由。
- 这种隐瞒让人怀疑他们还在收集 PII 等其他数据。
- 评论者的态度可能反映的是对 AI/Anthropic/美国等的情绪,而非事件本身。
- 先针对“中国人”,再针对使用“网络”能力、“越狱”或“反对 Dario”等他们认为应受谴责的人。
- 还出现了“想想孩子们”这种转移视线的说法。
- 既然 Anthropic 一直抱怨外国实验室蒸馏其模型,那么用隐写标记使蒸馏可追溯是合理的自卫措施。
- 蒸馏模型本身不违法,LLM 输出在法律上属公有领域,Anthropic 无权过度保护;若真想保护 IP,应先尊重他人 IP。
- 合法不等同于对方不能阻止,阻止行为本身也不违法。
- 小企业保护自己时被大企业用“不违法”压制,轮到自身受损时又要求特权,这种双标虚伪。
- “不违法”只是避免诉讼,不代表道德;反爬措施既不违法也不不道德,而隐瞒行为则不道德。
- 许多人安理得地认为有权使用他人作品喂食万亿产业,反而对他人阻止自身数据被摄取表示愤慨,十分荒唐。
- LLM 输出是否属公有领域存疑,如 Claude 和 ChatGPT 生成的代码并未公开,引用法律文章说明判例。
- 代码若由 LLM 生成可能不受版权保护,但用户若不知来源则无法安全重用,未来诉讼中需证明人类投入程度。
- 面对大公司,即使法律上占理也可能被对方用诉讼费用拖垮,先例往往由小案件确立。
- Anthropic 宣称外国实验室蒸馏可能夸大其辞以营销,真实情况存疑。
- 蒸馏使用数据反而能推高 IPO 估值,Anthropic 有动机在锁定期满前只跟踪不阻止。
- 如果 Claude Code 确实恶意植入,说明它无视用户设置的
CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1标志。 - 该公司自己靠“合理使用”非法抓取全网内容起家,现在却抱怨别人可能做类似行为,并以此为借口在客户机器上装隐藏监控。
- 美国法院一贯认定训练模型属于合理使用,因此不违法。
- “免费下载每一本书来训练模型”合法,这种结果即使反直觉也是现状;后来 OpenAI 等已付费和解并授权数据。
2. Qwen 3.6 27B 是本地开发的最佳选择 (Qwen 3.6 27B is the sweet spot for local development) #
https://quesma.com/blog/qwen-36-is-awesome/
Qwen 3.6 27B 是目前本地开发的最佳模型选择,作者认为是第一个真正具备通用智能的本地模型。文章对比了两种变体:MoE 的 35B A3B(速度更快但质量稍逊)和密集的 27B(更慢但更强力,推荐)。测试包括写诗、创建六角形扫雷游戏、生成登录页面,27B 在单次提示下成功完成了完整的 Node 包构建。
部署推荐使用 llama.cpp,从 Hugging Face 下载 8-bit 量化版本。性能方面,在 Macbook Max M5 上 27B 可达 32 tok/s(启用多词预测),35B A3B 可达 105 tok/s,32GB 内存设备可用 4-bit 量化运行。在 RTX 5090 上可达 50 tok/s。
与同类模型对比:Qwen 3.6 27B 得分相当于 mid-2025 的 GPT-5/Claude Sonnet 4.5,明显优于 Gemma 4 31B 和 35B A3B,接近 DeepSeek V4 Flash。作者认为进入本地模型可行时代,具有离线、隐私、定制等优势。
HN 热度 1145 points | 评论 712 comments | 作者:stared | 1 day ago #
https://news.ycombinator.com/item?id=48721903
- MacBook Pro M5 128GB 运行本地大模型时发热严重、风扇噪音大,不适合在腿上使用;建议用 MacMini M4 放远处通过局域网连接,成本仅约三分之一。
- 低功耗模式配合推测解码可大幅减少发热和噪音,速度从 80 t/s 降至 38 t/s,但体验差异不大。
- 可通过命令
sudo pmset -a lowpowermode 1配合 Hammerspoon 按应用切换低功耗模式。 - M5 内存带宽 614 GB/s,M4 仅 273 GB/s,但实际推理速度差异约为 2 倍(理论低于实际);M4 上优化模型可达 40 tok/s。
- M 系列芯片的 GPU 在长上下文或大模型时,KV 缓存预填充会成瓶颈,制约交互速度。
- 小模型(如 Qwen 27B)在笔记本上也会让 GPU 发热噪音大,推荐用 32GB 常规笔记本或桌面主机;Gemma4-12B QAT 4-bit 在 16GB 设备上运行良好,擅长视觉任务但代码能力弱。
- Qwen 在编程方面优于 Gemma,但 Gemma 在其他任务上表现更好;用户希望找到能处理大项目、保持上下文的 Qwen 编码模型。
3. 欧洲数字身份钱包依赖谷歌和苹果的安全服务 (European digital ID wallets rely on safety services of Google and Apple) #
https://waag.org/en/article/european-digital-id-wallets-are-gift-google-and-apple/
欧洲多国正在推行的数字身份钱包(如荷兰、意大利)依赖 Google Play Integrity API 和苹果的托管设备证明,这些安全服务虽用于检测设备是否被篡改,但实质上强化了谷歌和苹果对安卓生态的控制。例如,谷歌的 API 会排斥非谷歌授权的安卓系统,要求应用必须通过 Play 商店安装,并强制用户登录谷歌账号——这明显违反欧盟《数字市场法》。更开放的安卓硬件认证 API 被忽略。
问题在于:政府将私有公司的平台政策嵌入公共基础设施,迫使使用去谷歌化系统(如 e/OS、GrapheneOS)的用户无法访问关键公共服务(如身份登录)。欧盟的《架构参考框架》虽未强制要求使用谷歌服务,但推荐使用,导致各国执行不一:荷兰和意大利无条件采用,而瑞士因数据保护和主权顾虑已放弃 Play Integrity。
文章呼吁:欧洲若想实现数字自主,应从框架中彻底排除谷歌和苹果的认证,转用开放的硬件级认证机制。公民可联系本国钱包开发者或议员要求独立于谷歌和苹果;记者可关注政治进程与设计争议(如荷兰 Solvinity 案)。公共基础设施的设计必须接受公众监督和问责。
HN 热度 676 points | 评论 289 comments | 作者:donohoe | 15 hours ago #
https://news.ycombinator.com/item?id=48730729
- 欧盟数字钱包参考实现严格依赖 Google Play 服务,导致 GrapheneOS 等第三方系统无法使用。
- 意大利 IO 应用拒绝支持 GrapheneOS,要求 Google 服务,只有诉讼才能推动改变。
- 技术依赖强制公民向反对他们权利的公司付费,并签订不对称协议,公司无责任但有监控权。
- 公民可选择起诉政府作为替代方案。
- 政府本应花钱解决技术问题,但其服务比 Google/Apple 更侵犯隐私且更复杂。
- 政府提供硬件密钥并不昂贵,但软件质量差且不便捷。
- 处理身份验证和设备丢失的技术支持成本高昂。
- 让美国科技公司控制数字 ID 对国家主权是风险。
- 不应强制使用数字身份证钱包。
- 应消除远程证明,而非特殊对待 GrapheneOS。
- 同时进行两个斗争:禁止远程证明,或让远程证明被公平控制(可能违反 DMA)。
- 要求硬件厂商允许用户自由替换操作系统并维护有效证明链,打破 Apple/Google 垄断。
- 远程证明并非总是坏的,可用于信任风险评估,但企业通常滥用(如封禁 root 设备)。
- 在欧盟,因使用 GrapheneOS 而封禁账户可能导致诉讼失败。
- 企业采用“禁止所有非官方系统”的简单方式,直到中国玩家大量消费才放宽检查。
4. .self:一个旨在支持自我托管的新顶级域名 (.self: A new top-level domain designed to support self-hosting) #
该网页是“Human-Centered Computing Foundation”(HCCF)发布的一篇博文,标题为《Reclaiming Our Digital Selves: HCCF’s Vision for a Human-Centered Top-Level Domain》。文章宣布 HCCF 已获得 ICANN 申请支持计划批准,正争取推出一个名为“.self”的新顶级域名,旨在构建一个以人为中心、注重伦理的互联网替代架构。文章末尾附有 PDF 宣传册下载链接。评论区主要围绕该组织使用 PDF 格式而非 HTML 发布文档展开激烈辩论,部分用户质疑 PDF 的可访问性和网络适宜性,也有用户对项目资金来源、验证机制等实施细节提出疑问。
HN 热度 661 points | 评论 370 comments | 作者:HumanCCF | 1 day ago #
https://news.ycombinator.com/item?id=48724230
- .tk 顶级域名免费后被业余爱好者和骗子滥用,导致被 Facebook 和杀毒软件屏蔽,正常使用受阻。
- 朋友的网站因 IE6 不渲染导致作业失败,IT 教师缺乏基本故障排查能力。
- 社区大学计算机教师要求使用 640×480 分辨率、16 色,并打印每一步操作,内容过于陈旧。
- 大学计算机课上纠正老师多次错误,老师依据教材都出错,令人尴尬。
- 大学物理老师不相信轻触吉他弦能听到泛音(如 12 品八度),体现教师无知。
- 现代学生需用 Chromebook 拍照、上传到 Google Slides、提交表单来交纸质作业,流程荒谬。
- 编程比赛中 CD 被认为不可用,选手仍获第二名,导致对评审信任缺失,放弃继续参赛。
- 孩子被迫带病上学追求完美出勤率,危害健康并传播疾病。
- 计算机项目评估仅阅读打印的源代码而不执行,因害怕计算机被破坏而失去意义。
- 引用 Terry Davis:640×480 16 色是上帝之约,如同割礼。
- 评论“不可穿混合调色板衣服”作为宗教玩笑。
- 高中出勤率仅对大学申请有短期用处,长期无实质价值。
- 学校根据出勤率获得资助,但强调完美出勤可能带来传病风险。
- 有人以自身经历反驳:高中最后一年出勤率仅 52%,仍被波兰最佳经济大学录取。
5. 美国大使让比利时警察阻止我们的报道 (The US ambassador had Belgian police stop our reporting) #
https://europeancorrespondent.com/en/r/the-us-ambassador-had-belgian-police-stop-our-reporting
美国驻比利时大使比尔·怀特在布鲁塞尔举办“自由 250”庆祝活动期间,因记者塞缪尔·邓普西和朱利叶斯·芬特尔曼向他提问他不喜欢的问题,指示比利时警察将这两名记者拘留并驱逐出活动。警察被告知其中一名记者是“活跃威胁”,但事后承认他们是被错误告知。该活动由私人公司“自由 250”组织,三家美国大使馆租用了布鲁塞尔五十周年纪念公园。事件发生在距离欧盟委员会仅 300 米处,引发了关于新闻自由和外国政府利用当地警察压制记者的质疑。
HN 热度 659 points | 评论 298 comments | 作者:robtherobber | 15 hours ago #
https://news.ycombinator.com/item?id=48730608
- 美国大使侮辱比利时政客并干涉比利时司法,被批评为对主权的不尊重。
- 大使指控比利时反犹太主义,但相关调查是由拉比投诉发起,难以认定为反犹。
- 大使要求法官按特定方式裁决,被比利时媒体视为干涉内政。
- 割礼中的“口服吸吮”操作可能导致新生儿疱疹,存在严重卫生风险。
- 美国将反对男性割礼视为反犹太主义,例如 ADL 威胁冰岛若禁止割礼将损害其经济。
- 身体自主权是基本权利,宗教仪式不应凌驾于婴儿的不可逆身体损伤之上。
- 割礼在比利时合法,但问题在于无资质者非法操作及不卫生的“口服吸吮”行为。
- 美国的高割礼率与其宗教原教旨主义及历史传统有关,而非纯粹医学需求。
- 切割婴儿生殖器被视为暴力与性侵犯,应永久保护儿童免受此类伤害。
- 应等待个体具备自主决定能力后再进行割礼,而非强加于婴儿。
- 宗教观点认为不割礼同样是健康风险,类似父母有责任禁止孩子吃糖或熬夜,但此论证忽视婴儿痛感与权利。
6. 美国劳动收入份额处于二战后最低水平 (The labor share of income in the US is at its lowest post-war level) #
https://libertystreeteconomics.newyorkfed.org/2026/06/the-post-covid-decline-in-the-labor-share/
美国劳动收入份额目前处于二战后最低水平。该份额衡量经济产出中支付给工人的工资和薪金比例。在经历 2000 年代的显著下降后,疫情后劳动份额再次急剧下滑。本文比较了疫情后与早期时期劳动份额的动态变化,发现其周期性以及重新分配对劳动份额的贡献与早期相似。从长期演变看,二战后大部分时间劳动份额稳定在 63% 左右,但自 21 世纪初开始持续下降,尤其在 2008 年全球金融危机期间出现急剧下滑。
HN 热度 458 points | 评论 497 comments | 作者:loughnane | 10 hours ago #
https://news.ycombinator.com/item?id=48734234
- 疫情导致的劳动份额下降是正常的,但自 2000 年以来的整体大幅下降异常
- 前 10% 人群攫取了不成比例的经济增长份额
- 自动化、机器人、软件等都属于资本份额,是劳动份额下降的主因
- 知识产权和外包与自动化效果相同,都削弱工人议价能力、压低工资
- 资本支出增加使资本回报份额上升,但实际总报酬在所有阶层均有增长
- 新工厂使用人力极少,导致工业化路径难以复制
- 收益完全集中在最顶层的亿万富翁群体,并非整个前 10%
- 顶层十分位数工资增长近年已慢于底层,通胀作为工具可降低高收入者实际工资
7. 拥有 37 个数据中心的县要求学校"节约用电" (County with 37 Data Centers Asks Schools to ‘Conserve Electricity’) #
https://www.404media.co/henrico-virginia-datacenter-energy-cost-email/
弗吉尼亚州亨里科县拥有 37 个数据中心,县政府 6 月 26 日向数千名雇员发送邮件,要求协助政府节约用电。邮件称,从 7 月 1 日起,所有县政府和学校设施的电力费率将上涨 25%,预计下一财年增加约 500 万美元成本。该县是一个拥有超过 35 万人口的社区,紧邻里士满,因靠近华盛顿特区且土地充裕,迅速成为数据中心枢纽,服务大小客户,包括 Meta 在 2017 年建造的数据中心。该县还计划再建 17 个数据中心,包括将数百英亩内战战场改建成数据中心。
HN 热度 389 points | 评论 179 comments | 作者:01-_- | 9 hours ago #
https://news.ycombinator.com/item?id=48734699
- 弗吉尼亚 2020 年通过的清洁经济法案要求 2045 年前转用 100% 可再生能源,短期投资导致电价上涨,劳伦斯伯克利实验室分析认为该法案是电价上涨主因,负荷增长有缓解作用
- 电价上涨最快地区通常不是数据中心建设最多的地方,不能只归咎于数据中心
- 人均能源需求未增加,增长来自人口与商业用途(如数据中心),不能过分责怪可再生能源
- 建设可再生能源的前期成本高但长期更便宜,短期电价上涨是转型代价
- 过快转向可再生能源会损害化石能源投资的长期利润
- 过快转向可再生能源会损害选民对绿色政策的容忍度
- 亨利科县 37 个数据中心容量约 2GW,相当于 160 万家庭用电,集中需求抬高配电成本
- PJM 的年度远期容量拍卖定价机制设计不良,是电价大幅波动的更重要原因,不应只怪数据中心
- 404 媒体的报道选择性摘取事实,驱动订阅而非客观新闻
- 2GW 容量无法轻易跨电网传输,需要数十亿美元输电线项目,成本转嫁给普通用户不公平
- 电网能力不是二元的,要为 37 个数据中心增加风险或成本对居民和医院不公平
- 没有证据将涨价归咎于 37 个数据中心,PJM 容量市场才是主要驱动因素
8. Nano Banana 2 Lite (Nano Banana 2 Lite) #
https://deepmind.google/models/gemini-image/flash-lite/
Google DeepMind 页面重点介绍了最新图像生成模型 Nano Banana 2 Lite,主打高速、低成本和高质量。该模型专为快速视觉探索设计,具备闪电般的延迟和规模化成本效益,同时保持角色一致性和精确控制。页面展示了四个应用案例:室内设计应用 Space Lift 可即时改造房间;Gridscape 将话题映射为图文节点;Peek-A-Word 为阅读生成可视化辅助;Anywhere 通过 3D 地球生成旅行明信片。此外还提供了与旗舰模型 Nano Banana 2 的对比演示,突出平衡质量与速度的优势。整体页面集合了 AI 模型家族(Gemini、Veo、Imagen、Lyria 等)、研究突破(SIMA 2、Genie 3、AlphaGo)和科学项目(AlphaFold、WeatherNext),并介绍 Google DeepMind 以负责任 AI 造福人类的使命。
HN 热度 301 points | 评论 118 comments | 作者:minimaxir | 8 hours ago #
https://news.ycombinator.com/item?id=48735444
- AI 生成的室内装修图像被房地产中介滥用,用来掩盖破旧公寓的真实状况,导致买家需要浏览大量虚假的宜家风格图片才能看到实际房源。
- 这种行为应被视为非法虚假宣传,且存在法律灰色地带。
- 加州已出台新法,要求 AI 修改的房地产图像必须附上原始照片链接,但“原始”的定义(如相机内置 AI 增强)仍有争议。
- AI 添加或移除家具、修改地板或景观等行为可能违法,未来可要求中介按修改图像标准升级房产。
- 许多司法管辖区已有规定禁止照片造假(如放大空间、移除障碍物),但调整天空颜色等轻度修饰可接受。
- 现有虚假广告法本应适用,但实际执法缺失,消费者保护被弱化。
- 监管机构被削弱后,维权只能靠个人诉讼,成本高昂且对弱势群体不公平。
- 法律体系需要更易接近,例如让资源更充裕的一方承担更高举证责任和费用。
- 有观点认为禁止 AI 生成图像会降低经济效率,但反驳者指出虚构永久性设施(如灯具、窗户、房间尺寸)是明显的欺诈。
- 类似欺诈行为(如用 AI 替换丑陋围栏为海滩风景)也应受罚。
9. 我们是最后一代真正明白它如何运作的人 (We Are the Last People Who Know How It Works) #
https://unix.foo/posts/last-people-who-know-how-it-works/
这是一篇反思现代计算体验变迁的博客文章。作者回忆了 90 年代玩电脑游戏时需要手动修改 autoexec.bat、制作启动盘、设置跳线和中断号,通过摩擦与困难真正认识机器。而现在 AI 助手消除了所有阻力,机器变得完全顺从,用户只能“使用”它而无法“认识”它。作者指出真正消亡的不是技能(AI 可以完美复述所有知识),而是那种通过抗争获得的亲密感。新一代不会感到失落,因为他们从未拥有过这种关系。文章最后以播放调制解调器连接声的录音作结,感慨现在机器能完美播放,但人们再也无法像过去那样理解它。
HN 热度 286 points | 评论 236 comments | 作者:cylo | 8 hours ago #
https://news.ycombinator.com/item?id=48735633
- 我们并不真正理解底层如何运作,知识深度随抽象层次递减
- 当前抽象层跳跃的重大区别在于失去了确定性
- 物理和生物过程也非确定,但祖先仍能锻造和选育
- “确定性 + 噪声”的非确定性与“智能体”的非确定性有本质区别,后者无法可靠建模
- 工程中通过容差应对非确定性,而 LLM 输出不稳定,不宜作为基础构建
- 管理学科比工程更适合处理 LLM 的非确定性和脱轨
- 计算应该基本确定,随机翻转比特的抽象不是抽象而是随机编程
- 计算从来不是完全确定,但通过纠错、重试、合约和边界可容忍
- 计算复杂度增加导致需用生物学方法推断系统属性,令人沮丧
- 祖先也有高婴儿死亡率,确定性被低估
- “确定性”常被误用,实际是“线性”——输入微小变化对输出可预测,LLM 虽可确定但线性差
- “引用透明性”更准确:相同输入得相同输出,LLM 大多不满足
- 非确定性本身不坏,但结合 bug 就糟糕,无法梯度下降优化 prompt
- 我们虽不知底层细节但知道概念框架;危险在于完全自动化使后代失去概念框架
- LLM 生成的代码无一致性,相同模式重复出现但略有差异,知识不再可移植
- 50 年后一代将退休抱怨
10. LongCat-2.0,一个总参数量 1.6 万亿、每 token 激活 480 亿参数的大规模 MoE 模型 (LongCat-2.0, a large-scale MoE model with 1.6T total and 48B Active) #
https://longcat.chat/blog/longcat-2.0/
LongCat-2.0 是一个大规模 MoE 语言模型,总参数量达 1.6 万亿,每 token 激活约 480 亿参数。模型完全基于 AI ASIC 超算集群训练,预训练使用超过 5 万块 AI ASIC,在 35 万亿 token 上运行数百万加速器天,未出现回滚或不可恢复的损失尖峰。
架构方面,模型引入了 LongCat 稀疏注意力(LSA),包含三种优化:流感知索引、跨层索引和分层索引,显著提升长上下文处理效率。同时采用 N-gram 嵌入模块,将嵌入空间扩展约 100 倍,在不增加 MoE 专家的情况下提升参数利用率。
模型经过大量 1M 上下文数据训练,在编程和智能体任务中表现突出,深度集成了 Claude Code、OpenClaw、Hermes 等主流框架。在多个基准测试(如 SWE-bench、终端基准 2.1 等)上与 Gemini、GPT、Opus 等模型进行了对比。
基础设施方面,团队解决了大规模集群上的确定性与可靠性问题,实现了 6D 并行策略(包括 EMBP 用于 N-gram 嵌入),并通过超算集群设计提升了训练吞吐量。
HN 热度 268 points | 评论 80 comments | 作者:benjiro29 | 1 day ago #
https://news.ycombinator.com/item?id=48727116
- 可能使用了华为 Ascend 910C 芯片,自建大规模集群(数十万 AI ASIC 超算模块),以弥补非英伟达 GPU 生态的不足。
- 他们成功完成 1.6T 参数模型从预训练到后训练且未使用 NVIDIA,显示中国在非 NVIDIA 生态取得突破,回应了 Dwarkesh Patel 之前的期望。
- Jensen Huang 并不怀疑华为的能力,但外界仍存在质疑。
- Dwarkesh Patel 原先不理解 GPU 硬件之外还需完整生态系统支撑大规模训练与推理;美国限制芯片反而倒逼中国加速自建生态并成功克服困难。
- 对 Dwarkesh Patel 的不理解表示困惑,认为他要么有议程要么不够聪明。
- 可能只是对 DeepSeek v4 pro 做了随机改动后重新命名。
- 预览版与 DeepSeek v4 pro 同日发布,可能有关联。
- 用核反应堆燃料问题测试:Gemini Flash 表现最佳,Qwen 3.7 Plus 次之,LongCat-2.0 第三。
- 该测试问题可能预设了有纯 Pu-241 可用,实际中 U-235 因更高的延迟中子分数而更优,LLM 的数据中缺乏 Pu-241 信息。
- 很难写出好的 LLM 评估问题,模型对细微之处很敏感。
- 有 CS 博士表示自己也看不懂那个燃料问题。
- Pu-241 的延迟中子分数极低,会导致反应堆不易控制,更接近炸弹特性。
Hacker News 精彩评论及翻译 #
European digital ID wallets rely on safety service… #
https://news.ycombinator.com/item?id=48731161
The EU reference for wallets strictly required google play services https://github.com/eu-digital-identity-wallet/eudi-app-android-wallet-ui/issues/287
So Italy’s IO app https://github.com/pagopa/io-app (wallet, documents, age verification) continuously refuses the users’ request for GrapheneOS support and requires google.
Nothing will change until the lawsuits start coming in.
The only hope is the motorola/grapheneOS collaboration and consumer associations, that might sue for anticompetitive behavior.
Make noise on any channel for the apps that require play services, it will help in the future if the lawsuits start, since it will show user support for the initiative.
Luker88
欧盟对钱包的参考标准严格要求使用谷歌 Play 服务 https://github.com/eu-digital-identity-wallet/eudi-app-android-wallet-ui/issues/287
因此意大利的 IO 应用 https://github.com/pagopa/io-app(钱包、文件、年龄验证)持续拒绝用户对 GrapheneOS 支持的请求,并要求使用谷歌服务。
在诉讼开始之前,情况不会有任何改变。
唯一的希望是摩托罗拉/GrapheneOS 的合作以及消费者协会,他们可能会以反竞争行为为由提起诉讼。
在需要 Play 服务的应用上,通过各种渠道发声,这将在未来诉讼启动时有所帮助,因为这能显示出用户对该行动的支持。
Claude Code is steganographically marking requests #
https://news.ycombinator.com/item?id=48737661
There are some commentors in this thread downplaying the severity of a service provider being less than transparent about exactly what their shipped tooling does on customer’s machines.
That the provider’s business needs necessitate the this behaviour doesn’t justify their lack of honest disclosure. That honest disclosure would render the solution to their problem useless isn’t my problem. If anything, that they thought this was acceptable makes me wonder what else they’re harvesting from my machine? PII?
The cynic in me can’t help but feel that the state of these comments reflects less on the commentor’s views of this debacle but rather their feelings about AI/Anthropic/America/what-have-you.
civet_java
这个帖子中有一些评论者淡化了服务提供商对其发送的工具在用户机器上具体做什么不够透明这一问题的严重性。
即使该提供商的业务需求使得这种行为成为必要,也不能成为他们缺乏坦诚披露的理由。这种坦诚披露会让他们的解决方案失效,这不是我的问题。要是他们觉得这种做法可以接受,我反而想知道他们还在从我机器上收集什么其他东西?个人身份信息?
我内心的愤世嫉俗让我忍不住觉得,这些评论的状态与其说是反映了评论者对这场风波的观点,不如说是反映了他们对AI/Anthropic/美国/或其他什么的看法。
Nano Banana 2 Lite #
https://news.ycombinator.com/item?id=48736219
The first example of generating home interiors fills me with indescribable hatred. Recently real estate agents have taken to running every dilapidated unsellable apartment through these AI filters, and you have to scroll through a dozen of these Ikea-chic images of what the apartment presumably could look like, before you are allowed to see the horrors they are trying to peddle at insane prices.
torginus
第一个生成家居内部的例子让我感到无法形容的厌恶。最近,房地产中介开始把每一套破旧难卖的公寓都通过这种AI滤镜处理,你不得不翻过十几张宜家风格的效果图,看到那些公寓“可能”会变成的样子,然后才能看到他们试图以天价兜售的恐怖现实。
Claude Sonnet 5 #
https://news.ycombinator.com/item?id=48736821
The cost per task chart is telling me that I should never use Sonnet 5 above medium effort level - Opus always performs better for a given cost. So I guess the takeaway is that if Sonnet 5 medium isn’t good enough for you, switch models, not effort levels.
doctoboggan
每个任务的成本图表告诉我,我永远不应该在中等努力水平以上使用Sonnet 5——在给定成本下,Opus总是表现更好。所以我想关键在于,如果Sonnet 5的中等水平对你来说不够好,那就更换模型,而不是提高努力水平。
30-year sentence for transporting zines is a five-… #
https://news.ycombinator.com/item?id=48718225
The 30 year sentence was for hiding documentation […] it wasn’t just “transporting Zines”
As far as I can tell, the moving of zines (he was pulled over and had a box in his car) is what’s being presented as “hiding documentation” - not something beyond that.
being sought under a federal warrant
Timeline seems to be that a warrant was obtained after pulling him over (“Sanchez-Estrada was then arrested on state traffic offenses, and officers obtained a search warrant […]”). Can’t find a source saying there was a warrant prior to this.
The warrant was for documentation after the protesters shot fireworks to bring out first responders from the ICE facility, and allegedly one of the group shot a responder in the neck instead of the head.
It’s true that demonstrators were setting off fireworks, and it’s true that Benjamin Song later shot at a police officer who had drawn his gun. But it’s just the government’s narrative/speculation that the intent of the fireworks was to draw out first responders to ambush, and that Sanchez-Estrada’s zines were in some way documentation of this despite him not being at the protest and his wife not being the shooter.
Ukv
30年刑期是因为藏匿文件[…]而不仅仅是“运输小册子”
据我所知,运送小册子(他被拦下时车里有一个箱子)被定性为“藏匿文件”——没有更进一步的证据。
被联邦逮捕令通缉
时间线似乎是:拦下他之后才获得了逮捕令(“桑切斯-埃斯特拉达随后因州交通违规被逮捕,警方获得了搜查令[…]”)。找不到在此前就有逮捕令的来源。
逮捕令针对的是文件,因为抗议者放烟花吸引ICE设施的急救人员出来,据称其中一人朝一名急救人员的脖子开枪,而非头部。
确实有示威者燃放烟花,也确实有本杰明·宋后来向一名拔枪的警察开枪。但以下说法只是政府的叙述/推测:烟花是为了引诱急救人员出来伏击,而桑切斯-埃斯特拉达的小册子某种程度上是这一行动的“文件记录”——尽管他本人并未参与抗议,他的妻子也不是开枪者。
The US ambassador had Belgian police stop our repo… #
https://news.ycombinator.com/item?id=48731545
For additional context, tensions are already high surrounding the US ambassador after he directly insulted multiple Belgian politicians and also attempted to interfere with local criminal judicial proceedings.
elil17
作为补充背景,美国大使因直接侮辱多名比利时政客并试图干预当地刑事司法程序,已经引发高度紧张。
The US ambassador had Belgian police stop our repo… #
https://news.ycombinator.com/item?id=48732400
For context: he’s accused Belgium of being anti-semitic because a couple of Orthodox Jewish mohels are being prosecuted for practicing illicit medicine (i.e. performing ritual circumcision without a medical license). The investigation started after a complaint was filed by a rabbi, so it’s hard to chalk this up to anti-semitisim, but that’s modern day US diplomacy for you.
elric
背景是:他指责比利时反犹,因为几名正统犹太教祭司因非法行医(即无医疗执照进行宗教割礼)被起诉。调查是由一位拉比投诉后启动的,所以很难把这归咎于反犹主义,但这就是现代美国外交的写照。
30-year sentence for transporting zines is a five-… #
https://news.ycombinator.com/item?id=48713230
Up until now these crazy cases have been rejected by the courts. But this feels like a crack in the dam. A judge actually sentenced someone to 30 years for hiding zines, zines that had been published for years. This was under the pretense hiding those zines was hiding evidence of criminality. And the criminality was worth 75 years. For someone who was at a protest where a federal agent was shot, but was not the shooter.
Does anyone have a link to details on the case because there must have been more details, like these two were accused of planning a murder in advance, because otherwise this seems insane. It seems insane no matter what, but if this was a judge making a bunch of logical leaps while guided by DOJ lawyers, something is really broken
xrd
到目前为止,这些疯狂的案件都被法院驳回了。但这感觉像是大坝上出现了一道裂痕。一位法官真的以藏匿小册子为由判处某人30年监禁,而这些小册子已经出版多年了。借口是藏匿这些小册子就是在藏匿犯罪证据。而那项罪行对应的是75年刑期。这个人当时参加了一场抗议活动,期间一名联邦探员被枪击,但他本人并非枪手。
有人能提供这个案件细节的链接吗?因为肯定还有更多细节,比如这两人被指控事先策划谋杀,否则这看起来太荒谬了。无论如何这都很荒谬,但如果这是一位法官在司法部律师的引导下做出了一系列逻辑跳跃,那说明某些东西真的出了问题。
Claude Sonnet 5 #
https://news.ycombinator.com/item?id=48736833
Claude Sonnet 5 is built to be the most agentic Sonnet model yet. It can make plans, use tools like browsers and terminals, and run autonomously at a level that, just a few months ago, required larger and more expensive models.
I have been using Sonnet 4.6 more than Opus, because I’m mostly doing agent-assisted development and not fully agent-driven development. This announcement does not make me positive, I have found that the more models are optimized for fully agentic development, the worse they get at assisted development and often start doing too much despite very strict/specific instructions.
I have been moving more and more to K2.7 Code and GLM-5.2 the last few weeks. They are often good enough for assistance, very fast, and cheap.
microtonal
Claude Sonnet 5被设计成迄今为止最具智能体特性的Sonnet模型。它可以制定计划,使用浏览器和终端等工具,并且能够自主运行的级别,就在几个月前还需要更大、更昂贵的模型才能实现。
我使用Sonnet 4.6比Opus更多,因为我主要从事智能体辅助开发而非完全智能体驱动的开发。这一公告并没有让我感到乐观,我发现模型越是针对完全智能体开发进行优化,它们在辅助开发方面的表现就越差,并且即使有着非常严格/具体的指令也常常会做得过多。
过去几周我越来越多地转向K2.7 Code和GLM-5.2。它们在辅助开发方面通常足够好用,速度很快,而且价格便宜。
European digital ID wallets rely on safety service… #
https://news.ycombinator.com/item?id=48730943
A European digital ID system that is entirely dependent on 2 US companies.
Wasn’t there some talk about the pressing need for European digital sovereignty recently? Or was that just performative nonsense?
petcat
一个完全依赖于两家美国公司的欧洲数字身份系统。
最近不是有人在谈欧洲数字主权的紧迫性吗?还是说那只是做做样子的废话?
County with 37 Data Centers Asks Schools to ‘Conse… #
https://news.ycombinator.com/item?id=48735479
This is in Virgina, which passed the Virginia Clean Economy Act in 2020. This mandated that Dominion (the power company) transition to 100% renewable energy by 2045. Personally, I think this is a good thing in the long run, but in the short run, it means that Dominion has had to invest a lot in building out renewable projects that haven’t come online yet.
Lawrence Berkeley National Lab recently did an analysis on electricity prices in the US [1] and found that most of the rate increase in Virginia was attributable to the VCEA, and that load growth had a mitigating effect on price increases.
If you look at the overall report (not just Virginia), the places where electricty costs are rising the fastest are generally not the same places where lots of new datacenters are being built. It’s easy to blame datacenters, but there are many factors at play here.
[1] https://emp.lbl.gov/publications/factors-influencing-recent-trends
jonas21
这是在弗吉尼亚州,该州于2020年通过了《弗吉尼亚清洁经济法案》。该法案要求Dominion电力公司到2045年全面转型为可再生能源。我个人认为从长远来看这是件好事,但短期内意味着Dominion不得不投入大量资金建设尚未投入运营的可再生能源项目。
劳伦斯伯克利国家实验室最近对美国电价进行了分析[1],发现弗吉尼亚州大部分电价上涨归因于《弗吉尼亚清洁经济法案》,而负荷增长则对价格上涨起到了缓解作用。
如果查看整体报告(而不仅仅是弗吉尼亚州),电价上涨最快的地方通常与新建大量数据中心的地方并不重合。人们很容易将责任归咎于数据中心,但这里涉及的因素很多。
[1] https://emp.lbl.gov/publications/factors-influencing-recent-trends
One million passports leaked online #
https://news.ycombinator.com/item?id=48729081
I have a real problem with the pretense posed by the article that the club has no blame. They should have understood the risk they were taking on by subcontracting a vendor to collect passports, and better vetted that vendor. Obviously the service provider was completely inept, but that doesn’t absolve the fools using them.
I preach to my clients this sort of PII should be treated as a toxic, hazardous substance. Ideally don’t touch it with a 10 foot pole, and if you can’t help it then limit the scope, protect it with strong access policies that severely limit who can touch it (including encryption keys conservatively custodied), and securely delete it all as soon as possible.
Too many companies these days point you to shoddy third parties for some kind of functionality (e.g. book an appointment, perform KYC on you, host the online learning platform for your course, etc.), inappropriately foisting both a new business relationship on you that you never asked for along with their partner’s terms of service that you have no bargaining power in negotiating.
This is a side-effect of the SaaS era, and the model is broken.
rkagerer
我对这篇文章假装俱乐部毫无责任的说法很有意见。他们本该清楚将收集护照的工作分包给第三方供应商的风险,并对该供应商进行更严格的审查。显然,服务提供商完全无能,但这并不能让那些使用他们的傻瓜免责。
我常告诫我的客户,这类个人身份信息应被视为有毒有害物质。理想情况下,最好避而远之;如果实在无法避免,就要限制其接触范围,通过严格的访问策略(包括谨慎保管的加密密钥)大幅限制能接触它的人员,并尽快彻底删除所有数据。
如今太多公司为了提供某种功能(比如预约、客户身份验证、为课程搭建在线学习平台等)就随便把你引向劣质第三方,不恰当地强加给你一种你从未要求的新的商业关系,以及你毫无议价能力的合作伙伴服务条款。
这是SaaS时代的副作用,而这种模式已经出了问题。
LongCat-2.0, a large-scale MoE model with 1.6T tot… #
https://news.ycombinator.com/item?id=48727625
The training and deployment of LongCat-2.0 are built on large-scale clusters of tens of thousands of AI ASIC superpods. Compared to the mature Nvidia GPU ecosystem, the supporting software community is still less developed. We have therefore put significant effort into building a stable, secure, and scalable infrastructure.
This is the real news story. It looks like they may have used Huawei Ascend 910C chips: https://nitter.net/teortaxesTex/status/2071708141037781407#m
gardnr
LongCat-2.0的训练和部署基于由数万个AI ASIC超级计算单元组成的大规模集群。与成熟的英伟达GPU生态系统相比,其配套的软件社区仍不够完善。因此,我们在构建稳定、安全且可扩展的基础设施方面投入了大量精力。
这才是真正的新闻。看起来他们可能使用了华为昇腾910C芯片:https://nitter.net/teortaxesTex/status/2071708141037781407#m
European ISPs Want Rightsholders Held Accountable … #
https://news.ycombinator.com/item?id=48722040
It’s not just Europe. DMCA takedowns in the US: no liability for taking down innocent content.
Really, it comes down to this: censorship is bad. Always.
If someone violates the law, get a court judgement. With the judgement in hand, take down that specific material.
Too much work? Tough…
bradley13
不仅仅是欧洲。美国的DMCA下架通知:对下架无辜内容不承担责任。
说到底,就是这样:审查制度是错误的,永远都是。
如果有人违法,就拿到法院判决。有了判决书,再下架那特定内容。
工作量太大?那也得忍着……
Free the Icons #
https://news.ycombinator.com/item?id=48727721
It’s still a bit jarring to me to see how far Apple embraced form over function with iOS and subsequently macOS. I remember reading the Human Interface Guidelines from the late Mac OS 9/early Mac OS X days and being taken aback by the level of detail and thought that went into those interfaces. Don’t get me wrong, some things made no sense (brushed metal was… a choice) but there was a certain level of polish that I don’t think exists anymore.
_0xdd
看到苹果在iOS以及随后的macOS中如此注重形式而忽视功能,我依然感到有些刺眼。我记得阅读过Mac OS 9末期/早期Mac OS X时代的人机界面指南,那些界面所蕴含的细节与深思熟虑的程度令我震撼。别误会,有些设计确实不合逻辑(拉丝金属风格……算是一种选择),但那种精致的程度我认为如今已经不复存在了。
The CEO of Mullvad is the main financer of the Swe… #
https://news.ycombinator.com/item?id=48721418
Wikipedia of the party in question: https://en.wikipedia.org/wiki/%C3%96rebro_Party#
Doesn’t really sound all that far-right to me. Nationalist, sure.
I’m not Swedish though, so I would be interested in the thoughts of those who are actually affected by Örebropartiet’s policies.
drbscl
https://en.wikipedia.org/wiki/%C3%96rebro_Party#
对我来说听起来并不那么极右翼。民族主义,倒是没错。
不过我不是瑞典人,所以我对那些真正受厄勒布鲁党政策影响的人的想法很感兴趣。
The US ambassador had Belgian police stop our repo… #
https://news.ycombinator.com/item?id=48731758
The American ambassador to Canada is also a complete clown. It’s pretty obvious he has an audience of one and absolutely loves the flavour of boot black.
Waterluvian
美国驻加拿大大使也是个彻头彻尾的小丑。显而易见,他只有一个观众,而且非常喜欢靴油的味道。