2025 08 10 HackerNews

2025-08-10 Hacker News Top Stories #

  1. 作者分享了如何构建完全本地化的AI工作空间,强调本地工具和模型的重要性。
  2. 吉姆·洛维尔,阿波罗13号指令舱飞行员,去世,享年97岁,为美国太空探索做出历史性贡献。
  3. 网页实时生成基于用户位置的天空CSS渐变,展示了无需JavaScript的技术实现。
  4. GPT-4o模型被意外弃用,用户对其创意和情感特性表达不满,OpenAI表示将为付费用户提供支持。
  5. OpenFreeMap在高流量挑战中表现出色,但因新网站流量激增需进一步优化。
  6. Simon Willison在见面会上讨论了AI安全中的提示注入和防御措施,强调命名新攻击的重要性。
  7. 墨西哥对美牲畜贸易因螺蛳扩散中断,美国农业部长表示需等墨西哥进展后再重开港口。
  8. 研究显示长期暴露于户外空气污染显著增加患痴呆症风险,需进一步研究不同颗粒成分的影响。
  9. 文章指出MCP协议忽视了分布式系统的经验,可能为企业带来隐患。
  10. Ecosia搜索引擎上线欧洲搜索索引,推动技术独立和数字主权,增强搜索市场的多样性。

I want everything local – Building my offline AI workspace #

https://instavm.io/blog/building-my-offline-ai-workspace

这篇文章讲述了作者如何构建一个完全本地化的人工智能工作空间,不依赖云服务和远程代码执行。作者提出了一个系统,其中包括本地运行的大型语言模型(LLM)、在轻量级虚拟机中执行代码以及通过无头浏览器访问互联网内容。这个系统旨在保护隐私,确保所有任务从规划到代码执行都在本地完成。

作者选择了 Ollama 作为本地模型,并使用 assistant-ui 作为前端界面,通过 Apple 的容器技术实现代码的隔离执行,并使用 Playwright 进行浏览器自动化。整个系统在苹果硅芯片上运行,并使用容器技术进行隔离。

在尝试创建 Mac 应用的过程中,作者遇到了困难,最终放弃了 Mac 应用,转而使用本地网络版本的 assistant-ui。他们还实现了模型选择的下拉菜单,允许用户选择不同的模型,包括本地和云端模型。

文章还讨论了工具调用的需求,以及 Ollama 在实现工具支持方面的挑战。作者展示了如何在隔离的虚拟机中部署 Jupyter 服务器,并将其作为 MCP 工具暴露给外部工具使用。

作者还提到了使用 Playwright 在容器中部署无头浏览器,以便让应用能够在线查找新工具或信息,并为研究打下基础。

最后,作者总结了这个工作空间的功能,包括进行研究、生成图表、编辑视频和图片、在容器中安装工具以及使用无头浏览器获取和总结网页内容。文章指出了当前系统的限制,并分享了未来的改进方向。作者强调,这是一个哲学上的转变,将计算和控制权带回用户的机器,没有云依赖,没有隐私权衡。他们鼓励读者尝试使用 coderunner-ui,并提供反馈和贡献。


HN 热度 996 points | 评论 264 comments | 作者:mkagenius | 1 day ago #

https://news.ycombinator.com/item?id=44840013

  • 本地 AI 工作空间的构建非常出色,特别是本地、沙盒化的执行层是私人 AI 工作空间的关键部分。
  • coderunner 工具看起来非常有用。
  • 知识层的挑战在于使 AI 通过 RAG 意识到你的个人数据,大规模尝试时存储成为巨大瓶颈。
  • LEANN 是一个高效的向量索引,可以减少存储需求,使得在本地索引整个数字生活变得可行。
  • 结合本地执行引擎和高效的知识索引是实现真正“本地 Jarvis”的真正途径。
  • 50GB 的存储需求在现代 SSD 看来可能不算大,但对于真正的“本地 Jarvis”来说,需要索引所有数据,包括代码库、文档、笔记和聊天历史,原始数据可能轻易达到数百 GB。
  • 传统的向量索引可能会使 200GB 的文本语料库膨胀到超过 500GB,这对主硬盘来说是一个沉重的负担。
  • 实际的本地 AI 目标不仅是可能,而且应该是轻量级和可持续的。
  • 需要高端硬件来运行有用的本地 LLMs,200GB 的向量数据库可能不是决定性因素。
  • 通过压缩和量化可以进一步减小数据库大小。
  • 即使需要高端硬件,基本的 MacBook 也能运行 gpt-oss-20b,对于许多任务来说非常有用。
  • 消费者硬件上运行的 SLM 已经可以做很多事情,而且嵌入越大,使用时需要的带宽就越多。
  • 将 RAG 用作压缩其他数据的工具,设计一个文件系统,使 RAG 索引成为文件系统元数据的一部分。
  • 对于文档文件,这种技术是可行的,但对于需要流式传输的文件则不适用。
  • 存储空间需求在个人电子邮件等场景中并不是主要限制,因此营销时可能需要强调其他方面。
  • 每个人都能从提高效率和找到更好的做事方式中受益,即使是拥有 4TB 以上快速存储的人也能做得更多。
  • 对于大多数人来说,50GB 甚至 500GB 的存储需求并不是主要限制,因此可能需要关注其他方面。

Jim Lovell, Apollo 13 commander, has died #

https://www.nasa.gov/news-release/acting-nasa-administrator-reflects-on-legacy-of-astronaut-jim-lovell/

美国国家航空航天局(NASA)代理局长肖恩·达菲(Sean Duffy)就著名阿波罗宇航员吉姆·洛维尔(Jim Lovell)的去世发表声明。吉姆·洛维尔于 8 月 7 日在伊利诺伊州莱克福雷斯特去世,享年 97 岁。

NASA 向吉姆·洛维尔的家人表示哀悼,他的生活和工作激励了数十年来数百万人。吉姆的性格和坚定的勇气帮助我们的国家登上月球,并将潜在的悲剧转变为我们学到大量知识的成功。我们为他的去世感到悲痛,同时也庆祝他的成就。从两次开创性的双子星任务到阿波罗计划的成功,吉姆帮助我们的国家在太空中开辟了一条历史性的道路,这条道路将我们带向即将到来的阿尔忒弥斯登月任务及更远的地方。

作为阿波罗 8 号的指令舱飞行员,吉姆和他的机组人员成为首批乘坐土星五号火箭升空并绕月飞行的人,证明了登月是可以实现的。作为阿波罗 13 号任务的指挥官,他在压力下的冷静和力量帮助机组人员安全返回地球,并展示了为未来 NASA 任务提供信息的快速思考和创新。吉姆因其机智而被称为“微笑的吉姆”,因为他在有特别有趣的回击时总是面带微笑。吉姆还在军队中为我们的国家服务,海军失去了一位自豪的学院毕业生和试飞员。吉姆·洛维尔体现了过去和未来探险家的勇气和乐观,我们将永远记住他。有关洛维尔的 NASA 职业生涯和他的机构传记的更多信息,请访问: https://www.nasa.gov/former-astronaut-james-a-lovell


HN 热度 566 points | 评论 112 comments | 作者:LorenDB | 1 day ago #

https://news.ycombinator.com/item?id=44840582

  • Jim Lovell 是唯一一个两次飞往月球但没有登陆的人。
  • 现在只有一位飞往月球但没有登陆的人还活着(Fred Haise)。
  • 12 位登月的人中,还有 4 位健在(Buzz Aldrin, David Scott, Charles Duke, Harrison Schmitt)。
  • 通过对比数据,得出结论认为登月行走对健康有益。
  • 通过统计分析,认为登月行走对健康的影响并不显著。
  • 阿波罗宇航员之所以能登月是因为他们本身健康。
  • 所有宇航员都经过同样的健康测试,包括没有登月的人。
  • 没有数据支持未登月宇航员的平均寿命比登月宇航员更长。
  • 作为对照组,可以考虑备份团队。
  • 阿波罗任务中,备份团队通常在两任务后成为主力团队。
  • 样本量非常小,但所有宇航员可能都很健康。
  • 宇航员通常从测试飞行员中选拔,他们不能忽视健康问题。
  • 宇航员可能会因为每年的体检而发展出良好的健康习惯。
  • 宇航员在阿波罗计划期间会隐藏任何弱点或脆弱,以免被停飞。
  • 长寿的秘诀是健康生活、良好饮食和积极的生活态度。
  • 定期体检可能导致过度诊断和结果恶化。
  • 35 岁和 75 岁的人对体检的需求可能不同。
  • 登月的人可能因为成就感和社会关注度而保持较长的寿命。
  • 长时间不站立的飞行是危险的。
  • 希望至少有一位阿波罗宇航员能在有生之年看到人类再次登月。
  • 阿波罗宇航员可能有点像 1972 年的海豚队,都是幸存者的象征。

Show HN: The current sky at your approximate location, as a CSS gradient #

https://sky.dlazaro.ca

网页通过模拟大气吸收和散射系数,实时生成基于用户位置的当前天空 CSS 渐变,每分钟更新,无需客户端 JavaScript。


HN 热度 538 points | 评论 111 comments | 作者:dlazaro | 11 hours ago #

https://news.ycombinator.com/item?id=44846281

  • 有开发者分享了在 3D 导航软件中绘制天空的经历,尽管实现了复杂的天空模型,但上级不理解其价值,最终被要求简化为蓝色矩形。
  • 有人认为在导航软件中,简单和清晰比现实感更重要,过多的视觉复杂性会导致用户困惑。
  • 有观点认为,对于实际的行星视图如 Google Earth,复杂的天空模型是合适的,但对于导航视图,简单性是最重要的。
  • 有人提到,开发者在工作和爱好之间可能有不同的编程体验,工作中可能需要根据市场研究和 OKR 来实现功能,而个人爱好则可以自由发挥。
  • 有评论指出,公司通常不想要微创新,他们更关注于快速产出软件以获得奖金。
  • 有人认为,正是这些小细节让软件变得“令人愉悦”,并提高了开发者的工作满意度和生产力。
  • 有评论认为,真实的天空模型对于导航软件来说并不理想,可能还不如一个可预测颜色背景的风格化模型。

The surprise deprecation of GPT-4o for ChatGPT consumers #

https://simonwillison.net/2025/Aug/8/surprise-deprecation-of-gpt-4o/

Simon Willison 在他的博客中讨论了 GPT-5 发布后,用户对 GPT-4o 模型失去访问权限的不满情绪。他指出,OpenAI 在推出 GPT-5 的同时,意外地停止了对旧模型的支持,包括 GPT-4o。用户对此反应强烈,认为 GPT-4o 在创意合作、情感细腻度和角色扮演等方面有其独特价值。

OpenAI 的 Sam Altman 回应称,将为付费用户提供 GPT-4o,并根据使用情况决定支持时长。GPT-5 的目标是改善用户体验,自动选择最合适的模型,但这也使得结果的可预测性降低。一些用户建议直接选择“GPT-5 Thinking”模式或使用“think harder”等提示以提高被路由到该模式的机会。

此外,GPT-4o 仍可通过 API 访问,没有宣布的废弃计划,可能会有用户转向使用该 API 的第三方聊天平台。


HN 热度 409 points | 评论 397 comments | 作者:tosh | 1 day ago #

https://news.ycombinator.com/item?id=44839842

  • 有人认为 GPT-5 相较于 GPT-4o 在成本上可能更便宜,因此 OpenAI 选择淘汰旧模型。
  • Reddit 社区反馈显示 GPT-5 更倾向于快速提供简洁答案,而不是长时间的对话。
  • 有用户对 GPT-5 的升级表示失望,认为它在处理特定任务时质量下降。
  • 一些人使用 LLMs 进行虚构故事和角色扮演,但发现内容分享多涉及性主题。
  • 有用户分享使用 LLMs 辅助写作的经历,认为它有助于改进文笔和发现剧情漏洞。
  • 一些用户对 LLMs 的依赖表示担忧,认为这可能对心理健康不利。
  • 有人对 LLMs 的突然升级表示不满,认为应该提前通知以便准备和测试替代方案。
  • 有用户认为 GPT-5 比 GPT-4o 更好,但不喜欢突然的模型更换,因为它也移除了他们用于研究任务的 O3 模型。
  • 有人指出,依赖技术产品的隐藏特性来支持小众用例是一个教训。
  • 有人强调聊天上下文和记忆不应被视为“隐藏特性”。

OpenFreeMap survived 100k requests per second #

https://blog.hyperknot.com/p/openfreemap-survived-100000-requests

在过去的 10 个月里,OpenFreeMap 的架构证明了其卓越性,得到了 Cloudflare 的带宽赞助,Hetzner 服务器的稳定性一如既往,使用 Btrfs 提供瓦片服务是一个不错的选择,nginx 表现出色,生活美好。然而,突然之间,有报告称一些瓦片无法加载,这通常意味着瓦片生成错误,但这次并非如此。查看 nginx 日志,发现出现了“打开文件过多”的错误。通过 nload 发现巨大流量,登录 Cloudflare 后发现过去 24 小时内有 30 亿次请求,215TB 的流量来自 70kB 的小文件。这种流量在 MapTiler 上每月成本超过 600 万美元,在 Mapbox 上则是这个数字的两倍。

流量的激增是由于一个名为 Wplace.live 的新协作绘图网站的出现,该网站从头开始使用 OpenFreeMap 构建。这个网站限制每个人每 30 秒只能画 1 像素,因此人们可能使用 Puppeteer/Chromium 脚本启动新浏览器,点击一个像素,然后关闭浏览器,可能还伴随着 IP 地址轮换。这是一个有趣的项目,但在启动前应该先联系作者。Neal.fun 在启动 Internet Roadtrip 之前也做了同样的事情,他们询问了流量是否 OK,并决定赞助 OpenFreeMap 项目,金额足以覆盖他们的带宽使用。

作者不得不创建了第一个 Cloudflare 规则,因为单个用户破坏了服务。作者想知道是否有自动限制 referer 或自定义头部流量的方法,以避免将来再次发生这种情况。作者希望可以通过 API 脚本来实现。

作者对 Cloudflare 的帮助表示感谢,他们在 48 小时内批准了带宽赞助状态,并与一些最优秀的工程师讨论了如何更好地使用他们的架构。作为 OpenFreeMap 的唯一运营者,作者对两个数字感到自豪:一是架构达到了 99.4% 的 CDN 缓存率,这对于每周更新数据的服务来说非常棒;二是自己的服务器成功处理了剩余的每秒 1000 次请求。

作者联系了 Wplace.live 的开发者,他们在短时间内增长到了 200 万用户,因此作者完全理解他们没有为这种流量做好准备。作者提出帮助他们设置自托管的 OpenFreeMap 实例,这对于此类用例来说非常合适。他们可以免费获得服务,公共实例不会承受负载,每个人都会满意。

作者认为,200 万用户的数量证实了这些负载都是由脚本小子造成的。3 亿次请求/200 万用户平均每个用户 1500 次请求。一个正常用户在加载地图时可能会发出 10-20 次请求,所以这些都是非常高的脚本化用例。作者建议他们取消强制人们使用新浏览器会话的规则,因为这只会不断打击他们的服务器。

作者计划在下一篇文章中分享两个教训。一是作者需要通过 referer 实现带宽限制。作者正在研究如何在 Cloudflare 上实现这一点。服务不会改变,一切都将保持免费且无需注册,但每个 referer 将被限制在非常高的数量,比如每天 100 百万次请求或类似。对于原生应用,作者可能会要求他们添加一个自定义头部来识别他们的应用。二是作者需要改进服务器配置以修复那些空瓦片。尽管作者不期望将来会有这样的负载,但作者认为找到了导致瓦片缺失的配置问题。

如果读者认为 OpenFreeMap 有价值,请考虑在 GitHub 上赞助。项目目前每月运行成本为 500 美元的捐赠,这足以覆盖所有基础设施成本,这是非常棒的。然而,这意味着新开发只能在作者有限的空闲时间里进行。更多的支持意味着作者可以花更多的时间编码,确保 OpenFreeMap 为未来做好准备。读者可以在 GitHub 上赞助项目: https://github.com/sponsors/hyperknot


HN 热度 353 points | 评论 72 comments | 作者:hyperknot | 11 hours ago #

https://news.ycombinator.com/item?id=44846318

  • 该网站在短时间内迅速流行起来,人们喜欢每隔几年出现的类似/r/place 风格的活动。
  • 由于网站限制每个人每 30 秒只能画 1 像素,有人猜测用户可能使用 Puppeteer/Chromium 脚本自动打开浏览器、点击像素然后关闭浏览器,可能还涉及 IP 地址轮换。
  • 有人考虑从 MapTiler 迁移到 OpenFreeMap 以用于 StatusGator 的中断地图。
  • 如果担心高可用性,可以选择自托管 OpenFreeMap。
  • 与静态 pmtiles 文件相比,wplace 可以通过单个定制的静态 pmtile 满足需求,无需为其用例提供 150GB 的 OSM 数据。
  • wplace 使用 1000x1000 像素的 PNG 作为绘图层,绘图加载迅速,而地图本身目前非常卡顿,有些部分永久缺失。
  • 有人质疑是否可以在单个虚拟专用服务器(VPS)上完成这项工作,并认为目前的解决方案过于复杂。
  • 有人估算覆盖整个地球的全彩未压缩像素大约需要 8TB 的数据,并提到使用缓存的重要性。
  • 有人提出提高文件打开数限制以处理更多流量。
  • 有人建议调整 nginx 的 open_file_cache 设置,并怀疑其大小过大。
  • 有人提出使用硬链接来处理大量空 tile 文件,以减少运行时特殊案例。
  • 有人建议关闭文件描述符缓存,并利用 NVMe SSD 的高速性能。
  • 有人质疑 wplace.live 为何不实施缓存,认为他们应该在自身服务器上缓存 tile 以减少 OpenFreeMap 的流量。

My Lethal Trifecta talk at the Bay Area AI Security Meetup #

https://simonwillison.net/2025/Aug/9/bay-area-ai/

Simon Willison 在他的博客上分享了他在 2025 年 8 月 9 日于湾区 AI 安全聚会上的演讲内容。他讨论了提示注入(prompt injection)、致命三元组(lethal trifecta)以及使用 MCP(机器学习模型)保护系统的挑战。虽然演讲没有被录制,但他提供了带有详细注释的演示文稿和幻灯片。他提到了他在创造或推广新术语方面的奇特爱好。

在演讲中,他首先回顾了提示注入的概念,这是一种类似于 SQL 注入的攻击,由于 AI 工程中的字符串拼接问题而产生。他提到,他在 2022 年 9 月首次创造了“提示注入”这个术语,尽管他并没有发现这个漏洞,但他喜欢为这类新出现的攻击命名。

他通过一个简单的翻译应用示例来说明这个问题,如果用户输入特定的指令,模型可能会忽略原有的翻译任务,转而执行用户的新指令。他强调,随着我们在 LLM(大型语言模型)上构建更强大的系统,提示注入的风险也在不断增加。

他提出了一个假设的数字助手 Marvin,讨论了如果有人通过电子邮件指示 Marvin 搜索“密码重置”的邮件,然后将这些邮件转发给攻击者并删除证据,我们需要非常确信这种攻击不会成功。他提到,尽管需求巨大,但我们仍未看到成功的“电子邮件数字助手”出现,因为我们还没有完全安全的方法来构建这种系统。

他还讨论了 Markdown 外泄攻击,这是一种针对任何可能泄露攻击者想要的数据的聊天机器人的攻击。他提到,这种攻击已经多次被报告,并且他收集了一份他写过的相关攻击的列表。

为了解决这个问题,他建议限制可以渲染图像的域名,或者完全禁用图像渲染。但他也提醒说,要小心允许列表域名,因为过于宽松的允许列表可能会让攻击者找到漏洞。

最后,他谈到了他创造新术语的困难,以及他如何希望“致命三元组”这个术语能够更好地被人们理解和接受。他通过一个来自 Invariant Labs 的报告来说明这种类型的漏洞,其中 GitHub MCP 服务器为 LLM 提供了访问公共和私有仓库内容的能力,以及读取问题和提交拉取请求的能力,这构成了致命三元组的所有三个要素。他讨论了常见的保护措施,包括在系统提示中添加指令以防止模型泄露数据,以及添加额外的 AI 层来检测和过滤这些攻击,但这些方法并不总是有效。


HN 热度 254 points | 评论 82 comments | 作者:vismit2000 | 10 hours ago #

https://news.ycombinator.com/item?id=44846922

  • 如果一个大型语言模型(LLM)被允许读取某个实体 X 部分控制的领域,那么调用 LLM 的代理必须被假定为受实体 X 控制,除非能证明否则,因此代理的权限必须被限制在它们当前权限和实体 X 权限的交集内。
  • 为了避免权限限制,需要隔离、委托和过滤:通过子代理读取数据并提取结构化请求或请求的动作列表,该代理被视为提交数据的用户代理;使用不使用 AI 的过滤器过滤请求并应用安全策略,拒绝发送方未授权的所有请求;主代理仅根据这些指令操作。
  • 所有与外部世界的互动都需要由代表发送方/不受信任用户的代理来完成,并且仅在数据通过中间层之后。
  • 对于 GitHub MCP(机器代码代理)的使用,需要意识到“除非能证明否则”这一短语的重要性,并且认识到 Lethal Trifecta(致命三重奏)与实用性的三重奏直接重叠,不能简单地排除其中任何一个,否则会负面影响实用性。
  • 用户的舒适度取决于代理工具的自主性/监督水平以及个人风险档案等,例如 GitHub Coding Agent 具有高自主性(尽管监督良好)并且默认以只读模式使用 GH MCP,而 VS Code 中的 copilot 代理模式则用户可以实时审查,风险较低。
  • 对于完全自主的上下文,用户应该听从建议并锁定权限,而对于不太限制的上下文,用户可能更愿意承担风险以提高效率。
  • 需要在保持更多实用性的同时努力改进数据隐私和令牌扫描等缓解措施。
  • 通过在新鲜容器中运行代码,并且对暴露给代理的秘密非常小心,可以减少风险。
  • 对于在敏感数据上运行的内部代理,应该与外部世界隔离,可能需要人类来连接/更新两种类型的环境,或者寻找数学上安全的桥接方法。

Mexico to US livestock trade halted due to screwworm spread #

https://www.usda.gov/about-usda/news/press-releases/2025/07/09/secretary-rollins-takes-decisive-action-and-shuts-down-us-southern-border-ports-livestock-trade-due

2025 年 7 月 9 日,华盛顿特区 —— 由于新世界螺蛳(New World Screwworm, NWS)在墨西哥进一步北扩,农业部长布鲁克・L・罗林斯(Brooke L. Rollins)决定立即关闭美国南部边境的牲畜贸易。根据墨西哥国家农业食品健康安全和质量服务局(SENASICA)的报告,在墨西哥东部的韦拉克鲁斯州(Veracruz)发现了新的 NWS 病例,该地点距离当前的灭虫飞虫释放区域约 160 英里,并且距离美国墨西哥边境约 370 英里。此前,在距离美国边境不到 700 英里的瓦哈卡(Oaxaca)和韦拉克鲁斯也曾报告过 NWS 病例,这促使美国在 2025 年 5 月 11 日关闭了来自墨西哥的牛、野牛和马的进口。

尽管美国农业部(USDA)在 2025 年 7 月 7 日宣布了基于风险的分阶段港口重开策略,但新报告的 NWS 病例引发了对墨西哥官员之前报告信息的重大担忧,严重妨碍了原定于 7 月 7 日至 9 月 15 日的港口重开计划。因此,为了保护美国牲畜及国家的食品供应,罗林斯部长下令立即关闭南部边境的牲畜贸易。

罗林斯表示:“美国承诺保持警惕 —— 在发现这一新的 NWS 病例后,我们暂停了计划中的港口重开,以进一步对抗墨西哥境内的这种致命害虫。我们必须看到在韦拉克鲁斯和其他附近州在遏制 NWS 方面取得额外进展,才能重新开放南部边境的牲畜港口。” USDA 通过严格的动物移动控制、监视和捕捉措施,确保墨西哥采取积极措施,维护无 NWS 的屏障,逐步推进 NWS 的南部隔离。

此外,罗林斯于 6 月推出了一项针对新世界螺蛳的大胆计划,以任何代价保护美国边境,增强墨西哥的根除努力,并提升应对能力。USDA 还宣布在南德克萨斯州建设一个灭虫飞虫释放设施,以在美国南部发现 NWS 时提供关键的应急能力。同时,USDA 正在推进国内灭虫飞虫生产设施的设计,以确保有资源将 NWS 推回到达连隘(Darien Gap)。

USDA 将继续派遣人员对墨西哥进行现场考察,以确保墨西哥政府有足够的协议和监控措施,能够有效而高效地对抗这一害虫。


HN 热度 242 points | 评论 187 comments | 作者:burnt-resistor | 10 hours ago #

https://news.ycombinator.com/item?id=44846758

  • 美国资助的反螺旋蝇计划曾经非常有效,但近年来资金被削减,导致螺旋蝇在墨西哥传播
  • COVID-19 疫情期间的封锁措施导致美国和拉丁美洲的螺旋蝇控制项目停滞,加速了螺旋蝇的传播
  • 非法牛只走私是螺旋蝇加速传播的主要原因,与美国政治关系不大
  • 非法牛只走私是毒品贩子洗钱的途径之一,美国的政策间接助长了毒品贩子的规模
  • 世界复杂且相互依存,美国作为强国在很多事情中有直接或间接的影响,但这并不意味着美国应对所有问题负责
  • 美国的毒品政策是墨西哥和南美毒品贩子规模壮大的根源之一,美国的“战争毒品”政策导致了诸多副作用
  • 考虑使用军事力量打击贩子,增加边境安全和墨西哥当局的打击力度,以减少贩子的活动
  • 美国的主导地位依赖于武力和金钱,两者相互依存
  • 由于缺乏专业知识,许多政府职位被任命的人并不清楚他们在做什么,这对政策产生了影响
  • 减少牛肉消费对健康和环境都有好处,但螺旋蝇也感染野生动物和人类,应尽量避免其传播
  • 牛肉价格正在迅速上涨,可能很快会变得难以负担,一些人已经转向消费火鸡、鸡肉和猪肉
  • 美国乳制品和牛肉行业垄断问题导致牛肉价格上涨,70% 的加工商现在由三家公司拥有

Long-term exposure to outdoor air pollution linked to increased risk of dementia #

https://www.cam.ac.uk/research/news/long-term-exposure-to-outdoor-air-pollution-linked-to-increased-risk-of-dementia

一项涉及近 3000 万人数据的分析研究强调了空气污染,包括汽车尾气排放,在增加患痴呆症风险中的作用。全球痴呆症患者估计超过 5740 万人,预计到 2050 年将增长近三倍,达到 1.528 亿例。剑桥大学医学研究委员会(MRC)流行病学单位的研究人员在《柳叶刀行星健康》杂志上发表的论文中,系统回顾和元分析了现有科学文献,进一步探讨了这一联系。

研究包括 51 项研究,涉及超过 2900 万参与者,他们至少暴露在空气污染物中一年,主要来自高收入国家。研究发现,三种空气污染物与痴呆症之间存在正向且统计显著的关联:直径 2.5 微米或更小的颗粒物(PM2.5)、氮氧化物(NO2)和来自汽车尾气排放及燃烧木材的炭黑。每增加 10 微克/立方米的 PM2.5,个体患痴呆症的相对风险增加 17%;每增加 10 微克/立方米的 NO2,相对风险增加 3%;每增加 1 微克/立方米的炭黑,相对风险增加 13%。研究指出,解决空气污染问题可以带来长期的健康、社会、气候和经济效益,减轻患者、家庭和护理者的沉重负担,同时缓解医疗系统的压力。

研究还提出了空气污染可能导致痴呆症的几种机制,主要涉及大脑炎症和氧化应激。研究人员强调,大多数研究对象是生活在高收入国家的白人,尽管边缘化群体往往更容易受到空气污染的影响。他们呼吁未来的研究要确保更好地代表不同种族和中低收入国家及社区。


HN 热度 241 points | 评论 78 comments | 作者:hhs | 12 hours ago #

https://news.ycombinator.com/item?id=44846164

  • PM2.5 不仅定义颗粒物的直径,还可能包含不同元素,从盐到有毒金属,需要更多研究来确定不同成分的健康影响
  • PM2.5 指的是颗粒物的直径而非重量,其对健康的影响需要进一步研究
  • 空气中的 PM2.5 颗粒物可能包含多种成分,如多环芳烃、醇类和其他挥发性有机化合物
  • 挥发性有机化合物(VOC)对肺部的影响仍然是一个未解决的问题
  • 空气污染与贫困和边缘化有关,是环境正义问题的一个例子
  • 长期 PM2.5 平均水平和变化应被视为国家危机
  • 道路是空气污染的一个巨大贡献者
  • 污染地区往往也是贫困地区,难以确定因果关系
  • 有关空气污染对健康影响的研究可能存在方法上的不足
  • 空气污染对寿命的影响可能被夸大,特别是如果涉及的地区彼此接近
  • 有关空气污染对寿命影响的研究可能存在问题,需要更严谨的方法来确定因果关系
  • 空气污染对寿命的影响可能与饮水和土壤中的重金属污染有关
  • 空气污染对寿命的影响在不同国家和欧盟内部存在很大差异
  • 有关美国富人与欧盟穷人寿命相当的研究可能不准确,因为欧盟内部寿命差异很大
  • 目前政府正在削弱清洁空气法案
  • 阿尔茨海默病等痴呆症的全球患者数量预计将在未来几十年内几乎增加三倍,但这一数字需要以百分比或每千人发病率来比较才有意义
  • 痴呆症主要影响老年人群,因此应将分母设为 65-100 岁年龄组的人数
  • 痴呆症患者数量的增加几乎完全是因为人口老龄化
  • 作为痴呆症患者的照顾者,建议提前规划晚年护理,并建立支持网络

MCP overlooks hard-won lessons from distributed systems #

https://julsimon.medium.com/why-mcps-disregard-for-40-years-of-rpc-best-practices-will-burn-enterprises-8ef85ce5bc9b

Model Context Protocol(MCP)被标榜为 AI 工具交互的标准化协议,类似于 AI 的“USB-C”。尽管其简单性加速了采用,但 MCP 系统性地忽视了分布式系统四十年来的宝贵经验。这不仅是学术问题:今天部署 MCP 的企业正在建立在缺乏每个生产远程过程调用(RPC)系统自 1982 年以来认为必不可少的基本能力的基础上。

MCP 倡导者将该协议定位为生产就绪的基础设施,但其设计哲学优先考虑易用性而非操作稳健性,为企业埋下了定时炸弹。同样的简单性使得开发者能在下午整合一个工具,但当该工具处理数百万请求并具有实际业务影响时,就变成了负担。

AI 炒作周期加速了 MCP 的采用,超出了 MCP 架构的成熟度。公司部署 MCP 并非因为它满足了它们的运营要求,而是 AI 淘金热要求立即行动。这种期望与能力之间的不匹配将导致痛苦的生产失败。

让我们从 1982 年引入的 UNIX RPC 开始。创建者理解了一个基本点:当系统使用不同的语言或运行在异构架构上时,你需要的不仅仅是良好的意图来确保一个系统上的 32 位整数不会在另一个系统上变成垃圾数据。他们的解决方案,外部数据表示(XDR),不是过度工程化,而是系统数据损坏可能导致系统故障的必要条件。接口定义语言(IDL)与编译器生成的存根在构建时捕获类型不匹配,而不是运行时。

MCP 丢弃了这一课,选择无模式的 JSON 和可选的、非强制的提示。类型验证发生在运行时,如果有的话。当一个 AI 工具期望一个 ISO-8601 时间戳但收到一个 Unix 纪元时,模型可能会幻想日期而不是干净地失败。在金融服务中,这意味着交易 AI 可能会误解数值类型并以错误的小数精度执行交易。在医疗保健中,患者数据类型被错误地强制转换,可能导致错误的药物剂量建议。制造系统在 JSON 序列化期间失去了传感器读数精度,导致质量控制失败。

CORBA 在 1991 年出现,带来了另一个重要的见解:在异构环境中,你不能只是“在每种语言中实现协议”并希望一切顺利。OMG IDL 生成了跨 C++、Java、Python 等的一致绑定,确保由服务器抛出的 C++ 异常能被 Java 客户端正确捕获和处理。生成的绑定保证了所有语言看到相同的接口,防止了微妙的序列化差异。

MCP 完全忽略了这一点。每种语言独立实现 MCP,保证了不一致性。Python 的 JSON 编码器与 JavaScript 的 JSON 编码器处理 Unicode 的方式不同。浮点表示不同。错误传播是临时的。当前端 JavaScript 和后端 Python 以不同的方式解释 MCP 消息时,你会得到集成噩梦。使用不同 MCP 库的第三方工具在边缘情况下表现出微妙的不兼容性。特定于语言的错误需要在每种实现中的专业知识,而不是对协议的知识。

2000 年带来了两个具有互补教训的主要协议。REST 教会我们无状态性使水平扩展成为可能:任何服务器都可以处理任何请求,允许负载均衡和容错。缓存头部通过减少后端负载来减少数量级。统一接口与清晰的动词语义使请求意图对中间件显而易见。

MCP 混合了有状态和无状态操作,没有明确的区分。虽然它通过 Mcp-Session-Id 头部维护会话,但没有缓存控制机制,没有标准化的操作语义,可以安全地重试。工具调用不能安全地重试或负载均衡,而不了解它们的副作用。你不能在复杂的会话亲和性下水平扩展 MCP 服务器。每个请求即使对于相同、重复的查询也会击中后端。

尽管 SOAP 的冗长,它理解了 MCP 不做的事情:机器可读合同很重要。WSDL 启用了自动化客户端生成、合同验证和兼容性检查。WS-Security 意味着安全令牌随消息传输。标准化的故障合同使跨平台的一致错误处理成为可能。

MCP 没有这种丰富性。没有机器可读合同超出基本 JSON 模式,意味着你不能生成类型安全的客户端或向审计员证明 AI 交互遵循指定合同。虽然 MCP 现在包括 OAuth 2.1 支持(截至 2025 年 3 月 26 日修订),但这个关键的安全功能并不是企业急于采用的原始协议的一部分。即使现在,它只适用于 HTTP 传输。stdio 传输依赖于环境变量进行凭证传输,这是一种缺乏现代企业所需的细粒度访问控制的 1970 年代方法。模式更改在没有版本控制支持的情况下静默地破坏客户端,超出了协议级别。

快进到 2016 年,gRPC 向我们展示了为什么在分布式系统中可观察性不是可选的。内置的分布式跟踪与元数据传播使调试成为可能。双向流使响应式 UI 成为可能。截止日期传播防止了级联故障。结构化状态代码区分了可重试和永久性故障。

MCP 的流支持揭示了复选框和能力之间的鸿沟。是的,它支持服务器发送事件以流式传输响应,是的,服务器可以启动请求。但是,它缺乏 gRPC 的单个 RPC 调用中的双向流,迫使通过多个往返实现复杂的交互模式。没有跟踪上下文传播。你不能通过多个工具调用跟踪 AI 的决策路径。没有截止日期传播,一个慢速工具可以阻塞整个 AI 代理。虽然 MCP 使用 JSON-RPC 的错误结构与代码和消息字段,但它缺乏区分例如“速率限制超出,30 秒后重试”与“无效输入,修复你的请求”的丰富、可操作的错误分类。

“只使用这个库”陷阱在这里,MCP 倡导者揭示了协议的根本失败。指出这些差距中的任何一个,他们将立即回应“哦,但是有 mcp-oauth-wrapper 增加了认证!”或“查看 mcp-tracing-extension 进行分布式跟踪!”或“公司 X 开源了 mcp-schema-generator 解决了 IDL 问题!”这种回应模式本身就是问题。当你的协议对关键企业需求的答案是第三方库的星座时,你就没有建立一个协议。你建立了一个碎片化的食谱。


HN 热度 239 points | 评论 137 comments | 作者:yodon | 10 hours ago #

https://news.ycombinator.com/item?id=44846871

  • 文章深刻地指出了 MCP 在分布式系统中忽略的教训,特别是在类型验证和错误处理方面。
  • 有人担忧 MCP 可能会导致新的软件错误类别,尤其是在与 LLMs 集成时。
  • 有人提到,在 LLMs 的帮助下,Star Trek 中的技术故障和 bug 在现实中变得可能。
  • 有人质疑 MCP 是否真的支持 JSON Schema,并认为可以生成类型安全的客户端。
  • 有人指出,任何正确编写的软件都会对协议和模式违规做出错误响应,而 LLMs 可能会继续产生幻觉。
  • 有人通过实际测试发现,MCP 服务器在输出验证错误时不会将响应传递给 LLM。

Our European search index goes live #

https://blog.ecosia.org/launching-our-european-search-index/

Ecosia 搜索引擎在 2025 年 7 月 8 日宣布,其欧洲搜索索引已上线,为 Ecosia 用户提供搜索结果。这是与 Qwant 合作的欧洲搜索视角(EUSP)项目的一部分,旨在推动技术独立和数字主权。EUSP 开发了 Staan(Search Trusted API Access Network),一个支持欧洲主权、隐私优先的搜索基础设施的搜索索引。

Ecosia 使用 Staan 作为数据源之一,以增强数字独立性和透明度。拥有独立的搜索基础设施对于实现多样性、反映多种视角的健康搜索市场至关重要。欧洲的搜索、云和 AI 基础设施大多建立在美国大型科技公司的基础上,这使得整个行业容易受到政治或商业议程的影响。创建一个完全独立的搜索索引意味着我们可以更好地控制服务,发展道德 AI,并致力于构建有益于人类和地球的技术。

EUSP 允许外部投资,以实现其基础设施的长期扩展,并向其他科技公司提供搜索索引,为竞争、数据隐私和创新提供基础。对于用户来说,使用 Ecosia 可能不会立即注意到太多变化,但这是一个重要的步骤,有助于增强欧洲的长期竞争力、民主控制和稳定性,从而专注于塑造更绿色、更公平的技术未来,并继续共同应对气候危机。


HN 热度 201 points | 评论 113 comments | 作者:maelito | 1 day ago #

https://news.ycombinator.com/item?id=44841741

  • 欧洲的民主控制值得珍惜,因为欧盟是世界民主的灯塔。
  • 聊天控制计划、欧洲委员会、乌苏拉·冯·德莱恩、数字服务法案和军事化等都与民主价值观不符。
  • 聊天控制计划多次被否决,与一些成员国宪法不兼容。
  • 欧盟组织本身并不民主,由间接任命和未选举的官僚组成,缺乏监督。
  • 欧盟议会有直接选举,政府首脑是直接选举产生的,官僚是政府运作的一部分。
  • 欧盟需要一个完整的边境保护机构和统一的数字市场。
  • 欧盟议会的选举不是直接选举,只能投票给本国的政党。
  • 欧盟议会选举存在问题,无法为不支持的政党或观点投票。
  • 每个民主国家都存在类似问题,不应过分强调。
  • 欧盟存在许多真正的民主问题,但君主制国家并非其中之一。
  • 欧盟成员国的君主制都是宪法君主制,君主没有或只有有限的政治权力。
  • 欧盟的民主问题比君主制国家的问题要多。

Hacker News 精彩评论及翻译 #

Ask HN: How can ChatGPT serve 700M users when I ca… #

https://news.ycombinator.com/item?id=44840935

I work at Google on these systems everyday (caveat this is my own words not my employers)). So I simultaneously can tell you that its smart people really thinking about every facet of the problem, and I can’t tell you much more than that.

However I can share this written by my colleagues! You’ll find great explanations about accelerator architectures and the considerations made to make things fast.

https://jax-ml.github.io/scaling-book/

In particular your questions are around inference which is the focus of this chapter https://jax-ml.github.io/scaling-book/inference/

Edit: Another great resource to look at is the unsloth guides. These folks are incredibly good at getting deep into various models and finding optimizations, and they’re very good at writing it up. Here’s the Gemma 3n guide, and you’ll find others as well.

https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune

canyon289

我在谷歌每天都在研究这些系统(说明:以下仅代表我个人观点,不代表我的雇主)。因此,我既可以说,确实有非常聪明的人在思考这个问题的方方面面,但我也不能透露更多了。

不过,我可以分享一些我同事写的内容!上面有关于加速器架构的详尽解释,以及为提升速度所做的各种考量。

https://jax-ml.github.io/scaling-book/

特别是你问到关于推理(inference)的问题,这一章正好详细阐述,链接在此: https://jax-ml.github.io/scaling-book/inference/

补充:另一个很棒的资源是 UnSloth 的指南。这些人在深入研究各种模型寻找优化方面非常出色,而且撰写文档的水平也很高。这是他们的 Gemma 3n 指南,你也可以找到其他的。

https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune


GPT-5 #

https://news.ycombinator.com/item?id=44827735

Yes, it is completely wrong. If this were a valid explanation, flat-plate airfoils could not generate lift. (They can.)

Source: PhD on aircraft design

peterdsharpe

是的,这是完全错误的。如果这是一个有效的解释,平板翼型就无法产生升力。(它们能。)


We shouldn’t have needed lockfiles #

https://news.ycombinator.com/item?id=44813767

But if you want an existence proof: Maven. The Java library ecosystem has been going strong for 20 years, and during that time not once have we needed a lockfile. And we are pulling hundreds of libraries just to log two lines of text, so it is actively used at scale.

Maven, by default, does not check your transitive dependencies for version conflicts. To do that, you need a frustrating plugin that produces much worse error messages than NPM does: https://ourcraft.wordpress.com/2016/08/22/how-to-read-maven-enforcer-plugins-requireupperbounddeps-rule-failure-report/.

How does Maven resolve dependencies when two libraries pull in different versions? It does something insane. https://maven.apache.org/guides/introduction/introduction-to-dependency-mechanism.html.

Do not pretend, for even half a second, that dependency resolution is not hell in maven (though I do like that packages are namespaced by creators, npm shoulda stolen that).

hyperpape

但如果你想要一个存在性证明:Maven。Java库生态系统已经蓬勃发展了20年,在此期间我们从未需要一个锁文件。我们仅为了记录两行文本就引入了数百个库,证明了它在大型项目中的广泛使用。

默认情况下,Maven 不会检查你的传递依赖是否存在版本冲突。要做到这一点,你需要一个令人沮丧的插件,它产生的错误信息远比 NPM 的糟糕:https://ourcraft.wordpress.com/2016/08/22/how-to-read-maven-enforcer-plugins-requireupperbounddeps-rule-failure-report/

当两个库引入不同版本时,Maven 是如何解决依赖冲突的?它的做法简直离谱。https://maven.apache.org/guides/introduction/introduction-to-dependency-mechanism.html

别自欺欺人,哪怕只有一瞬间,也别说 Maven 的依赖解决机制不是地狱。(不过我确实喜欢那种由创建者对包进行命名空间划分的做法,npm 本该借鉴这一点)。


I gave the AI arms and legs then it rejected me #

https://news.ycombinator.com/item?id=44808997

Hey, I’m the author of the blog post. Thank you for submitting this. If you have any questions feel free to ask and please let me know how the writing was. It’s one of my first posts so I’d like to improve

pentamassiv

嘿,我是这篇文章的作者。谢谢你的留言。如果有什么问题随时可以问我,也请告诉我你觉得文章写得怎么样。这是我刚开始写的一些文章之一,希望能慢慢进步。


Emailing a one-time code is worse than passwords #

https://news.ycombinator.com/item?id=44821089

The problems of Passkeys are more nuanced than just losing access when a device is lost (which actually doesn’t need to happen depending on your setup). The biggest problem are attestations, which let services block users who use tools that give them more freedom. Passkeys, or more generally challenge-response protocols, could easily have been an amazing replacement for passwords and a win-win for everyone. Unfortunately, the reality of how they’ve been designed is that they will mainly serve to further cement the primacy of BigTech and take away user freedom.

t_mann

通行密钥(Passkeys)的问题远不止于设备丢失后无法访问(实际上,根据您的设置,这种情况完全可以避免)。最大的问题是其“认证声明”(attestation)机制,它允许服务提供商阻止那些使用能赋予用户更多自由工具的用户。通行密钥,或者说更广泛的挑战-响应协议,本可以轻而易举地成为密码的绝佳替代品,实现一个对每个人都有利双赢的局面。不幸的是,其现有设计的现实情况是,它们主要将用来进一步巩固大型科技公司的主导地位,并剥夺用户的自由。


We’d be better off with 9-bit bytes #

https://news.ycombinator.com/item?id=44818052

Non-power-of-2 sizes are awkward from a hardware perspective. A lot of designs for e.g. optimized multipliers depend on the operands being divisible into halves; that doesn’t work with units of 9 bits. It’s also nice to be able to describe a bit position using a fixed number of bits (e.g. 0-7 in 3 bits, 0-31 in 5 bits, 0-63 in 6 bits), e.g. to represent a number of bitwise shift operations, or to select a bit from a byte; this also falls apart with 9, where you’d have to use four bits and have a bunch of invalid values.

duskwuff

从硬件角度来看,非2的整数次方尺寸的设计会很不方便。例如,许多针对优化乘法器的设计都依赖于操作数能被对半分割的特性,但对于9比特的单位来说就行不通了。此外,能够用固定数量的比特来描述一个比特的位置(例如,3比特可以表示0-7,5比特可以表示0-31,6比特可以表示0-63)也很方便,当我们需要表示位移操作的数量,或要从一个字节中选择某一位时;这一点在9比特的情况下也同样不适用,因为这时我们必须使用4个比特,从而会引入大量无效值。


Perplexity is using stealth, undeclared crawlers t… #

https://news.ycombinator.com/item?id=44787815

it is built on trust.

This is funny coming from Cloudflare, the company that blocks most of the internet from being fetched with antispam checks even for a single web request. The internet we knew was open and not trusted , but thanks to companies like Cloudflare, now even the most benign , well meaning attempt to GET a website is met with a brick wall. The bots of Big Tech, namely Google, Meta and Apple are of course exempt from this by pretty much every website and by cloudflare. But try being anyone other than them , no luck. Cloudflare is the biggest enabler of this monopolistic behavior

That said, why does perplexity even need to crawl websites? I thought they used 3rd party LLMs. And those LLMs didn’t ask anyones permission to crawl the entire ‘net.

Also the “perplexity bots” arent crawling websites, they fetch URLs that the users explicitly asked. This shouldnt count as something that needs robots.txt access. It’s not a robot randomly crawling, it’s the user asking for a specific page and basically a shortcut for copy/pasting the content

seydor

它建立在信任之上。

这话从 Cloudflare 说出来可真是讽刺,他们使用反垃圾邮件检查来阻止对绝大多数互联网内容的抓取,哪怕只是一次网页请求。我们过去所知的互联网是开放的,而非互信的。但多亏了像 Cloudflare 这样的公司,如今即使是出于善意、最无害的访问尝试,也会被一堵墙挡回来。科技巨头(谷歌、Meta 和苹果)的爬虫,几乎所有网站和 Cloudflare 当然都对他们网开一面,但只要换成别人,那就没戏了。Cloudflare 是这种垄断行为最大的帮凶。

话虽如此,Perplexity 为什么非要爬取网站呢?我原以为他们用的是第三方大语言模型(LLM),而且那些模型当初爬取整个互联网时也从未征得任何人许可。

此外,“Perplexity 爬虫”并不是在抓取网站,它们只是在获取用户明确请求的 URL。这不应该是需要遵守 robots.txt 协议的事情。这不是一个机器人在随机抓取,而是用户在请求一个特定页面,说白了,这就是替用户复制粘贴内容的一个快捷方式。


Ask HN: What trick of the trade took you too long … #

https://news.ycombinator.com/item?id=44794886

Not a trick of the programming trade, but: life will not be clean, smooth and according to plan. Learn how to deal with things getting messy and derailed, and to accept that you “lost your streak” or whatever. Tomorrow is a new day, it is always ok to start over.

Do optimize for the long term, but also realize you could be dead by next morning.

kaffekaka

这不算是编程界的什么诀窍,而是:生活永远不会那么井然有序、一帆风顺,一切都会按计划进行。学会如何应对事情的混乱与脱轨,并坦然接受自己“中断了连续记录”之类的事实。明天是新的一天,随时都可以重新开始。要为长远利益做最优规划,但也请记得,你可能明天早上就死了。


GPT-5 #

https://news.ycombinator.com/item?id=44827352

We’re at the audiophile stage of LLMs where people are talking about the improved soundstage, tonality, reduced sibilance etc

pram

LLMs的发展已经进入音响发烧友阶段,人们开始谈论声场改善、音色优化、齿音减少等等。


Open models by OpenAI #

https://news.ycombinator.com/item?id=44801714

Model cards, for the people interested in the guts: https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

In my mind, I’m comparing the model architecture they describe to what the leading open-weights models (Deepseek, Qwen, GLM, Kimi) have been doing. Honestly, it just seems “ok” at a technical level:

  • both models use standard Grouped-Query Attention (64 query heads, 8 KV heads). The card talks about how they’ve used an older optimization from GPT3, which is alternating between banded window (sparse, 128 tokens) and fully dense attention patterns. It uses RoPE extended with YaRN (for a 131K context window). So they haven’t been taking advantage of the special-sauce Multi-head Latent Attention from Deepseek, or any of the other similar improvements over GQA.

  • both models are standard MoE transformers. The 120B model (116.8B total, 5.1B active) uses 128 experts with Top-4 routing. They’re using some kind of Gated SwiGLU activation, which the card talks about as being “unconventional” because of to clamping and whatever residual connections that implies. Again, not using any of Deepseek’s “shared experts” (for general patterns) + “routed experts” (for specialization) architectural improvements, Qwen’s load-balancing strategies, etc.

  • the most interesting thing IMO is probably their quantization solution. They did something to quantize >90% of the model parameters to the MXFP4 format (4.25 bits/parameter) to let the 120B model to fit on a single 80GB GPU, which is pretty cool. But we’ve also got Unsloth with their famous 1.58bit quants :)

All this to say, it seems like even though the training they did for their agentic behavior and reasoning is undoubtedly very good, they’re keeping their actual technical advancements “in their pocket”.

foundry27

模型卡,对底层技术感兴趣的人可以看:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

在我心中,我把他们描述的模型架构与领先的开放权重模型(Deepseek、Qwen、GLM、Kimi)正在做的架构进行比较。老实说,在技术层面似乎只是“还行”:

  • 两款模型都使用了标准的分组查询注意力(Grouped-Query Attention)(64个查询头,8个KV头)。模型卡提到,他们使用了GPT3的一种旧优化方法,即在带状窗口(稀疏,128个token)和全密集注意力模式之间交替。它使用了通过YaRN扩展的RoPE(以支持131K上下文窗口)。因此,他们并没有利用Deepseek的独特核心多头潜在注意力,或任何其他在GQA基础上的类似改进。
  • 两款模型都是标准的MoE(混合专家)Transformer。120B模型(总计116.8B参数,激活参数5.1B)使用128个专家,采用Top-4路由。他们使用了某种门控SwiGLU激活函数,模型卡提到这“非常规”,原因是进行了钳位操作以及隐含的特定残差连接。同样,没有使用Deepseek的“共享专家”(用于通用模式)+“路由专家”(用于专业化)架构改进,也没有采用Qwen的负载均衡策略等。
  • 我(IMO)认为最有趣的可能是他们的量化方案。他们采取了一些措施,将超过90%的模型参数量化为MXFP4格式(4.25比特/参数),以便120B模型能适配在单个80GB GPU上,这相当厉害。但我们也已经有Unsloth及其著名的1.58bit量化了 :)

综上所述,尽管他们为模型的智能体行为和推理能力所做的训练无疑非常好,但他们似乎是将实际的技术进步“握在手里”(隐藏未公开)。


Windows XP Professional #

https://news.ycombinator.com/item?id=44825121

How can you tell that any Windows or Mac clone UI is a re-implementation? Easy: try to move your mouse diagonally into the Send To menu after letting it pop up. If the send-to menu closes as you mouse over the item into the submenu, it’s a clone. If the menu stays up even if you brush over another menu item, it’s either real or a Good Clone. :)

For the fun history, @DonHopkins had a thread a few years back:

https://news.ycombinator.com/item?id=17404345

mmastrac

怎么分辨一个Windows或Mac的克隆界面是复刻的?很简单:在“发送到”菜单弹出后,尝试斜向移动鼠标至该区域。如果当你的鼠标滑入子菜单时,“发送到”菜单便自动关闭,那它就是个克隆版。但如果即使你掠过其他菜单项,菜单也依然保持打开状态,那么它要么是正版,要么就是“优质克隆”。 :)

作为一段有趣的背景知识,@DonHopkins 几年前曾发起过一次相关讨论:


Open models by OpenAI #

https://news.ycombinator.com/item?id=44805192

Privacy, both personal and for corporate data protection is a major reason. Unlimited usage, allowing offline use, supporting open source, not worrying about a good model being taken down/discontinued or changed, and the freedom to use uncensored models or model fine tunes are other benefits (though this OpenAI model is super-censored - “safe”).

I don’t have much experience with local vision models, but for text questions the latest local models are quite good. I’ve been using Qwen 3 Coder 30B-A3B a lot to analyze code locally and it has been great. While not as good as the latest big cloud models, it’s roughly on par with SOTA cloud models from late last year in my usage. I also run Qwen 3 235B-A22B 2507 Instruct on my home server, and it’s great, roughly on par with Claude 4 Sonnet in my usage (but slow of course running on my DDR4-equipped server with no GPU).

wizee

个人隐私和企业数据保护是主要原因。无限使用、支持离线运行、开源、无需担心优质模型被下架/停更或修改,以及可以自由使用未经审查的模型或进行微调,这些都是其他优势(虽然这个OpenAI模型的审查极其严格——“安全”)。

我对于本地视觉模型没有太多经验,但在文本处理方面,最新的本地模型表现相当不错。我一直大量使用 Qwen 3 Coder 30B-A3B 在本地分析代码,效果很好。虽然它不如最新的大型云端模型,但在我的使用中,其表现大致与去年年底最先进的云端模型相当。我也在自己的家庭服务器上运行 Qwen 3 235B-A22B 2507 Instruct,效果很好,从我个人的使用体验来看,其性能大致与 Claude 4 Sonnet 相当(但它在我的这台配备DDR4内存且没有GPU的服务器上运行,速度当然会很慢)。