2025 08 06 HackerNews

2025-08-06 Hacker News Top Stories #

  1. Google DeepMind发布Genie 3,一个通用型世界模型,能够生成动态交互环境,适用于机器人和游戏开发,但在物理模拟和社交交互方面仍有挑战。
  2. uBlock Origin Lite作为Safari的高效广告拦截器,支持多种过滤规则,但Safari的广告拦截功能仍不及Google Chrome。
  3. AI在软件工程中的生产力提升被高估,主要体现在简单任务上,而在复杂项目和代码标准化方面表现有限。
  4. Claude Opus 4.1发布,提升了代理任务和编码能力,适用于多个平台,展现出强大的代码重构和修正能力。
  5. Frigate是一个开源的本地AI安全摄像头监控系统,专注于隐私保护和快速目标检测,支持与自动化平台的集成。
  6. PHP 8.5引入管道操作符,简化代码和函数调用,灵感来源于Unix命令行,未来可能支持更多高级功能。
  7. Harmony是OpenAI开放权重模型的响应格式,支持多输出通道和结构化输出,旨在增强模型的功能和一致性。
  8. 3D线描图通过增强3D高斯溅射和GAN技术,生成视点依赖的线条效果,适用于互动场景和水彩风格的创作。
  9. Carbon是一个开源的制造ERP系统,提供全面功能,但部署复杂,依赖多个外部服务和组件。
  10. Thingino是为Ingenic SoC IP摄像头提供的开源固件,支持多种硬件,提供详细文档和社区支持,但部分设备因数字签名限制无法使用。

Genie 3: A new frontier for world models #

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

今天我们宣布推出 Genie 3,这是一个通用型世界模型,能够生成前所未有的多样化交互环境。给定一个文本提示,Genie 3 能够生成你可以实时以每秒 24 帧的速度导航的动态世界,并在 720p 的分辨率下保持几分钟的连贯性。

在 Google DeepMind,我们十多年来一直在模拟环境领域进行开创性研究,从训练代理掌握实时战略游戏到开发用于开放式学习和机器人技术的模拟环境。这项工作推动了我们开发世界模型,这些 AI 系统能够利用它们对世界的理解来模拟它的某些方面,使代理能够预测环境将如何演变以及它们的行为将如何影响环境。世界模型也是通往通用人工智能(AGI)的关键一步,因为它们使得在丰富的模拟环境中训练 AI 代理成为可能。去年我们推出了第一代基础世界模型 Genie 1 和 Genie 2,它们能够为代理生成新环境。我们还继续推动视频生成技术的发展,我们的 Veo 2 和 Veo 3 模型展现了对直观物理的深刻理解。这些模型标志着在不同世界模拟能力上的进步。Genie 3 是我们第一个允许实时交互的世界模型,同时在连贯性和逼真度方面相比 Genie 2 有所提升。

Genie 3 的能力包括:以下是 Genie 3 实时交互的录像。模拟世界的物理属性,体验自然现象如水和光线,以及复杂的环境互动。

视频显示了一个人在火山区域艰难地形中的第一人称视角。这是一个真实世界的视频,从一个需要穿越地形的轮式机器人的视角拍摄。车辆有坚固的越野轮胎,在黑色的岩石上嘎吱作响。摄像机是一个安装在车辆上的自我中心摄像机,你可以看到摄像机底部的前轮胎以及机器人的主体。在远处,你可以看到从火山中冒出的烟雾和流动的熔岩。没有其他可见的…


HN 热度 1019 points | 评论 380 comments | 作者:bradleyg223 | 9 hours ago #

https://news.ycombinator.com/item?id=44798166

  • Genie 3 的一致性是模型扩展的副产品,而非架构变化的结果。
  • 物理模拟仍然困难,存在明显的失败案例。
  • 社交和多智能体交互难以处理,1 对 1 战斗游戏无法工作。
  • 长指令跟随和简单的组合游戏逻辑失败。
  • 动作空间有限,距离真正的游戏引擎还有很长的路要走。
  • 世界模型可能在机器人技术和现实世界 AI 中扮演比预期更大的角色。
  • 未来机器人可能在梦中学习。
  • 这可能是为谷歌在仓库中训练机器人生成合成数据。
  • 世界模型输出可能是 AAA 游戏开发的下一个领域。
  • GTA6 可能会被世界模型超越。
  • GTA 不仅仅是“在街上开车的模拟器”,它有创意和艺术视野。
  • 有人可能用现代图形制作 GTA 风格的克隆品,超越真正的 GTA6。
  • 世界模型的发展速度令人惊讶,可能比预期的还要快。
  • 现实不是由文字、语法和语义构成的,人类还有其他感官模式。
  • 视觉学习和能量模型是实现视觉、音频、物理机器人行为的唯一真正目标。
  • 软件是为那些阅读新 NES 游戏手册的人准备的。
  • 发现的所有这些在首次轨道飞行中就像我们发现了虫洞。
  • 我们称之为意识的东西必须是所有足够复杂的生物体中都存在的简单、紧急属性。
  • 认知功能必须从其底层结构中自举。

uBlock Origin Lite now available for Safari #

https://apps.apple.com/app/ublock-origin-lite/id6745342698

uBlock Origin Lite 是一款高效可靠的内容拦截器。它默认的规则集对应于 uBlock Origin 的默认过滤器集,包括 uBlock Origin 的内置过滤列表、EasyList、EasyPrivacy 和 Peter Lowe 的广告和追踪服务器列表。用户可以通过访问选项页面来启用更多的规则集,点击弹出面板中的齿轮图标即可。uBOL 是完全声明式的,这意味着在过滤过程中不需要一个永久的 uBOL 进程,CSS/JS 注入式内容过滤是由浏览器本身而不是扩展来可靠执行的。这意味着在内容拦截进行时,uBOL 本身不会消耗 CPU/内存资源——只有在与弹出面板或选项页面交互时才需要 uBOL 的服务工作进程。

开发者 Raymond Hill 表示,该应用的隐私实践可能包括处理以下描述的数据。更多信息请参见开发者的隐私政策。开发者不从该应用中收集任何数据。隐私实践可能会有所不同,例如,基于您使用的功能或您的年龄。uBlock Origin Lite 的详细信息如下:

  • 销售商:Raymond Hill
  • 大小:5.8 MB
  • 类别:实用工具
  • 兼容性:iPhone 需要 iOS 18.0 或更高版本;iPad 需要 iPadOS 18.0 或更高版本;Mac 需要 macOS 15.0 或更高版本;Apple Vision 需要 visionOS 2.0 或更高版本。
  • 语言:英语
  • 年龄评级:4+
  • 版权:© Raymond Hill 2022
  • 价格:免费
  • 应用支持和隐私政策:提供应用支持和隐私政策。

HN 热度 924 points | 评论 355 comments | 作者:Jiahang | 14 hours ago #

https://news.ycombinator.com/item?id=44795825

  • Safari 的广告拦截功能仍然不如 Google Chrome,即使在最新的 iOS 18.6 更新后。
  • 苹果在实现广告拦截功能上总是落后于其他浏览器,而且很少受到批评。
  • 有开发者竟然敢让用户为 Safari 的广告拦截器付费,而这些拦截器甚至不如其他浏览器上的免费拦截器。
  • 有人认为 Safari 和 Chrome 都不如 Firefox 的广告拦截工具。
  • 曾经有过 Safari 扩展的 uBlock Origin,但由于操作系统更新被迫淘汰。
  • 苹果的软件质量普遍较低,功能较少,且存在许多长期未修复的已知错误。
  • 有人认为不应该开发苹果应用程序,应该使用开放协议,否则就当作苹果不存在。
  • 有用户在 iPhone 上尝试下载 uBlock Origin Lite 后发现需要在 Safari 设置中启用,但提示不可用,质疑 iOS Safari 和 Mac Safari 的差异。
  • 开发者解释说苹果没有提供 API 让应用启用自己的 Safari 扩展,用户需要自己找到设置页面。
  • 有人质疑为什么扩展不能作为独立项目在商店中存在。
  • 有人认为苹果的分发模型是以应用为中心,所有内容都被捆绑在应用中。
  • uBlock Origin Lite 需要 iOS 18.6 才能工作,更新后用户确认可以正常使用。

Things that helped me get out of the AI 10x engineer imposter syndrome #

https://colton.dev/blog/curing-your-ai-10x-engineer-imposter-syndrome/

Colton Voege 在 2025 年 8 月 5 日发表了一篇文章,讨论了人工智能(AI)是否使工程师的生产力提高了 10 倍的问题。他分享了自己在 LinkedIn 和 Twitter 上看到关于 AI 工程师生产力大幅提升的说法后,感到自己的技能可能已经落后。他怀疑自己是否因为不喜欢使用 AI 而错过了提升生产力的机会,担心自己会因此变得不受欢迎。

为了解决这种焦虑,他决定深入研究 AI 编程,尝试了 Claude Code、Cursor、Roo Code 和 Zed 等工具,并让 AI 编写各种项目的代码。他发现 AI 在编写样板代码方面表现不错,尤其是在 JavaScript 和 React 中,但在跟上代码库的标准和工具方面表现不佳,特别是在 Terraform 等语言上。AI 仍然难以吸收大型代码库的上下文,即使有出色的提示和 CLAUDE.md 文件,如果使用的库不是 StackOverflow 的最爱,AI 也会处理得很差,甚至可能导致严重的安全漏洞。

他发现 AI 的最佳用例是编写一次性脚本,尤其是当他不想深入了解单一脚本的基础知识时,比如编写自定义的 ESLint 规则。他意识到,关于他如果不立即开始使用 AI 就会落后的警告是没有根据的。使用 AI 编码并不难学,而且如果 AI 即将变得更好,那么现在关于如何使用它的课程在未来也将变得无关紧要。

每次他遇到 AI 表现“只是还可以”的时候,他都会感到更加焦虑,因为他找不到让其他人如此高产的秘密武器。他开始怀疑自己是否没有足够的能力。最终,一些事物帮助他摆脱了这种低谷,包括 Ludicity 的一篇文章,直接反驳了 AI 支持者的说法。他写这篇文章是为了分享更多帮助他摆脱 AI 10x 工程师冒名顶替综合症的事情。

文章还讨论了 10-100 倍生产力的简单数学问题。10 倍生产力意味着十倍的结果,而不是十倍的代码行数。这意味着你以前一个季度交付的东西,现在一个半星期就交付了。这些数字应该让即使是最坚定的 AI 信徒也停下来思考。传统上需要三个月的工作,包括产品构思、故事点协商、错误修复、代码审查、等待部署、测试和 QA,现在要在七个工作日内完成?要实现这一点,所有这些瓶颈都必须看到 10 倍的生产率增长。

任何在实际公司中实际编写代码的软件工程师都知道这是不可能的。你不能将三个月的代码审查来回压缩到 1.5 周内。当你进行代码审查时,你需要:

标记你的审查者 希望他们尽快处理(这将很困难,因为他们显然正在审查比以前多 10 倍的代码) 在等待时切换到其他事情 看到通知(可能是立即的,也可能是审查者当天下线后两小时) 切换回审查 阅读他们的评论 相应地回应 重复这个过程。

这个过程可以在一个有良好标准和沟通实践的公司中变得相当高效。但你告诉我你使这个过程变得 10 倍高效以处理 10 倍的工作量?这根本做不到。

实际公司软件工程中涉及的人类过程并没有显著变化。产品经理可能使用 ChatGPT 进行“研究”,但他们不会突然产出比以前多十倍的经过充分审查、充分论证、充分估计的故事。他们不能同时进行 10 次用户访谈。对于设计师和 QA 测试人员来说也是如此。雇佣 10 倍的 PM 来跟上是不可行的。每次招聘都有递减的回报,因为网络效应和官僚主义开始发挥作用。

即使我们假设人们只意味着实际的代码编写过程现在快了 10-100 倍,我们仍然应该对这种数学如何计算持怀疑态度。当你编写代码时,你真正花在键盘上的时间有多少?可能比你想象的要少。你的主要编码时间实际上是阅读和思考,通常是在等待编译、页面刷新或测试运行时。LLMs 不会让 rustc 运行得更快。

LLMs 产生的内容通常是破碎的、幻觉的或低于代码库标准。这些错误随着代码库的大小增加而增加。当这种情况发生时,你必须重新提示,这可能立即解决问题,也可能是巨大的时间浪费。或者你可以自己修复代码。但那时你又回到了可怜的 1x 工程师状态,如果你已经习惯了 vibe 编码而忘记了如何编码,可能会更糟。如果你“拥抱氛围”甚至不查看产生的代码,一旦代码库足够大,你就会遇到生产力瓶颈。


HN 热度 653 points | 评论 504 comments | 作者:coltonv | 9 hours ago #

https://news.ycombinator.com/item?id=44798189

  • AI 辅助开发能显著提高编码效率,但对整体软件工程生产力的提升有限。
  • 有观点认为 AI 在编码方面的帮助被高估,实际效果并不总是令人满意。
  • 一些工程师认为 AI 更像是一个不太听话的醉酒高级程序员,而不是一个听话的初级程序员。
  • AI 在软件构建中的其他任务上可能不如人们预期的那样有效。
  • 有人比喻 AI 聊天机器人像是“一个聪明的助手,拥有多个博士学位,但 30% 的时间像是服用了氯胺酮”。
  • 有观点认为 AI 并没有真正的知识或推理能力,但有时能给出看似受过良好教育的答案。
  • 有人对 AI 的“推理”能力持开放态度,认为它有可能被编码进系统。
  • AI 在某些情况下可能表现出一些轻量级的推理能力。
  • 有人将当前的编程 AI 比作“一个世界级自行车手的 2 级产品经理,试图用法语向一个只懂西班牙语的 4 岁天才解释概念”。
  • 有观点认为,如果 AI 能正确理解和生成代码,那么它在某些领域(如设备驱动程序)的生产力提升可能超出预期。
  • 有人认为,尽管 AI 在某些方面表现出色,但在处理复杂的系统工程问题时可能不如人类。
  • 有人质疑,如果许多人能以更短的时间生成高质量代码,那么手工编写代码的经济可行性将如何。
  • 有观点认为,GitHub Copilot 将某些 AI 模型视为“免费”,因为它们在“询问”模式下是免费的,这可能是因为它们的表现不如其他模型。

Claude Opus 4.1 #

https://www.anthropic.com/news/claude-opus-4-1

今天我们发布了 Claude Opus 4.1,这是对 Claude Opus 4 在代理任务、现实世界编码和推理方面的升级。我们计划在未来几周内对我们的模型进行更大规模的改进。Opus 4.1 现在可供付费的 Claude 用户使用,并在 Claude Code 中提供。它也在我们的 API、亚马逊 Bedrock 和谷歌云的 Vertex AI 上。定价与 Opus 4 相同。

Claude Opus 4.1 将我们最先进的编码性能提升至 SWE-bench Verified 的 74.5%。它还提高了 Claude 在深入研究和数据分析技能,特别是在细节跟踪和代理搜索方面。GitHub 指出,与 Opus 4 相比,Claude Opus 4.1 在大多数能力上都有改进,特别是在多文件代码重构方面表现尤为突出。乐天集团发现,Opus 4.1 在大型代码库中精确定位确切的修正方面表现出色,不会进行不必要的调整或引入错误,他们的团队更喜欢这种精确度用于日常调试任务。Windsurf 报告称,Opus 4.1 在他们的初级开发人员基准测试中比 Opus 4 提高了一标准差,显示出与从 Sonnet 3.7 跳到 Sonnet 4 相同的性能提升。

我们建议所有用户从 Opus 4 升级到 Opus 4.1。如果您是开发人员,只需通过 API 使用 claude-opus-4-1-20250805。您还可以探索我们的系统卡、模型页面、定价页面和文档以了解更多信息。


HN 热度 589 points | 评论 215 comments | 作者:meetpateltech | 7 hours ago #

https://news.ycombinator.com/item?id=44800185

  • 三大实验室几乎同时发布新产品,竞争非常激烈。
  • PR 部门的重要性在于能够及时在 HN 首页、新闻网站等发布信息,减少竞争对手获得的关注。
  • 即使不能成为第一个发布,也要尽可能分散注意力,减少竞争对手的曝光。
  • 考虑到 GPT5 的传言,八月份的竞争才刚刚开始。
  • 根据公历和地球轨道,八月份才刚刚开始。
  • 这是一个活着的好时代。
  • 竞争对手可能在等待对方先发布,然后同时推出自己的产品,让市场决定哪个更好。
  • 这意味着 GPT5 更好,因为不能在竞争对手超越后发布一个更差的模型。
  • 很多人可能不会在发布当天就急于采用新模型,期待巨大的工作优势。
  • 如果你正在使用接近其能力极限的 LLM,那么性能的小幅提升是显而易见的。
  • 这绝对是巧合。
  • 这不是巧合或卡特尔,而是 PR 的反编程。
  • 每当谷歌宣布重大事项时,OpenAI 几乎总是也会发布一些东西。
  • 他们似乎都没有发布与这些新模型如何推进最先进技术相关的论文。
  • 中国会为他们做这件事。
  • Opus 4(.1)非常昂贵,Sonnet 的成本也不低。
  • 最好的性价比似乎是 OpenAI ChatGPT 4.1 mini。
  • 通过订阅和使用 Claude Code 可以获得更合理的经济性。
  • Claude Code 在最大订阅下整天使用,很少达到使用限制。
  • 长上下文会迅速消耗令牌限制,尤其是在与模型进行长时间来回对话时。
  • 没有简单的工具可以检查使用情况。
  • 有一个工具可以解析 Claude 日志并生成 Chrome 跟踪,非常有用。
  • 根据工具,我每天使用约 300m 令牌,成本约为 125 美元/天。
  • 有些人不愿意为了注册 SaaS 工具而提供电话号码。
  • 使用一次性电话号码注册可能是一个解决方案。
  • GLM 4.5、Kimi K2、Qwen Coder 3 和 Gemini Pro 2.5 也是不错的选择。
  • 尽管 Opus 在技术上可能更优越,但 Sonnet 在实践中对许多人来说更好。
  • 许多人仍然发现 Sonnet 比 Opus 更好,尽管 Opus 在技术上可能更优越。
  • 我使用 Windsurf 的"Planning"功能,与 Cascade(Claude)进行详细讨论,然后执行计划。
  • 可以创建设计文档和 mermaid 图表,更容易地概述原因。

Monitor your security cameras with locally processed AI #

https://frigate.video/

Frigate 是一个开源的 NVR(网络视频录像机),围绕实时 AI 目标检测构建。所有处理都在您自己的硬件上本地执行,摄像头视频流永远不会离开您的家。通过 Frigate+,您可以获得专为 Frigate 设计的定制模型。

Frigate 的主要特点包括:

  1. 它是隐私关注型家庭自动化爱好者中最受欢迎的 NVR。
  2. 通过本地目标检测减少误报,传统 NVR 需要数小时的微调来降低误报率,因为它们依赖简单的运动检测。Frigate 通过将目标检测卸载到支持的 AI 加速器上,即使是中等硬件也能运行高级分析,以确定运动是否实际上是人、汽车或其他感兴趣的对象。
  3. 让 Frigate 的 AI 为您筛选视频流,您只需关注重要的检测结果。Frigate 可以在每秒运行 100 多个目标检测,不会错过任何一帧。
  4. 通过区域细化事件和警报,Frigate 能够实时跟踪对象,并确定一个人开始走上您家前台阶或汽车进入您家车道的确切时刻。
  5. 与 Home Assistant 和其他自动化平台集成,将目标检测集成到 Home Assistant、OpenHab、NodeRed 或任何支持 MQTT 的系统中。Frigate 直接集成到 Home Assistant 的媒体浏览器中,提供低延迟的摄像头实体,并公开实时传感器和开关,以实现自动化和通知。

用户评价:

  • shred86 表示,Frigate 的高定制性、快速目标检测和与 Home Assistant 的紧密集成,创造了一个完美的开源、本地控制的安全摄像头系统。
  • haggercody 提到,Frigate 帮助他减少了硬盘上的数小时误报,并节省了大量时间,不再需要浏览那些无事件的视频。
  • Eric Blohm 表示,Frigate 使他能够从安全摄像头中移除所有云依赖,而不会失去任何目标检测功能或录制历史。支持是无与伦比的,强烈推荐。

© Frigate, LLC. 版权所有。


HN 热度 530 points | 评论 233 comments | 作者:zakki | 18 hours ago #

https://news.ycombinator.com/item?id=44794508

  • Frigate 在检测速度和可靠性方面优于其他系统
  • Eufy 安全系统会在运动检测通知时显示广告,并且存在云存储视频无法打开的问题
  • 有用户因 Eufy 安全问题转向自托管平台
  • Frigate 可以在旧硬件上运行,通过 GPU 加速实现快速检测
  • 有用户通过 Frigate API 和 Telegram、Pushover 发送截图和通知
  • Frigate 作为独立服务运行,不依赖 Home Assistant
  • 通过在路由器上设置阻止摄像头访问互联网来保证隐私
  • 有用户使用 VLAN 或路由策略来隔离摄像头,防止其与互联网通信
  • 有用户通过 DHCP 保留和防火墙规则管理摄像头的网络访问
  • Eufy 摄像头可以通过在应用中启用 RTSP 与 Frigate 配合使用
  • Tapo 摄像头在 WiFi 环境下可能会造成问题,需要良好的网络覆盖
  • 有用户对最初信任 Ring 等摄像头品牌表示怀疑,后来转向更隐私保护的解决方案

PHP 8.5 adds pipe operator #

https://thephp.foundation/blog/2025/07/11/php-85-adds-pipe-operator/

PHP 8.5 版本将于今年 11 月发布,带来了一个备受期待的新特性:管道操作符(|>)。这个操作符虽然简单,但潜力巨大,尽管它的实现花费了多年时间。管道操作符(|>)的作用是将左侧的值作为单一参数传递给右侧的函数或 PHP 中的可调用对象。例如,$result = "Hello World" |> strlen(...) 等同于 $result = strlen("Hello World");。当管道操作符被重复或链式使用时,形成“管道”,其真正的作用开始显现。例如,使用管道可以简化数组操作,将原本需要多个步骤的代码简化为单行表达式。

管道操作符的灵感来源于 Unix/Linux 命令行中的管道(|),其核心思想是将左侧的输出作为右侧的输入。管道操作符在许多语言中都有出现,尤其是在函数式编程领域。PHP 的管道操作符起源于 Facebook 的 PHP 分支 Hack/HHVM,其中包含了许多当时 PHP 5 所不具备的特性,其中一些最终被纳入了后续的 PHP 版本中。

2016 年,Sara Golemon 提出了将 Hack 的管道操作符直接移植到 PHP 的 RFC。尽管这个 RFC 没有进行投票,但在 2020/2021 年,作者在撰写了一本关于 PHP 函数式编程的书籍后,决定再次尝试。这次,他与团队合作,提出了 Partial Function Application(PFA)作为一个独立的 RFC,而不是传统的管道操作符。尽管 PFA 由于引擎复杂性问题没有通过,但作为安慰奖,Nikita Popov 提出了 First Class Callables(array_values(…)语法),这是 partial function application 的一个简化版本。

到了 2025 年,作者在 PHP Foundation 开发团队成员 Ilija Tovilo 和 Arnaud Le Blanc 的帮助下,成功地将管道操作符实现并纳入 PHP。管道操作符的实现本身几乎是微不足道的,它只是临时变量版本的语法糖。然而,最好的特性是那些可以与其他特性结合使用或以新颖的方式使用,从而发挥出更大的作用。例如,管道操作符可以用于 match()块中,或者用于处理可能返回 null 的步骤,通过一个函数将链中的元素“提升”到处理 null 值的方式,类似于 null-safe 方法。

管道操作符的潜力是巨大的,它几乎可以被视为“扩展函数”,这是 Kotlin 和 C#的一个特性,允许编写看起来像是对象方法的函数,但实际上只是独立的函数。管道操作符的灵活性在于,你可以在右侧使用任何函数,而不仅仅是那些被语言设计者认可为方法的函数。

尽管管道操作符是一个重要的里程碑,但工作还没有完成。目前有两个后续 RFC 正在积极开发中,第一个是 Partial Function Application 的第二次尝试。有了一等公民的可调用对象,这个特性的实现变得更加简单,而且管道操作符提供了一个自然的用例和易于优化的点。


HN 热度 410 points | 评论 257 comments | 作者:lemper | 19 hours ago #

https://news.ycombinator.com/item?id=44794271

  • F# 是第一个使用管道操作符 |> 的类型化编程语言,它使得函数组合变得简洁
  • F# 提供了 »(前向组合)和 «(后向组合)用于构建可重用的组合函数
  • 微软停止对 F# 的投资,导致在工业界使用 F# 的机会很少
  • OCaml 的编译速度比 F# 快,这是一些人不使用 F# 的原因之一
  • Isabelle 可能是第一个引入管道字符的语言
  • F# 提供了 ||> 和 |||> 用于自动解构元组,以及反向管道 <|, <|| 和 <|||
  • 有人认为 PHP 获得管道操作符比 JavaScript 早是件疯狂的事情
  • 有人认为 F# 的标准库中的 |> 实际上是一个可以被重定义的普通函数
  • 所有 F# 中的操作符都是函数,例如可以通过 (+) 1 2 来使用
  • 有人认为 Haskell 看起来已经死了,但有人反驳说 Haskell 的新版本 GHC 仍在发布,开发体验从未如此顺畅
  • 根据 Redmonk 的排名,Haskell 的流行度在下降,尤其是在与其他语言的比较中
  • 有人认为 Haskell 在过去 30 年中没有产生任何重要的软件,而其他人则举出了 Haskell 编写的一些流行软件和库作为反驳
  • 有人提到 Haskell 的工具状态糟糕,但也有人对此表示反驳,认为这种说法是无根据的 FUD(恐惧、不确定和怀疑)
  • 有人提到 Haskell 在工业界的应用几乎为零,但也有人提到自己目前的工作就是使用 Haskell
  • 有人提到 PostgREST 是 Haskell 的一个重要应用,它是 Supabase 的核心

Harmony: OpenAI’s response format for its open-weight model series #

https://github.com/openai/harmony

GitHub 上的 openai/harmony 是一个公共仓库,主要功能是为 gpt-oss 模型提供一个响应格式的渲染器。gpt-oss 模型是 OpenAI 开放权重模型系列的一部分,它们在 harmony 响应格式上进行训练,以定义对话结构、生成推理输出和组织函数调用。如果你不是直接使用 gpt-oss,而是通过 API 或像 HuggingFace、Ollama、vLLM 这样的提供商间接使用,你不需要关心这个格式,因为你的推理解决方案会处理格式化。如果你是在构建自己的推理解决方案,这个指南将指导你如何使用提示格式。该格式旨在模仿 OpenAI 响应 API,因此如果你之前使用过该 API,这个格式应该对你来说很熟悉。如果不使用 harmony 格式,gpt-oss 将无法正确工作。

harmony 格式使模型能够输出到多个不同的通道,用于思维链、工具调用前奏以及常规响应。它还允许指定各种工具命名空间和结构化输出,以及清晰的指令层次结构。更多关于格式的信息,可以查看指南。

在示例中,系统消息定义了有效通道,包括分析、评论和最终。对于工具调用,必须使用评论通道。开发者部分提供了函数命名空间,包括获取用户位置和提供位置当前天气的函数。用户消息询问旧金山的天气,而助手部分推荐使用这个库来处理使用 harmony 响应格式的模型,强调了一致的格式化、快速性能和一流的 Python 支持。提供了 Python 和 Rust 的安装和使用示例,以及如何贡献代码的信息。主要的渲染和解析工作是在 Rust 中构建的,并通过 pyo3 绑定暴露给 Python。


HN 热度 360 points | 评论 50 comments | 作者:meetpateltech | 7 hours ago #

https://news.ycombinator.com/item?id=44799869

  • GPT-5 可能会使用多个模型进行并行推理,包括开源版本。
  • 计算机科学常用的方法是在单线程处理达到极限时转向并行处理。
  • 目前已经在单一方向上进行了两年的扩展。
  • 有观点认为,使用多个模型的联合体比单一的专家混合模型(MOE)更优。
  • 有测试表明,联合体模型在解决特定测试时比单一模型表现更好。
  • 有人询问是否有比较 3B-20B 模型联合体与最强大的模型的性能。
  • Grok 4 Heavy 似乎成功地使用了类似的并行推理方法。
  • 有人提到每个标准标签在 OpenAI 库中是一个单一的标记。
  • 有人觉得这种格式感觉有些 hacky,但实际效果简单而优雅。
  • 有人提到人类同时发出多种信息渠道,如语言、语调、肢体语言和外表。
  • 有人分享了关于 AI 中和谐概念的哲学兴趣的演讲和文献综述。
  • 有人提到链接最初无法访问,暗示可能是在基础设施准备好之前就宣布了。
  • 有人怀疑这种协调失败是否是因为急于对抗谷歌的 Genie 3 新闻。
  • 有人期待真正开放权重模型对社区的巨大影响,但希望在发布博客文章前测试部署管道。
  • 有人提到链接现在可以正常工作。
  • 有人好奇为什么没有零拷贝性能。
  • 有人提到 gpt-oss 模型据说将托管在 Hugging Face 上。
  • 有人询问“pelican”是什么。
  • 有人解释说,新的基础模型被要求生成一个骑自行车的鹈鹕 SVG 作为评审帖子的一部分。
  • 有人建议基础模型公司应该学会这个案例并停止。
  • 有人提出应该 Goodhardt 鹈鹕测试,然后发明一个新的测试。
  • 有人希望这不会演变成所有关于鹈鹕的数据都与自行车有关的情况。
  • 有人期待页面链接,但这些链接尚未激活。
  • 有人觉得如果 ChatGPT 发布一个不能直接插入他们客户端的本地模型,这很奇怪。
  • 有人询问这个模型的用途。
  • 有人解释说,大型语言模型(LLM)是使用特定的对话格式训练的,如果输入不符合该格式,模型表现会很差。

3D Line Drawings #

https://amritkwatra.com/experiments/3d-line-drawings

这篇文章是关于如何创建 3D 线描图的实验研究。作者 Amritansh Kwatra 在 2025 年 6 月 30 日分享了通过增强 3D 高斯溅射(Gaussian Splats)的过程来生成 3D 线描图的方法。这种方法借鉴了 Kerbl 等人的《3D Gaussian Splatting for Real-Time Radiance Field Rendering》和 Chan、Isola & Durand 的《Learning to Generate Line Drawings that Convey Geometry and Semantics》的研究。

文章中展示了使用轮廓风格生成的大多数场景,用户可以通过 iframe 右上角的菜单切换不同的场景。每个场景都是在 Nvidia RTX 4080S 上训练了 21,000 次,使用 MrNerf 的 gaussian-splatting-cuda 和默认设置生成的。这些场景来自 Tanks & Temples Benchmark,并且是互动式的,使用 Mark Kellogg 的基于 Web 的渲染器进行渲染。

文章详细解释了如何从图像中创建线描图,使用了 Chan 等人提出的方法,通过训练一个生成对抗网络(GAN)来最小化几何、语义和外观损失,从而将照片转换成保留照片中的语义和几何信息的线描图。几何损失是通过单目深度估计计算的,语义损失是通过 CLIP 嵌入计算的,外观损失是基于一系列未配对的风格参考。

3D 高斯溅射是一种将一系列摆好姿势的图像转换成称为辐射场的体积表示的技术。这些场景可以从多个重叠视点捕获的图像集合中创建,无论是通过从不同角度拍摄多张照片,还是通过在移动过程中采样输入视频。使用 3D 高斯溅射生成的场景是逼真的,并且可以使用现有的工具如 WebGL 实时渲染。

作者注意到,如果将用于训练 3D 高斯溅射的图像替换为线描图对应物,那么生成的场景将呈现出一种 3D 线描图的效果。这些线条是视点依赖的,并且会根据你在场景中的视角而变化。

文章还讨论了如何在生成的线描图中添加颜色信息,通过生成一种混合图像,将原始图像的颜色信息混合到线描图中,以在最终图像中创造出水彩效果。此外,作者展示了如何将源场景和彩色场景拼接在一起,通过从一组视角重建逼真图像,从另一组不同的视角重建彩色、轮廓图像,可以在同一个场景中根据观看视角逐渐过渡风格。


HN 热度 289 points | 评论 19 comments | 作者:tansh | 1 day ago #

https://news.ycombinator.com/item?id=44792441

  • 这是一个令人惊叹的美丽作品。
  • 这些场景有点诡异。
  • 这是让人恍然大悟的时刻。
  • 我不太理解这个技术,但我印象深刻。
  • 这项技术非常具有创意,展示了实现 3D 场景的 2D 线描图的能力。
  • 3D 高斯散射技术可能在很多方面取代多边形 3D 技术。
  • 这项技术对于无人机摄影测量非常有前景。
  • 这项技术听起来很复杂,是否可以通过单目深度估计来实现?
  • 这项技术让人想起 2000 年代的一些非真实感渲染技术。
  • 这项技术看起来非常酷,是前所未有的。

Show HN: I’ve been building an ERP for manufacturing for the last 3 years #

https://github.com/crbnos/carbon

Carbon 是一个开源的制造 ERP/MES/QMS 系统,非常适合复杂的装配、HMLV(高混合低体积)和按订单配置制造。这个项目旨在解决现代制造系统中存在的问题,如缺乏现代的、以 API 为先的工具,供应商锁定问题,以及没有“完美 ERP”因为每个公司都是独一无二的。

Carbon 的架构设计使其易于通过 API 扩展平台,构建自己的应用程序,并提供了一些示例以供开始。其特点包括 ERP、MES、QMS、自定义字段、嵌套物料清单、追溯性、物料需求计划(MRP)、配置器、MCP 客户端/服务器、API、Webhooks、会计和容量规划等。技术亮点包括跨应用程序的统一身份验证和权限、全栈类型安全(数据库 → UI)、实时数据库订阅、基于属性的访问控制(ABAC)、基于角色的访问控制(客户、供应商、员工)、行级安全(RLS)、可组合的用户组和操作的依赖图。

技术栈包括 Remix 框架、Typescript 语言、Tailwind 样式、Radix UI 行为、Supabase 数据库、Supabase 认证、Upstash 缓存、Trigger 作业、Resend 邮件、Novu 通知、Vercel 托管和 Stripe 计费。

代码库遵循 Turborepo 约定,将包分为两个文件夹:/apps 用于应用程序,/packages 用于共享代码。/apps 下的包包括 ERP 应用程序、MES、学院和初学者包,每个包都有相应的本地命令来运行开发服务器。/packages 下的包包括共享的 eslint 配置、数据库模式、事务性 PDF 和电子邮件模板、集成定义和配置、Jest 预设配置、后台作业和工作程序、共享日志记录器、共享的基于 Web 的 UI 组件、Redis 缓存客户端、第三方客户端库和 Stripe 集成等。

开发设置包括克隆仓库到公共 GitHub 存储库(或 fork https://github.com/crbnos/carbon/fork)。如果计划分发代码,保持源代码公开以符合 AGPLv3。对于私有存储库,需要获取商业许可。确保系统上安装了 Docker,因为此 monorepo 使用 Docker 进行本地开发。此外,必须配置以下外部服务:Upstash(无服务器 Redis)、Trigger.dev(作业运行器)和 Posthog(产品分析平台)。这些服务都有免费层,足以支持本地开发。如果自托管,不想使用 Upstash 或 Posthog,可以很容易地用 @carbon/kv 中的 redis 容器替换 Upstash,并删除 Posthog 分析。

安装步骤包括下载和初始化仓库依赖项。使用 nvm 使用 node v20,安装依赖项,然后继续其他配置步骤。


HN 热度 287 points | 评论 142 comments | 作者:barbinbrad | 1 day ago #

https://news.ycombinator.com/item?id=44792005

  • 恭喜作者,认为开发 ERP 系统是一项巨大的成就
  • 作者认为 ERP 系统应该优先考虑数据模型、集成和其它功能
  • 有评论指出 Carbon 系统部署复杂,依赖多个组件和 SaaS 产品,与自托管软件的简单性形成对比
  • 有人提到美国国家零售协会的规范文档适合作为数据模型和转换的基础
  • 评论者分享了为不同软件编写大量胶水代码以实现集成的挫败感
  • 有人提出可以通过提供 Pulumi 或 Terraform 程序来简化部署问题
  • 评论指出即使有部署工具,系统的复杂性仍然存在,对于非专业团队来说难以维护
  • 有人提到系统升级时可能会因为一个小的变化而影响整个系统的兼容性
  • 评论者认为冻结依赖并推迟更新是一种常见的做法,但会导致大量工作积累
  • 作者提到他们的系统全部基于 MIT/Apache 许可,并关注 fastabase 项目
  • 有人猜测 AGPL 许可的目的是同时允许自托管和作为服务销售
  • 一位家具制造商表示,他们自己构建了订单管理系统,因为市面上的软件不符合他们的需求
  • 评论者建议在首页添加更好的演示视频或 GIF 以展示软件功能
  • 有人指出 ERP 系统可能需要与特定公司的流程紧密集成,难以通用化
  • 作者提供了一个不完整的文档链接,详细介绍了软件功能
  • 评论者询问是否构建了自己的学习平台,并询问构建工具
  • 作者提供了学习平台的代码链接
  • 有人询问是否有用户以及目标制造公司的规模,并提到大型制造企业通常只看到主要玩家
  • 评论者提到“统一命名空间”概念,并表示如果能够展示其与工厂数据的集成,可能会引起关注

Thingino: Open-Source Firmware for IP Cameras #

https://thingino.com/

Thingino 是一个为 Ingenic SoC IP 摄像头提供的开源固件项目。该项目在 GitHub 上有仓库,同时还有 Discord 服务器和 Telegram 群组供用户交流。项目的 Wiki 页面提供了详细信息,用户还可以报告问题和获取帮助。

该项目支持多种硬件,包括室内 IP 摄像头、球形 IP 摄像头和室外 IP 摄像头,以及 IPC 模块和网络摄像头。每种设备都列出了其 SoC、图像传感器、Wi-Fi 模块和闪存芯片大小,这些信息必须匹配才能被固件支持。项目注意到一些制造商在不同批次的同一模块中更换硬件,而不会通知。

以下是一些支持的硬件示例:

  • 室内 IP 摄像头:360 AP1PA3、AJCloud T-CP2011-W32A、AJCloud T-CP8010TF-W3M 等。
  • 球形 IP 摄像头:AJCloud T-CP8040LF-W3M、Jooan T2R、LaView L2 等。
  • 室外 IP 摄像头:AOSU C5L、Dekco DC5L、Eufy E220 (T8441X)等。
  • IPC 模块:Enzhi / Vanhua AK54、Enzhi / Vanhua H33 等。
  • 网络摄像头:Hamedal C20、Wansview 106 等。

有些品牌的相机通过在 SoC 的 OTP 区域写入密钥来保护相机,这些相机对固件进行了数字签名,除非更换 SoC,否则无法使用未签名的固件。这些硬件包括 Roku Indoor Camera SE、Wyze Cam Pan 3 和 Wyze Video Doorbell 2。

还有一些相机可能基于 Ingenic SoC,但项目尚未获得这些相机的样本,因此可能无法支持。这些包括 Ezviz CS-MY3-3WHY、Galayou G2、Galayou G7 和 Winees M3 PRO。

目前不支持的硬件包括使用 Zeratul 平台的电池供电相机。

项目还提供了一些工具和指南,如 Ingenic USB 克隆工具和指南、IPC 延迟测试高精度计时器、IPC 闪存分区计算器和 IPC 内存计算器。项目网站为 thingino.com,并提供了切换主题的选项。


HN 热度 268 points | 评论 46 comments | 作者:zakki | 1 day ago #

https://news.ycombinator.com/item?id=44791984

  • Thingino 支持的最便宜的摄像头是 Cinnado D1,在美国亚马逊上售价低于 14.99 美元
  • 一些老款的 Wansview、TP-Link、Wyze 和 Imou 摄像头也支持 Thingino
  • 这些摄像头之所以便宜,是因为厂商通过订阅服务赚钱
  • OpenIPC 支持广泛的 SoC,Thingino 则专注于零售设备,提供特定设备的固件
  • Thingino 相较于 OpenIPC,在北美市场更容易上手,支持更多在美国销售的品牌
  • OpenIPC 不列出具体产品,只列出支持的芯片型号,需要用户自行研究
  • 在东欧,有市场将摄像头安装在公寓楼入口并收费提供给邻居作为增值服务
  • Jooan A2R 是最便宜的支持摄像头,价格约为 3 美元
  • Thingino 固件替换了原始固件,会失去使用厂商云服务的能力
  • 使用 Thingino 后,用户需要自己实现远程监控和事件提醒等功能
  • 有用户希望 Thingino 未来能支持 Yi 摄像头,因为 Yi 应用中增加了广告
  • 用户分享了在 Wyze 摄像头上安装 Thingino 的良好体验,认为比之前的 dafang 破解更好
  • 用户强调了为特定设备拥有固件的重要性,并愿意为此进行一些调整和尝试